事项: 3月14日,由波士顿动力、特斯拉、GoogleDeepMind和Archer Aviation等大厂的前员工创立不到两年的机器人企业Figure,向市场展示了其与新投资方及合作伙伴OpenAI的首次合作成果—人形机器人Figure 01。 评论: Figure 01具备深度学习能力。Figure 01机器人接入OpenAI大模型,能够与人类对话,理解并执行人类的指令和任务。据介绍,高级视觉和语言智能搭载于OpenAI模型,同时,Figure神经网络提供快速、低级、灵巧的机器人动作。 Figure 01技术路径实现突破,为大模型和现有方案结合提供了新思路。Figure 01将摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本,在处理整个对话历史、包括过去的图像后做出语言回应,这些回应再通过文本转语音最终传递给人类。所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像,交给大模型处理,大模型推理预测下一步行为,将像素映射到200Hz、24个自由度的动作(包括手腕姿势和手指关节角度),直接输出结果,这为大模型和现有方案结合提供了新思路。整个过程依靠端到端(end-to-end neural networks)的机器人控制,无需经过中间过程的编码。 Figure 01未来发展方向明确,应用领域广阔。Figure未来将在人形机器人的系统硬件、成本、安全、批量生产计划及人工智能技术做出改良,人形机器人将会用于解决严重的劳动力短缺问题,并减少从事不安全工作的工人数量,人类将有能力创造和生产更多的东西。 投资策略。Figure 01搭载ChatGPT,技术路径实现突破,性能惊艳,应用领域广阔。有望带动AI技术创新和商业世界的发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 风险提示。多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。 一、Figure 01具备深度学习能力 Figure 01是具备深度学习能力的通用人形机器人。Figure研发的Figure 01机器人接入了OpenAI的大模型,能够与人类对话,理解并执行人类的指令和任务。据介绍,高级视觉和语言智能搭载于OpenAI模型,同时,Figure神经网络提供快速、低级、灵巧的机器人动作。 图表1 Figure 01是通用人形机器人 (一)Figure 01执行效果惊艳 Figure 01多模态交互能力强大,并能流畅执行相关任务。Figure 01搭载OpenAI大模型,官网发布的视频中,Figure 01能准确回答出它“看见”的事物,具备良好的视觉识别和理解能力、强大的多模态交互能力;当问及Figure 01能够吃点什么东西时,Figure 01将桌上的苹果递给了提问者,并表示这是“唯一我可以从桌上为你提供的食物”,展示出其语言识别和理解能力;同时,视频通过Figure 01清理桌面垃圾、整理晾碗架等场景,表现其强大的短期记忆、流畅的执行能力、推理和决策能力。据Figure AI创始人Bratt Adcock称,所有这些行为都没有经过远程操作,而是通过机器人的自我学习获得。整个视频以正常的1.0倍速连续拍摄,Figure 01的速度正在接近人类。 图表2 Figure 01执行效果惊艳 (二)Figure 01技术路径实现突破 Figure01技术路径实现突破,为大模型和现有方案结合提供了新思路。Figure 01将摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本,在处理整个对话历史、包括过去的图像后做出语言回应,这些回应再通过文本转语音最终传递给人类。所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像,交给大模型处理,大模型推理预测下一步行为,将像素映射到200Hz、24个自由度的动作(包括手腕姿势和手指关节角度),直接输出结果,这为大模型和现有方案结合提供了新思路。整个过程依靠端到端(end-to-end neural networks)的机器人控制,而无需经过中间过程的编码。 图表3 Figure 01技术路径实现突破 二、Figure 01未来发展方向明确 Figure 01未来发展方向明确,应用领域广阔。Figure未来将在人形机器人的系统硬件、成本、安全、批量生产计划及人工智能技术做出改良,人形机器人将会用于解决严重的劳动力短缺问题,并减少从事不安全工作的工人数量,人类将有能力创造和生产更多的东西。例如,在家庭中,Figure 01可以根据主人的指令进行打扫、烹饪等家务活动,甚至可以参与家庭成员之间的交流,成为一个全能的家庭助手。在工业和商业领域,Figure 01的应用前景同样广阔。它可以在工厂中执行精确的操作,提高生产效率;在零售业,它可以作为销售顾问,为顾客提供个性化的购物体验;在医疗领域,它甚至可以协助医生进行手术或进行患者护理。Figure 01的多功能性和灵活性使其成为各行各业的得力助手。 图表4 Figure三大长期规划