您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:Figure01:OpenAI大模型赋能人形机器人 - 发现报告
当前位置:首页/行业研究/报告详情/

Figure01:OpenAI大模型赋能人形机器人

信息技术2024-03-15刘高畅国盛证券艳***
Figure01:OpenAI大模型赋能人形机器人

人形机器人Figure01发布演示,智能程度惊艳。2024年3月13日,人形机器人创业公司Figure在X平台发布了自己第一个OpenAI大模型加持的机器人演示视频。借助OpenAI,Figure 01现在可以与人类进行完整的对话,OpenAI模型提供高层级的视觉和语言智能,Figure的神经网络提供快速、低层级、灵巧的机器人动作。Figure 01能理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动,包括给人类递苹果、将黑色塑料袋收拾进框子里、将杯子和盘子归置好放在沥水架上。此前在2月29日,Figure刚刚宣布以26亿美元的估值获得了包括OpenAI、英伟达、微软在内的新一轮6.75亿美元融资,同时表示OpenAI和Figure签署了一项合作协议开发下一代AI模型。 OpenAI能力加持,预训练模型决策是重要突破。Figure 01现在具备的能力包括:1)描述其周围环境。2)在做决定时使用常识推理。3)将模棱两可的高级请求转换为一些符合上下文的行为,4)用通俗的语言描述为什么它执行了特定的操作。在实现上,Figure 01把机器人摄像头捕获的图像和机载麦克风捕捉到的语音转录文本输入到一个由OpenAI训练的大型多模态模型中,该模型能够理解图像和文本,处理整个对话的历史,包括过去的图像,以生成语言回应,同一个模型负责决定在机器人上运行哪种学习到的、闭环的行为来完成给定的命令。一个理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆,通过预训练模型Figure 01能快速形成并执行计划。关于低层次双手操作技能,所有行为均由基于transformer的视觉-运动变换策略驱动,将像素直接映射到动作。预训练模型对图像和文本进行常识推理,以制定高层次计划。学习到的视觉运动策略执行计划,执行难以手动指定的快速、反应性的行为,同时,全身控制器确保安全、稳定的动态。我们认为Figure 01使用多模态预训练模型做高层次决策,再映射到低层次动作的方式类似于大脑与小脑的分工,是演示中机器人展示良好智能水平的重要因素,也是AI与机器人结合的技术路径上的重要突破。 人形机器人应用空间广阔,产业进展持续加速。根据Figure官网对未来的展望,人形机器人将彻底改变各种行业,从企业劳动角色,到协助家庭中的个人,到照顾老人,以及在其他星球上建立新世界。Figure的首批应用将是制造业、航运和物流、仓储和零售等劳动力短缺最严重的行业。除了Figure,OpenAI在2023年3月还投资了挪威人形机器人公司1XTechnologies,目前该公司的轮式机器人EVE已在进行物流和零售工作,双足人形机器人NEO正在开发中。2024年3月18日即将到来的英伟达GTC大会上,Agility Robotics、波士顿动力、迪士尼和Google DeepMind等公司将在现场展出25款机器人。我们认为,Figure与OpenAI合作后的进展速度体现了大模型赋能人形机器人的巨大潜力,基于业界目前进展,人形机器人产业落地趋势明朗,有望为产业链相关公司打开增长空间。 建议关注:三花智控、拓普集团、鸣志电器、绿的谐波。 风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 人形机器人Figure01发布演示,智能程度惊艳 2024年3月13日,人形机器人创业公司Figure在X平台发布了自己第一个OpenAI大模型加持的机器人Figure 01的演示视频。并表示借助OpenAI,Figure 01现在可以与人类进行完整的对话,OpenAI模型提供高层级的视觉和语言智能,Figure的神经网络提供快速、低层级、灵巧的机器人动作。 图表1:Figure发布Figure 01演示视频 在Figure发布的演示中,Figure 01能理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动,包括响应人类想吃东西的问题递过去苹果,然后一边将黑色塑料袋收拾进框子里一边解释递苹果的原因,将杯子和盘子归置好放在沥水架上。 图表2:Figure 01理解人类需求递给人类苹果 图表3:Figure 01将黑色塑料袋收拾进框子里 图表4:Figure 01将杯子和盘子放在沥水架上 此前在2月29日,Figure刚刚宣布以26亿美元的估值获得了包括OpenAI、英伟达、微软、Jeff Bezos、Parkway Venture Capital、Intel Capital和Align Ventures在内的新一轮6.75亿美元融资,同时表示OpenAI和Figure签署了一项合作协议开发下一代AI模型。 OpenAI大模型加持,预训练模型决策是重要突破 Figure的工程师Corey Lynch在X平台分享了Figure 01实现演示能力依赖的技术细节。Figure01+OpenAI现在具备的能力包括: 1)描述其周围环境。 2)在做决定时使用常识推理。例如,“桌子上的盘子和杯子等盘子和杯子接下来很可能会进入晾衣架”。 3)将模棱两可的高级请求(如“我饿了”)转换为一些符合上下文的行为,例如“递给对方一个苹果”。 4)用通俗易懂的语言描述为什么它执行了特定的操作。例如,“这是我唯一能从桌子上给你吃的东西”。 Corey Lynch强调演示中Figure 01的所有行为都是通过学习得到的(非远程操控),并且以正常速度运行。Figure 01把机器人摄像头捕获的图像和机载麦克风捕捉到的语音转录文本输入到一个由OpenAI训练的大型多模态模型中,该模型能够理解图像和文本。 该模型处理整个对话的历史,包括过去的图像,以生成语言回应,这些回应通过文本转语音的方式回复给人类。同一个模型负责决定在机器人上运行哪种学习到的、闭环的行为来完成给定的命令,将特定的神经网络权重加载到GPU上并执行一个策略。 图表5:Figure 01技术原理示意图 一个理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆。比如一个问题“你能把它们放在那里吗?”中的“它们”指的是什么,“那里”在哪里?正确回答需要反思记忆的能力。通过分析对话图像和文本历史的预训练模型,FIgure01能快速形成并执行计划。 关于学习到的低层次双手操作技能,所有行为均由基于transformer的视觉-运动变换策略(Visuomotor transformer policies)驱动,将像素直接映射到动作。神经网络以10hz的频率接收图像,并以200hz的频率生成24自由度动作(手腕姿势和手指关节角度)。这些动作可作为高速率的“设定点”,以供更高速率的全身控制器跟踪。 Corey Lynch认为这是一种有用的关注点分离策略:预训练模型对图像和文本进行常识推理,以制定高层次计划。学习到的视觉运动策略执行计划,执行快速、反应性的行为,这些行为很难手动指定,例如在任何位置操纵可变形的袋子。同时,全身控制器确保安全、稳定的动态,例如保持平衡。我们认为Figure 01使用多模态预训练模型做高层次决策,再映射到低层次动作的方式类似于大脑与小脑的分工,是演示中机器人展示良好智能水平的重要因素,也是AI与机器人结合的技术路径上的重要突破。 人形机器人应用空间广阔,产业进展持续加速 根据Figure官网对未来的展望,人形机器人将彻底改变各种行业,从企业劳动角色,到协助家庭中的个人,到照顾老人,以及在其他星球上建立新世界。Figure的首批应用将是制造业、航运和物流、仓储和零售等劳动力短缺最严重的行业。在早期开发中,人形机器人完成的任务将是结构化的和重复的,但随着时间的推移,人形机器人的能力将得到扩展,并能够处理更复杂的工作职能。 图表6:Figure官网展望 除了Figure,OpenAI在2023年3月还投资了挪威人形机器人公司1X Technologies,目前该公司的轮式机器人EVE已在全球范围内运营,进行物流和零售工作,双足人形机器人NEO正在开发中。 图表7:1X Technologies人形机器人 2024年3月18日即将到来的英伟达GTC大会上,Agility Robotics、波士顿动力公司、迪士尼和Google DeepMind等公司将在现场展出25款机器人,包括人形机器人、工业机械手等。 自Figure宣布与OpenAI的合作到本次发布Figure 01的演示之间只有13天。我们认为,Figure与OpenAI合作后的进展速度体现了大模型赋能人形机器人的巨大潜力,基于业界目前进展,人形机器人产业落地趋势明朗,有望为产业链相关公司打开增长空间。 建议关注 三花智控、拓普集团、鸣志电器、绿的谐波。 风险提示 机器人技术迭代不及预期风险:若机器人技术迭代不及预期,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。