您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:机械设备行业点评报告:Figure发布VLA大模型Helix,大规模减少训练数据需求 - 发现报告

机械设备行业点评报告:Figure发布VLA大模型Helix,大规模减少训练数据需求

机械设备2025-02-20周尔双、钱尧天东吴证券章***
机械设备行业点评报告:Figure发布VLA大模型Helix,大规模减少训练数据需求

事件:Figure发布VLA大模型Helix 在2月中旬宣布与OpenAI结束合作之后,当地时间2025年2月20日,Figure宣布推出自主研发的通用具身智能模型Helix,并展示了两个机器人协同工作的能力。 Helix大模型创业内多项第一,性能出众商业化前景良好 Helix是一个通用的视觉—语言—动作(VLA)模型,能将感知、语言理解、控制能力相结合。Helix取得的创新性成果包括:①全身控制:是首个能对类人机器人上肢进行高速连续控制的VLA模型,包括头部、躯干、手/手指;②多机器人协作:Helix是首个能同时控制两台机器人的VLA模型,使它们能够协作解决一项长期的操作任务;③出色的抓取能力:能够捡起任何小型物品,即使是从未见过/接触过的小型物品;④单一神经网络:Helix使用单一的神经网络权重集来学习所有行为,无需任何针对特定任务的微调;⑤具备快速商业化能力:Helix是首个能够完全在嵌入式低功耗GPU上运行的VLA模型,这赋予了其优秀的商业化落地能力。 首创双系统协作架构,实现“快思考”与“慢思考”的协调配合 Figure表示以往机器人大模型面临的问题是:VLM主干通用性强,但速度不快;而机器人的视觉运动策略速度快,但通用性不足。Helix创新性地采用了“系统1”+“系统2”的解耦架构,两个系统经过端到端的训练可以互相通信。其中系统1(S1)是一个快速的反应式视觉运动策略,能够以200赫兹的频率将S2产生的潜在语义表示转化为精确的连续机器人动作,系统2(S2)是经过互联网数据预训练的VLM,运行频率为7-9赫兹,用于场景理解和语言理解,能够在不同的物体和情境中实现泛化。 这种架构为Helix带来众多亮点:①高速与泛化能力:速度与单一任务克隆相当,并且可以实现零样本泛化;②直接输出对高维动作空间的连续控制,避免了使用复杂动作标记方案;③S1+S2的架构简洁;④关注点分离:S1与S2解耦能够实现系统分别迭代。 Helix仅使用500小时进行训练,高效实现强大的泛化能力 Figure表示Helix训练总共使用约500小时的高质量监督数据,仅占先前收集的VLA数据集规模的一小部分,并且不依赖于多机器人实体数据收集或多个训练阶段。 此次Figure最核心优点在于解决当前人形机器人泛化瓶颈—训练数据不足。过去依赖遥操和虚拟仿真收集的数据量严重不足,成本高昂,难以解决泛化问题。此次Figure通过模型创新,大幅减少机器人训练数据需求量,有望加速行业整体发展。 投资建议: 建议关注Figure链条投资机会,推荐【兆威机电(灵巧手)】【绿的谐波(谐波减速机)】,建议关注【领益智造(零部件)】【银轮股份(关节总成)】【旭升集团(铝合金壳体)】【长盈精密(零部件)】;此外我们认为大脑端如果能直接复用VLM大模型,则小脑运控的搭配重要性凸显,推荐【华中数控】,建议关注【固高科技】【雷赛智能】。 风险提示:人形机器人量产进展不及预期,人形机器人技术更迭不及预期,宏观经济风险。 1.事件:Figure发布VLA大模型Helix 在2月中旬宣布与OpenAI结束合作之后,当地时间2025年2月20日,Figure宣布推出自主研发的通用具身智能模型Helix,并展示了两个机器人协同工作的能力。 图1:2025年2月20日Figure发布Helix 2.Helix大模型创业内多项第一,性能出众商业化前景良好 Helix是一个通用的视觉—语言—动作(VLA)模型,能将感知、语言理解、控制能力相结合。Helix取得的创新性成果包括: 1)全身控制:是首个能对类人机器人上肢进行高速连续控制的VLA模型,包括头部、躯干、手/手指。 2)多机器人协作:Helix是首个能同时控制两台机器人的VLA模型,使它们能够协作解决一项长期的操作任务。 3)出色的抓取能力:能够捡起任何小型物品,即使是从未见过/接触过的小型物品。 4)单一神经网络:Helix使用单一的神经网络权重集来学习所有行为,无需任何针对特定任务的微调。 5)具备快速商业化能力:Helix是首个能够完全在嵌入式低功耗GPU上运行的VLA模型,这赋予了其优秀的商业化落地能力。 图2:Helix能够实现对人形机器人整个上半身的控制 图3:Figure机器人展现出色抓取能力 图4:Figure两台机器人协作能力较强 3.首创双系统协作架构,实现“快思考”与“慢思考”的配合 Figure表示以往机器人大模型面临的问题是:VLM主干通用性强,但速度不快; 而机器人的视觉运动策略速度快,但通用性不足。Helix创新性地采用了“系统1”+“系统2”的解耦架构,两个系统经过端到端的训练可以互相通信。其中系统1(S1)是一个快速的反应式视觉运动策略,能够以200赫兹的频率将S2产生的潜在语义表示转化为精确的连续机器人动作,系统2(S2)是经过互联网数据预训练的VLM,运行频率为7-9赫兹,用于场景理解和语言理解,能够在不同的物体和情境中实现泛化。 这种架构为Helix带来众多亮点: 1)高速与泛化能力:速度与单一任务克隆相当,并且可以实现零样本泛化; 2)可拓展性:直接输出高维动作空间连续控制,避免了使用复杂动作标记方案; 3)架构简洁:Helix使用标准架构,S1+S2的架构简洁; 4)关注点分离:S1与S2解耦能够实现系统分别迭代。 图5:Helix采用S1+S2的双系统架构 4.Helix仅使用500小时进行训练,高效实现强大的泛化能力 Figure表示Helix训练总共使用约500小时的高质量监督数据,仅占先前收集的VLA数据集规模的一小部分,并且不依赖于多机器人实体数据收集或多个训练阶段。 此次Figure最核心优点在于解决当前人形机器人泛化瓶颈—训练数据不足。过去依赖遥操和虚拟仿真收集的数据量严重不足,成本高昂,难以解决泛化问题。此次Figure通过模型创新,大幅减少机器人训练数据需求量,有望加速行业整体发展。 5.投资建议 建议关注Figure链条投资机会,推荐【兆威机电(灵巧手)】【绿的谐波(谐波减速机)】,建议关注【领益智造(零部件)】【银轮股份(关节总成)】【旭升集团(铝合金壳体)】【长盈精密(零部件)】;此外我们认为大脑端如果能直接复用VLM大模型,则小脑运控的搭配重要性凸显,推荐【华中数控】,建议关注【固高科技】【雷赛智能】。 6.风险提示 人形机器人量产进度不及预期,人形机器人技术突破不及预期,宏观经济风险。