本周关注:宗申动力、卧龙电驱、兆威机电、中大力德 具身智能的发展离不开Transformer架构。1)架构运用:Transformer架构凭借其强大的多模态融合能力和高效的并行计算能力,推动视觉、语言和行动指令的融合(VLA模型),为智能行为决策提供帮助,成为具身智能领域的重要技术基础。英伟达COSMOS平台的自回归模型和扩散模型通过Transformer架构生成高度仿真的虚拟世界状态,为机器人提供丰富的训练样本;李飞飞团队W.A.L.T模型 、ReKep以及 “ 大型世界模型 ”(LWMs) 等方面都运用到Transformer架构,显著提升了模型对复杂环境的理解和生成能力,推动了空间智能和具身智能的发展。2)VLA模型:作为基于Transformer架构的VLA模型,π0模型相较于RT2模型有所升级,通过多样化的训练数据和流匹配技术,使机器人展现强大的泛化能力和灵活的操作能力。未来,VLA模型在具身智能领域将实现进一步发展,随着千寻智能和星海图分别在灵巧手操作和空间智能方面展现了创新,今后将促进VLM与空间智能结合,向端到端通用趋势发展。 触觉与动态手:触觉感知在人机交互、虚拟现实、远程医疗和人形机器人研发等领域具有重要研究价值。精准捕捉手部与可形变物体间的力学交互数据,对于人形机器人完成复杂任务至关重要。基于触觉原理,卢策吾团队提出了视觉-触觉联合算法框架,实现了高精度动态交互重建。这一系统利用触觉手套收集信号,并结合深度相机捕捉的点云序列,通过触觉与视觉数据的融合,实现了动态手-物体交互的几何重建与形变追踪,为机器人柔性操作、虚拟现实力反馈等提供了从微力感知到实时三维重建的完整技术链。 激光雷达与视觉技术:1)激光雷达:通过发射激光束探测目标的位置、方位及速度,利用ToF、AMCW和FMCW等测距方法生成三维点云图,实现环境感知。速腾聚创推出的全固态激光雷达E1R和半球形Airy,以及其Active Camera解决方案,显著提升了机器人的环境感知能力,推动了其在AI机器人领域的布局。2)视觉技术:2D视觉基于灰度或彩色图像处理,通过像素特征识别物体的纹理、形状及位置,技术成熟且成本低,但计算复杂,适用于简单任务或预算有限的场景;3D视觉通过ToF、结构光法和立体视觉法直接获取深度信息,生成点云或深度图,适用于避障、抓取和导航等复杂任务,具有简化算法和适应动态环境的优势,但成本较高。在机器人高精度操作和动态导航中,3D视觉不可或缺,而2D视觉则适用于简单任务,随着深度学习的发展,2D视觉能力逐步增强,但3D视觉仍是关键任务的首选。 投资建议:Deepseek带领下,全面看好具身智能+Ai领域,Ai有望赋能多个产品形态的机器人+多个新兴创业公司,产业参与者将涉及更多领域,机器人领域的软/硬件工程师红利有望持续兑现。关注和Ai+具身智能研发方向重合且具备稀缺卡位优势的公司,比如灵巧手环节兆威机电,视觉领域奥比中光,灵巧手触觉电子皮肤福莱新材、日盈电子;关节力学传感器安培龙、新型传感器峰岹科技;投资机器人创业公司+总成代工的中坚科技;为若干机器人创业公司提供齿轮及相关减速器产品的中大力德等。 风险提示:具身智能相关模型算法进步不及预期、机器人技术迭代路线出现变化。 1Transformer到具身智能——VLA模型的应用 1.1transformer架构 1.1.1英伟达COSMOS中的应用 图1:Cosmos World Foundation模型平台主要组件 Cosmos WorldFoundation模型平台由几个主要组件组成:加速视频处理管道、视频分词器、WFM预训练、WFM后训练样本和护栏(安全防护机制)。其中,WFM预训练探索了两种用于构建预训练世界基础模型的方法——扩散模型和自回归模型,能根据文本、图像或视频提示生成高度仿真的虚拟世界状态,这两种模型都使用transformer架构来实现其可扩展性,其具体应用可以体现在以下几个方面: 首先,Cosmos自回归模型专为视频生成而设计,采用Transformer解码器架构,能依据输入文本和过去视频帧预测未来场景帧,如为仓库机器人生成模拟环境视频;扩散Transformer则通过解构和重建训练数据,可生成细节丰富的虚拟场景,像模拟户外工作场景。 其次 , 在物理世界理解上 , 自回归模型中3D RoPE(Rotary Position Embeddings)能编码空间和时间关系,帮助机器人感知自身与周围物体的位置和动作变化。自回归和扩散模型中的交叉注意力层结合文本输入,能生成符合物理规则的场景,让机器人学习物理交互知识。 同时,Cosmos模型可以生成大量合成运动数据,通过模仿学习来训练人形机器人。Transformer架构的并行计算能力使模型能够快速处理和生成这些数据,为机器人提供丰富的训练样本,加速机器人的学习过程,让机器人能够更快地掌握各种动作和任务技能。 图2:Cosmos自回归模型使用transformer解码器架构 图3:Cosmos扩散模型架构 1.1.2李飞飞团队中的应用 2023年,李飞飞团队与谷歌合作,推出了视频生成模型W.A.L.T(Window Attention Latent Transformer)——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。利用Transformer架构的窗口注意力机制(window attention),实现了图像和视频的跨模态生成与训练。这种多模态融合能力为机器人提供了更丰富的环境感知手段,使其能够同时处理视觉和语言信息,从而更好地理解复杂场景。 2024年,团队又提出了ReKep(Relational Key point Constraints),这是一种用于机器人操作的空间智能方法。ReKep利用预训练的视觉模型(如DINOv2)从RGB-D图像中提取关键点,并将关键点与自由形式的语言指令一起输入到视觉语言模型(如GPT-4o)中,将复杂的多阶段操作任务分解为多个子目标和路径约束,在整个过程中充分利用了Transformer在多模态融合、序列建模和实时处理方面的优势。 图4:ReKep概述图 同时,世界实验室(World Labs)计划基于与OpenAI的ChatGPT聊天机器人相同的Transformer架构来训练“大型世界模型”(LWMs),支持实时渲染和交互,用户可以在生成的3D世界中自由探索和编辑。Transformer架构能够帮助模型更好地感知和操作3D环境,其高效并行处理能力为实时性提供了技术支持,使得模型能够在复杂环境中快速响应。然而,李飞飞强调,Transformer不会是他们模型的唯一基础。 图5:由图像生成3D内容 1.2多模态机器学习模型——VLA模型 1.2.1基于transformer架构的VLA模型 VLA模型旨在将视觉信息、语言描述和行动指令进行有效的融合和理解,使智能体能够更好地感知环境、理解任务并执行相应的动作。Transformer架构因其强大的多模态融合能力和高效的并行计算能力,成为VLA模型的核心组成部分。 通常,VLA模型会以图像或视频形式的视觉数据以及自然语言文本作为输入,经过一系列的神经网络处理,输出对应的行动策略或动作序列。其核心在于能够学习到视觉、语言和行动之间的关联关系,从而实现更智能、灵活的行为决策。例如,在机器人任务中,VLA模型可以根据看到的场景(视觉)和接收到的任务指令(语言)来决定如何移动和操作(行动),其末端执行器或特定参考点在空间中所经过的路径便是运动轨迹,通过VLA模型对多模态信息的处理和分析,能够不断优化和调整运动轨迹,使机器人能够高效、准确、安全地完成各种任务。 1.2.2Pi公司π0模型与谷歌RT2模型 π0和RT2都采用视觉-语言-动作(VLA)模型架构,旨在通过多模态输入实现复杂的机器人操作。科技巨头谷歌依托自身强大的科研实力和丰富的资源开发了谷歌RT2模型,是首个视觉-语言-行动(VLA)模型,基于Transformer架构,结合文本、图像和机器人运动数据进行训练。π0则由Physical Intelligence(Pi)公司提出,能够控制多种机器人执行复杂任务,如折叠衣物、组装盒子、整理桌面杂物等,相对于RT2模型,π0模型有以下升级: 表1:π0模型与RT2模型比较 1.3从国内具身智能看VLA后续模型进展 1.3.1千寻智能 从Pi0跨越视觉、语言、动作(VLA),通过训练机器人的具身经验,获得物理智能可以看出,端到端已经是目前机器人的通用趋势了。而在千寻智能所发布的最新具身智能模型中,他们的模型可以在训练过程中同时利用监督微调、强化学习、模拟学习等技术,并将Sim2Real数据作为补充,在成立半年多的时间里就实现了业内Top级的灵巧手操作。目前,其机械臂可以做到用手指将糖豆捏起并放在指定的碗中;一手拿起桌上透明的玻璃杯,一手从满满一筐鸡蛋中抓出一个并准确无误地放进杯中;甚至还能接过手中的文件并进行装订,然后再交还给人类。在这个过程中,AI基于视觉大模型的任务理解与规划,实现了人机交互及协同作业。 在此基础上,千寻智能CTO高阳说,要想真正去拥有一个可以帮人类做事的机器人,除了VLA之外,还有一个重点就是模型可以如何去做预训练。目前几乎所有的方式都是大量采集数据去训练,使其具有一些特定的能力,但现在的问题是人工采集的操作数据远远小于所需要的数据,因此如何更多的利用互联网上的数据做预训练是一件非常重要的事情。而这引导着高阳研究组提出ViLa算法,它利用GPT-4V在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。它使用视觉语言大模型(VLM)做机器人的任务规划,主张直接使用视觉语言大模型,从而简化机器人理解任务的难度,展现出了卓越的多样性和极强的泛化能力。 图6:ViLa的框架图示 1.3.2星海图 星海图的联合创始人兼CEO-高继扬认为,具身智能的关键表现在于“一脑多形”,脑部智能化是具身智能实现的关键卡点。所以星海图非常强调“大脑”,希望可以做出可以使用各种形态的,相对通用的机器人。这一点上,他们实际上与李飞飞想要探索的“空间智能”不谋而合了。他们认为空间智能是操作智能的基础,让机器人理解物理世界,有感知和导航能力,而目前RSR(空间智能引擎)是一整个数据生产引擎,是一系列模型的配合,类似于一个可操作的数字孪生,现在可以做到对刚性物体的操作。下一代他们希望把它做成一个一体化的模型,有一定的推理和生成能力,比如看到物体的前表面能推测后表面,这样就能推测对柔性物体施加力后的形变,也能做到操作柔性物体。而空间智能实际上就是用视觉来做三维世界的理解,并且对三维世界进行重现、复现和生成。 而他目前搭建好的空间智能Real2Sim2Real引擎,可以实现基于消费级2D相机不限视角、单次拍摄的厘米级、万平米大规模场景的三维几何重建,并生成逼真的新视角渲染图。更重要的是,可以基于一条真实数据,扩展成数千条数据,从而彻底解决具身智能面临的数据匮乏问题。这也许是他们认为的VLM的后续发展趋势——通过与空间智能结合,获得大量的现实数据。 1.4从Pi0看机器人泛用性 回到 π0:A Vision-Language-Action Flow Model forGeneral Robot Control。要想实现机器人的泛用性,首先要确保的就是数据的多样性,π_0模型的训练数据来自多个机器人平台(如单臂机器人、双臂机器人和移动操控机器人)和多样化的任务(例如叠衣服、清理桌子、装箱等),覆盖了68个任务和7种机器人配置。数据的多样性使得模型在面对不同的物理环境和任务时具有更好的泛化能力。 除此之外,π0模型还采用了流匹配(flow matching)技术,以生成高频率的动态行为,来适应复杂的物理任务。它通过将机器人特定的输入(如视觉、语言和关节状态)与连续动作分布相结合,使得模型可以在复杂场景