您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:机械行业一周解一惑系列:机器人x具身智能的再思考 - 发现报告
当前位置:首页/行业研究/报告详情/

机械行业一周解一惑系列:机器人x具身智能的再思考

AI智能总结
查看更多
机械行业一周解一惑系列:机器人x具身智能的再思考

邀光雷达与视觉技术:1)激光雷达:通过发射激光束探测目标的位置、位及速度,利用TOF、AMCW和FMCW等测距方法生成三维点云图,实现环境感知。速腾聚创推出的全固态激光雷达E1R和半球形Airy,以及其Active Camera解决方案,显提升了机器人的环境感知能力,准动了其在Al机器人 领域的布同。2)视觉技术:2D视觉基于灰度或彩色图像处理,过像素特征识别物体的纹理、形状及位置,技术成熟且成本低,但计算复杂,适月于简单任务 或预算有限的场景:3D视觉通过ToF、结构光法和立体视觉法直接获取深度信 息,生或点云或深度图,适用于避障、抓取和导航等复杂任务,具有简化算法和适应动态环境的优势,但成本较高。在机器人高精度操作和动态导航中,3D视觉不可或缺,而2D视觉则适用于简单任务,随着深度学习的发展,2D视觉能力逐步增强,但3D视觉仍是关键任务的首选。 投资建议:Deepseek带领下,全面若好具身智能+Ai领域,Ai有望赋能多 个产品形态的机器人+多个新兴创业公司,产业参与者将涉及更多领域,机器人领域的软/硬件工程师红利有望持续兑现。关注和Ai+具身智能研发方向重合且 其备稀缺卡位优势的公司,比如灵巧手环节兆威机电,视觉领域奥比中光,灵巧5 手触觉电子皮肤福莱新材、日盈电子:关节力学传感器安培龙、新型传感器峰帽科技;投资机器人创业公司+总成代工的中坚科技;为若干机器人创业公司提供齿轮及相关就速器产品的中大力德等, 风险提示:具身智能相关模型算法进步不及预期、机器人技术送代路线出现变化, 本公司具备证务投资咨询业务资格,请务必阅读量后一力免费声明 VLA模型的应用 1Transformer到具身智能 1.1 transformer 架构]... —VLA模型 1.2多模态机器学习模型一 1.3从国内且身智能看VLA后续模型进展1.4以Pi0若机器人泛用性, .8 2力学数据+算法:赋能人形机器人触觉感知升级 2.1灵巧手算法:深度学习驱动的触觉-视觉融合系统3激光雷达 3.1激光雷达技术概述 3.2激光雷达在视觉感知中的应用:速腾聚创,42D和3D视觉技术 .13 4.12D视觉技术 .16 4.23D视觉实现原理分类及介绍4.33D实现原理分类及介绍4.4多种实现方案对比5投资建议 ...17 .20 .20 ..22 6风险提示插图目录表格目录 22 23 1Transformer到具身智能 -VLA模型的应用 1.1transformer架构 1.1.1英伟达COSMOS中的应用 图1:CosmosWorldFoundation模型平台主要组件 行业专晒研究/机械 图2:Cosmos自回归模型使用transformer解码器架构 图3:Co5mos扩散模型架构 图4:ReKep概述图 图5:由图像生成3D内容 通常,VLA模型会以同像或视频形式的视觉教据以及自然语言文本作为输入经过一系列的神经网络处理,输出对应的行动策略或动作序列。其核心在于能够学习到规觉、语言和行动之间的关联关系,从而实现更智能、灵活的行为决策。例如,在机器人任务中,VLA模型可以根据看到的场量(视觉)和接收到的任务指令(语言)来决定如何移动和操作(行动),其未端执行器或特定参考点在空问中所经过的路径使是运动轨迹,通过VLA模型对多模态信息的处理和分析,能够不断优化和调整运动轨迹,使机器人能够高效、准确、安全地完成各种任务。 1.2.2Pi公司元0模型与谷歌RT2模型 TO和RT2都采用视觉-语言-动作(VLA)模型架构,旨在过多模态输入实 现复杂的机器人操作。科技巨头谷欧依托自身强大的科研实力和丰富的资源开发 了谷欧RT2模型,是首个视觉-语言-行动(VLA)慢型,基于Transformer架构, 结合文本、图像和机器人运动数据进行训练,rto则由PhysicalIntelligence(Pi) 公司提出,能够控制多种机器人执行复杂任务,如折叠衣物、组装盒子、整理桌面杂物等,相对于RT2模型,TO模型有以下升级: 表1:T0模型与RT2模型比较 模拟学习等技术,并将Sim2Rea数措作为补充,在成立半年多的时里就实现了业内ToP级的灵巧手操作。目前,其机械背可以做到用手指等糖豆捏起并放在指定的碗中;一手拿起桌上透明的玻璃杯,一手从满满一笠鸡蛋中抓出一个并准确无误地放进杯中;甚至还能接过手中的文件并进行装订,然后再交还给人类。在这个过程中,AI基于视觉大模型的任务理解与规划,实现了人机交互及协同作业。 在此基础上,千寻智能CTO高阳说,要想真正去拥有一个可以帮人类做事的机器人,除了VLA之外,还有一个重点就是模型可以如何去做预训练,目前几乎所有的方式都是大量采集数据去训练,使其具有一些特定的能力,但现在的问题是 人工采集的操作数据远远小于所需要的数据,因此如何更多的利用互联网上的额据做预训练是一件非常乘要的率情。而这引导营高旧研究组提出V让La算法,它利 用GPT-4V在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分能 为一系列可执行的步账。它使用视觉语言大模型(VLM)做机器人的任务规划,主张直接使用规觉语言大模型,从而简化机器人理解任务的难度,展现出了卓越的多样性和极强的泛化能力。 图6:ViLa的框架图示 行业专晒研究/机械 而他目前搭建好的空间智能Real2Sim2Real引擎,可以实现基于消费级2D 相机不限规角、单次拍摄的压米级、万平米大规模场景的三维几何年建,并生成逼真的新视角洁柔图。更市要的是,可以基于一条真实数据,广展成教干条数据,从而御底解决具身智能面临的数据遗乏问题。这也许是他们认为的VLM的后续发展趋势一一通过与空间智能结合,获得大量的现实数据。 1.4从Pi0看机器人泛用性 回到 π O: A Vision-Language-Action Flow Model forGeneral Robot Control,要想实现机器人的泛月性,首先要确保的就是数据的多样性,T0模型 的训练数据来自多个机器人平台(如单臂机器人、双臂机器人和移动操控机器人)和多样化的任务(例如叠衣服、清理桌子、装箱等),覆盖了68个任务和7种机 器人配置,数据的多样性使得模型在面对不同的物理环境和任务时具有更好的泛 化能力。 除此之外,To模型还采用了流匹配(flowmatching)技术,以生成高频率 的动态行为,来适应复杂的物理任务,它通过将机器人特定的输入(如视觉、语言和关节状态)与连续动作分布相结合,使得模型可以在急杂场量中实现灵活的操作 这都使实验中展示出了模型处理复杂任务的能力,如从干衣机中取出衣物、清 理桌子、衣服和组装盒子等。这些任务需要机器人具备高度的灵活性和精细的物理操作能力,由此可见机器人泛用性的体现。 图8:机器人洗衣服的流程 图7:7种配置示意图 2力学数据+算法:赋能人形机器人触觉感知升级 2.1灵巧手算法:深度学习驱动的触觉-视觉融合系统 触觉感知作为获取外界信息的关健手段,在人机交互、虚拟现实技术。远程医 疗服务以及人形机器人研发等多个前沿领域具有极高的研究价值。对于人形机器人来说,在灵染任务中准捐提手部与可形变物体间的触宽数据,开据此估计手物交互状态,是一项艰巨的挑战。因此,一种具备更高维度且更加精准的分布式人 机交互界面成为研究主点,该界面能够动态捕提人类在操作可形变物体时的细微触觉变化。基于力学原理,这些触觉数据为开发先进的算法提供了基础,在实现对机器人操作过程的精确控制与优化。 2024年11月,上海交适大学卢策吾团队和刘景全团队在人机交互领域取得 王要法展,发表了以*Capturing forceful interaction with deformable objects using a deep learning-powered stretchable tactile array”(使月深度学习驱 动的可拉伸触觉阵列捕提可形变物体的力学交互)为题的成果,提出了一套创新的视觉-觉联合感知系统(VITaM),适过硬件与票法的深度协司实现高精度动态交互主建。该研究通过视觉与触觉的联合深度学习,主建了动态的手-物操作状态, 一定程度上促进了智能体在人机交互中的理解能力进步,尤其是在涉及力学交互的方面,向人类多模态感知的水平迈近了一步。 卢策吾的团队提出了视觉-觉联合算法框架,且的是通过触觉与视觉数据融合,实现动态手-物体交互的几何建与形变追踪。 整体框架有四大模块,分别是处理手套的1152维力信号,分38个区块提取 接触力特征的触觉编码器、析深度相机的点云序列,捕提物体全局几何的视觉缩码器、跨顾关联触觉与视觉特征,追踪动态形变以及生成三维隐式几何表征,驱动网格主建的绕数场预测器 本公司具备证务投资咨询业务资资,请务必风读量后一免费声明 证分研究级告 图9:视觉-触觉联合学习框架 图10:触觉手套的硬件设计 Cross-Attention),可以动态地关联轴觉与视觉特征,从而追踪如橡皮泥捏合过程 中发生的连续形变。同时。论文中利用基于绕数场(WNF)的预测网络来生成陷式几何表征,并最终通过移动立方体算法输出精确的三维模型。 图11:绕数场预测器(WNF) 图12:剪刀与橡皮泥的动态重建与遮挡区域补充 3激光雷达 3.1激光雷达技术概述 激光雷达(LiDAR),全称LightDetectionandRanging,即激光探测和测 距,是一种借助发射邀光束来精准探测目标位置、方位、速度等关键特征量的雷达 系统。激光雷达的工作原理是迪过计算激光发射到目标对象的光信号的折返的间来测量距高,利用所收集的目标对象表面大量密集的点的坐标、反射率等信息,行 出被测目标的三维模型以及线、面、体等各种相关数据,建立三维点云图,从而绘制出环境地图,实现环境感知。 结构方面,激光雷达传感器主要由两个音分组成:一是发射器,由发射波长在250至1600纳米之间光的邀光器构成,不同波长在特定环境和目标下的效果有所差异:二是接收器,负责收集、分析和处理反射信号,其中,接收器常包括: (3)用于收集光子的望远镜:(b)光学分析仪,可认接收判的光中过滤特定波长或请振总,开将光信号转换为电信号:(C)数据采集膜块,用于计票脉冲经过的时间并存储信息。 激光雷达的测距方法主要有三种:脉冲飞行时间法(ToF)、AMCW测距法和FMCW测距法。脉冲飞行时间法采用直接探测方式,通过测量激光脉冲从发出经日标反射到被探测系统采集的时间计算日标距离。AMCW测距法与脉冲飞行时间 法类似以,但区别在于,它是通过改变数光器的前入功率(电流)来调整发射光强度,对发射激光振幅进行周期性的调制,从而求解发射波与接受波之间的相位差来 反推ToF,因而也被称为iToF(indirectToF)。FMCW测距法利用光波的特性来 计算距离,发射信号的频率呈线性变化,其回波信号也呈线性变化,通过测量当前发射频率与接收频率之差,可得到日标对象的距离。 对比来若,TOF法的优点在于渠构尚单、易于实现,对发射器和接收器系统的复杂度要求较低,提供了低或本、小尺寸的解决方案:但其测量精度一般,而且容品受到外部光源引起的相互干扰,信保比较低,AMCW测距法相对而言精度更高,但由于需要发射连续光波,功率较大,对人眼存在安全陷患,因此在实际应用中会受判相关规定限制。FMCW测起法很好地弥补了前两者的缺点,它的探测精度和灵款度更高,平均功率较小对人眼安全,具有较高的信噪比,不易受阳光、城市人 造光及附近其他激光雷达系统的干扰,还可以通过检测信号的多普轴移获取目标的运动速度。但FMCW测距法的技术要求更高,激光必须在是够长的时间内保持相位完整性,以便能够粘确测量距离而不会产生明显误差,相位完整性保持的时间越长,能够测量的距离就越远,这增加了系统的复杂性,使其成本相较而言更为高品。目前,ToF法激光雷达