您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:机械设备:从英伟达的布局看机器人的大模型和训练 - 发现报告
当前位置:首页/行业研究/报告详情/

机械设备:从英伟达的布局看机器人的大模型和训练

机械设备2024-08-06张一鸣、何鲁丽国盛证券E***
AI智能总结
查看更多
机械设备:从英伟达的布局看机器人的大模型和训练

具身智能的三要素包含算法、数据和执行器,三者相辅相成。人形机器人这种具身智能的三要素工作方式通常是:机器人接收到任务后,大模型驱动执行器及其各种传感器动作规划出运动路径和计算出相应数据,数据再反馈至大模型验证到最精确的数据。英伟达在2024年GTC大会上发布了人形机器人项目GR00T,旨在开发人形机器人的通用基础模型,英伟达GR00T项目中包含训练学习的AI平台、模拟学习的实验室平台、高算力的系统芯片等。该模型将多模式指令和过去的交互作为输入并输出机器人动作。由该平台提供支持的机器人,可以通过观察人类行为来理解自然语言和模仿动作,使机器人能够快速的学习协调性、灵活性和其他技能,适应和现实世界互动。 机器人模型从大语言模型到分层端到端模型,大大加快了人形机器人的训练速度。人形机器人大模型从最初的大语言模型到现在的分层端到端模型,产生了巨大的变化。目前的分层端到端模型相比传统的大语言模型存在诸多的优点:精确度高、高效性、灵活性和可以通过仿真模拟收集收据等。但也存在较大的问题:数据缺乏、成本高、错误率高、响应速度慢等。 近日,GR00T项目有最新进展,突破了原有人形机器人收集训练数据高昂成本的痛点,即可以通过在仿真中扩展学习实现大幅度降低人形机器人训练数据的成本。具体实现方式主要分为几步: 给定人形机器人使用AppleVisionPro得到的人类轨迹,即得到初识小量的物理世界的数据; 英伟达研究人员通过RoboCasa在仿真中改变人形机器人实验场景的视觉变化和场景布局,从而得到比原来更为庞大的数据; 研究人员再通过MimicGen改变人形机器人执行同一个人物时不同的动作,同时过滤掉失败的路径,把数据扩展到初始数据1000倍或以上倍数的数据。 拓展法则运用至机器人中面临着数据多样性、实时性和安全性考虑,对于这些限制,英伟达GR00T给出了自己的答案。英伟达研究人员通过GPU加速仿真模拟讲昂贵的数据扩展至海量数据样本的方式,突破了我们始终受限于每个机器人每天24小时的时间,英伟达新GR00T合成数据管道打破了这一限制。OpenAI在2020年首次系统的阐述了拓展法则:在一定条件内,模型性能会随着模型规模和训练数据量的增加而呈指数级别增长。 风险提示:制造业扩产不及预期风险,行业竞争格局恶化风险,机器人应 用模型开发不及预期风险。 算法、数据和执行器是具身智能的三要素,英伟达平台可用于仿真训练 具身智能的三要素主要是算法、数据和执行器,三者相辅相成。具身智能的思想自人工智能出现之初便紧紧伴随,具身智能通常具有两种形式:1)聚焦抽象的所需的智能,如AlphaGo聚焦于下棋;2)第二条路径则是为机器配备好各类最好的传感器、执行器,使其贴合人类且可以和人类进行交流互动,人形机器人是具身智能的一种体现方式,也是适合在这个世界行走和与人类交互的形式。人形机器人这种具身智能的三要素工作方式通常是:机器人接收到任务后,大模型驱动执行器及其各种传感器动作规划出运动路径和计算出相应数据,数据再反馈至大模型验证到最精确的数据。英伟达的AI平台可以做除硬件开发以外的数据训练、算法等,是人形机器人制造厂商可用的利器。 图表1:具身智能三要素 英伟达GR00T项目旨在构建人形机器人的通用大模型 GR00T本质上是为众多人形机器人提供的一个AI平台,其中包括波士顿动力、Figure AI和小鹏等公司。英伟达在2024年GTC大会上发布了人形机器人项目GR00T,旨在开发人形机器人的通用基础模型,该模型将多模式指令和过去的交互作为输入并输出机器人动作。这种先进的模型是模块化的,具有用于高级推理和规划以及低级快速、准确和反应性运动的系统。GR00T项目使用了NVIDIA三台计算机机器人堆栈的所有部分,其中包括用于训练模型的NVIDIAAI和DGX™、用于强化学习的NVIDIAIsaac™Lab,以及用于加速机器人运行时间的NVIDIAJetson™Thor和IsaacROS。 图表2:英伟达GR00T项目 1)NVIDIADGX:NVIDIADGXCloud是一个面向开发人员的端到端的AI平台,也是英伟达推出的一项云计算服务,旨在为用户提供高性能计算资源,特别是针对深度学习和AI应用,该服务主要是基于英伟的DGC系列超级计算机,且这些超级计算机具备强大的GPU和深度学习加速器,能够迅速进行负责的计算任务。 2)NVIDIAIsaacLab:基于NVIDIAOmniverse™平台构建,该平台专门针对机器人学习进行了优化,对于机器人基础模型训练至关重要。它针对强化、模仿和迁移学习进行了优化,能够训练所有类型的机器人实例。 3)IsaacROSonJetsonThor:NVIDIAIsaacROS是一组加速计算包和AI模型,旨在简化和加快高级AI机器人应用程序的开发。每一款Jetson系列都是一个完整的系统模组(SOM),Jetson系列是面向人形机器人开发的解决方案,满足各种应用的性能和预算需求,这套方案中不仅仅有高性能、高度集成的芯片(系统芯片包含基于NVIDIA Blackwell架构的下一代GPU,并配备变压器引擎,提供800万亿次浮点AI性能,可运行GR00T等多模态生成式AI模型)平台,还有丰富的配套资源。 图表3:NVIDIAIsaacLab 图表4:IsaacROSonJetsonThor 大语言模型到分层端到端模型,人形机器人的“大脑”智能度提高迅速 分层端到端模型大大加快了人形机器人的训练速度。人形机器人大模型从最初的大语言模型到现在的分层端到端模型,产生了巨大的变化。在最开始,人形机器人的运动动作基本上是通过软件层面预先编码的,如波士顿动力基本上是采用预设路径。随后出现的大语言模型,初步让人形机器人脱离预设路径可以自主决策,但最初的LLM并非是端到端的模型,而是仅能识别文字、或是独立分为多个模块的模型,无法及时反馈和涌现能力也不够强大。大模型发展至今,端到端模型已经成为人形机器人首选,目前的分层端到端模型相比传统的大语言模型存在诸多的优点: 1)精确度高:端到端模型是指输入数据后输出端会得到一个较准确的预测结果,通常分为控制、执行和决策三个层级,在计算过程中,每一个层级得到的结果均会反向反馈以得到较为精确的决策。 2)高效性:端到端模型相比大语言模型内部更为紧凑,系统内部计算流程更快,模型反应效率也更高。 3)灵活性:相比传统大语言模型智能处理文本token,端到端模型可以处理诸多如图像、声音、动作、3D信息等输入内容,模型只需微调便可转换场景。 4)可以通过仿真模拟收集收据:不再需要每个动作都需要人类或视频教机器人学习,端到端模型泛化能力较长,机器人可自行学习和计算相应的动作。 图表5:LLM在机器人上的应用 图表6:tesla一代机器人收集数据靠人类教学 图表7:MobileALOHA视频教学 人形机器人训练三大痛点:数据缺乏、成本高、成功率低 相较于生成式AI,具身智能训练数据目前较为短缺。当前不同模型所有的数据集是完全不同的,其中,大语言模型是目前数据集最大的大模型,发展最为成熟的大语言模型最大量的数据集已经达到了15Ttokens,比如目前运用较好的GPT-4。图像作为标记的模型最大数据集量已经达到了6B,如Midjourney。视频作为标记的模型大数据集量已经达到了2.6B,如世界通用大模型runway。而目前机器人的数据集量只有 2.4M ,还远远达不到成为机器人通用模型的状态。 图表8:当前大模型数据严重不足 当前大模型另一大问题是目前获取数据的成本太高,Figure单一场景的数据采集就要花费数千万美元。谷歌RT-2这样的端到端大模型,用55B的模型,运动频率只能做到1-3Hz,Figure和OpenAI展示出的Demo是原倍数播放的,动作一气呵成。据Figure给出的官方说法,这个模型能达到200Hz的输出频率,它执行动作的延时只有5ms,谷歌如果将模型压缩到5B,也只能达到50Hz,延时依然有200ms,比Figure慢了几十倍。 Figure的技术虽然快,虽然丝滑,但它背后也是谷歌花费了数千万美元基于一个单一任务场景进行了大量的数据采集,实际上也不具备全面泛化性。 图表9:Figure01简单执行任务不会卡壳 机器人已具备局部泛化能力,多任务通用执行能力有待加强。Tesla发布的最新视频中,二代机器人在特斯拉工厂已经能够非常精准的将电池装入托盘,且失误率极低,即使出现失误,Optimus也能自主纠正,迅速将电池调整好放入对应的空槽中,局部泛化性能优异。银河通用今年发布的第一代人形机器人GalbotG1则显示了在家务清洁场景中优异的泛化性能,可以为家庭收拾破碎的水杯并且从橱柜中拿出抹布清扫台面不留玻璃渣,也可以清理地面垃圾等。 图表10:tesla机器人精准扶正电池 图表11:银河通用机器人打开柜门 三维视觉小模型+基础大模型或可解决上诉部分问题,银河通用机器人已证实。针对机器人大模型泛化能力差且响应速度慢的问题,银河通用机器人创始人王鹤提出“三维视觉小模型+基础大模型”,即三层级的大模型系统:1)底层是硬件层;2)中间层是小模型层,小模型通过三维视觉和仿真数据Sim2Real学习到一系列技能,包括可泛化的自动建图、可泛化的地图导航、物体抓取、叠衣服、挂衣服等技能;3)上层是任务模型规划,用GPT-4V、Emu2等多模态大模型做任务规划者,通过它们来调用中间层的小模型。基于该系统,机器人可实现跨场景、跨物体材质、跨形态、跨物体摆放、依据人类语音指令进行的开放语义泛化抓取,成功率达95%。 图表12:银河通用创始人王鹤提出的三层级大模型架构 GR00T项目有重大突破,可大幅降低人形机器人训练成本 由英伟达GR00T项目提供支持的机器人是通过观察人类行为来理解自然语言和模仿动作,使人形机器人可以快速学习协调性、灵活性和其他技能。当前人形机器人大模型最主要的几大痛点分别是:训练数据价格高昂、训练场地的模型熟练度无法先行外推至其他场景。近日,英伟达实现了一种可以低成本系统化扩展机器人数据的方法,解决了机器人领域最痛苦的难点(大幅降低人形机器人训练成本),其采用的思维导图非常简单:人类从机器人身上收集演示数据而后在仿真中将数据扩大1000倍或以上。该过程主要分几步: 1)首先,英伟达研究人员利用AppleVisionPro作为人类操作员为机器人提供第一视角,VisionPro实时解析人类手部姿势,并将动作重新定向到机器人手部,可以看到机器人的手在物理世界上有空间重叠,虽然远程操作较为缓慢且耗时,但我们可以收集少量数据。 图表13:研究人员利用AppleVisionPro采集数据 2)收集到少量数据以后,研究人员再使用Robocossa(英伟达开发的一种生成模拟框架)在仿真中基于现实的一个物理厨房创建无数个虚拟厨房让人形机器人训练,主要是通过改变训练环节的视觉外观和适当的场景布局来倍增演示数据,这就解决了人形机器人训练场景改变后任务执行成功率骤降的问题。 图表14:初步收集数据后的训练路径 图表15:在仿真中改变场景的视觉外观和布局让机器人训练 3)最后,英伟达研究人员使用MidgenMIM增加数据大小,即改变机器人动作从而倍增数据上述数据的技术,MimicGen是基于原始人类数据所生成的大量动作轨迹并同步过滤掉失败的动作,从而形成一个更大的数据集,这整个过程相比原来训练机器人收集数据有更低的成本。 图表16:MidgenMIM工作路径 此次GR00T项目重大突破本质上显示了通过GPU加速仿真将昂贵的人类数据转化的方式。通过GPU加速的仿真技术,英伟达成功地打破了真实世界数据采集的高成本和低效率,将稀缺且昂贵的人类示范数据转化为海量的训练样本。英伟达的GR00T项目展示了机器人领域应用扩展发展的方法:数据扩展(通过RoboCasa和MimicGen实现)、任务复杂度扩展(数据规模的增加是增加任务复杂度训练的基础)、环节多样性拓展(