AI大模型发力,助力人形机器人快速落地 人形机器人由软件+硬件组成,当前人形机器人的硬件部分已经有商业化方案,核心逻辑是通过规模效应实现降本,从而实现硬件的落地,而软件端目前则没有开发的范式,具备广阔发展前景。对于特斯拉而言,其通过复用FSD,构建软硬件一体化方案,而对于入局的其他硬件商而言,如何通过协同大模型服务商,打造人形机器人产业生态圈显得至关重要。对于Open AI、英伟达、谷歌、微软等科技巨头而言,均在AI领域有强大研发能力,或可通过布局人形机器人平台,为硬件商赋能,推动产业快速迭代。此外,对于国内科技巨头华为而言,其在造车领域通过软件赋能产业发展获得巨大成功,未来也有望在人形机器人领域复用造车模式。 特斯拉复用FSD方案,机器人的“苹果”平台呼之欲出 Optimus问世前,人形机器人存在成本高、不智能、控制水平差的缺陷,无法实现量产。而Optimus突破了不智能、难控制的缺陷,采用汽车域控制器的控制方式并复用FSD系统,通过闭环数据引擎,不断升级的感知、规划控制算法以及高算力、模型训练效率达8分钟/个的超算系统共同打通“感知-认知-决策”链路,拥有了智能属性。 英伟达、谷歌等科技巨头加快布局,争相打造机器人的“安卓”平台 我们以英伟达、谷歌、微软三家公司在机器人平台的布局,来看机器人大模型的发展。(1)英伟达积极拓展机器人平台,推动生成式AI发展。英伟达于2023年5月推出自主移动机器人平台ISAAC AMR,主要用于移动机器人仓储、分拣中心及运输途中等场景。2023年10月19日,英伟达宣布适用于边缘AI和机器人的Jetson平台的两大框架(Isaac ROS和Metropolis)的扩展即将推出。此外,英伟达开发出Eureka算法,利用GPT-4等自然语言处理模型来理解和生成语言指令,并根据人类指令完成任务。(2)谷歌合并两大团队,引领机器人大模型发展。谷歌在机器人大模型领域的发展是基于自身AI团队以及DeepMind。2023年4月,谷歌将DeepMind与自身AI团队(GoogleBrain)合并。2023年6月,谷歌发布RobotCat,此模型为Gato模型的升级,可以通过自主学习操控机械臂,完成多项任务。2023年7月,谷歌发布RT-2,该模型为RT-1的升级,可以根据人类的指令行事。(3)微软通过ChatGPT实现用人类语言控制机器人。微软团队专门开发的一系列机器人API和高级函数库,通过ChatGPT实现用人类语言控制机器人。此外,微软开发了一个协作开源平台Prompt Craft,任何人都能在此分享不同类机器人的Prompt策略。 风险提示:人形机器人降本落地不及预期;人形机器人大模型发展不及预期。 1、AI大模型发力,助力人形机器人快速落地 人形机器人由软件+硬件组成,当前人形机器人的硬件部分已经有商业化方案,核心逻辑是通过规模效应实现降本,从而实现硬件的落地,而软件端目前则没有开发的范式,具备广阔发展前景。 巨头纷纷入局机器人大模型平台,争相打造机器人的“安卓”平台。2022年,特斯拉发布人形机器人原型机Optimus,带动了行业的发展,2023年,国内外多家人形机器人厂商加快产品布局,国内小米、智元、宇树、达闼等纷纷发布自己的产品。我们认为,对于特斯拉而言,其通过复用自动驾驶FSD方案,实现了软硬件一体化发展。而对于其他硬件厂商,如何通过协同大模型服务商,打造人形机器人产业生态圈显得至关重要。对于OpenAI、英伟达、谷歌、微软等科技巨头而言,均在AI领域有强大研发能力,或可通过布局人形机器人平台,推动产业快速迭代。 图1:巨头纷纷入局机器人大模型平台,争相打造机器人的“安卓”平台 2、海外科技巨头纷纷入局机器人平台,推动产业迭代 2.1、特斯拉复用FSD方案,机器人的“苹果”平台呼之欲出 特斯拉Optimus复用完全自动驾驶解决方案FSD。马斯克认为,想要解决自动驾驶,就必须解决现实世界中的人工智能,因此特斯拉一直在向人工智能技术公司转型。特斯拉研发人形机器人的初衷便是最大程度上利用特斯拉在造车和自动驾驶方面的优势,特别是自动驾驶研发过程中积累的算法经验、数据驱动能力、AI芯片能力、模型训练能力等,智能是特斯拉投入机器人领域最核心的竞争力。 FSD是特斯拉的自动驾驶解决方案,也是特斯拉机器人的“大脑”。FSD系统由数据、算法、硬件构成整体架构,其迭代路径则是通过不断升级算力的硬件来支撑不断升级的算法从而处理不断增加的海量数据。由图所示,左边的训练基础设施(Training Infra)和右边的AI编译器&推理引擎(AI Compiler& Inference),以及下方的训练数据(Training Data),共同输入信息进入神经网络(Neutral Networks)中,对占用网络(Occupancy)和一些几何形状(Lanes and Objects)进行分析,最后整体输出结果,生成自动驾驶车辆/人形机器人的路径规划。 图2:特斯拉复用FSD,开发人形机器人 特斯拉FSD系统已有海量数据储备,开发人形机器人可节省大量前期费用。车队传回的数据与场景仿真生成的数据共同构成特斯拉FSD系统的数据收集。2022年FSD beta软件(完全自动驾驶测试版)使用量由2000辆车提升到16万辆车,累计拥有30PB容量的视频数据。特斯拉计划于2022年年底向全部地区推出FSD beta,收集的数据量进一步提升。 现实世界收集到的数据不足以覆盖所有场景,要完善FSD的功能,还需要做仿真模拟。根据2022年特斯拉AI Day上Autopilot团队成员介绍,目前特斯拉仅用5分钟时间,就可以生成与现实世界非常接近的虚拟场景,帮助特斯拉快速覆盖长尾场景。 Tesla数据引擎自成闭环,驱动迭代开发。corner case(极端情况)可以帮助由数据驱动的算法模型进行升级。影子模式是指,人在进行驾驶的同时特斯拉自动驾驶系统同样也在计算自己会怎么做,然后和人的选择进行对比。在特斯拉的数据引擎中,车队传回的数据从影子模式中挖掘模型误判(即,自动驾驶选择的操作方式是错误的)的数据,将之召回并采用自动标注工具进行标签修正,然后加入到训练和测试集中,可以不断优化云端和车端的网络。这个过程是数据闭环的关键节点,会持续生成corner case样本数据。 图3:数据引擎自成闭环,驱动迭代开发 由于人形机器人和特斯拉自动驾驶汽车都遵循“感知-认知-决策-执行”的运行逻辑,下文将重点分析FSD的感知、规划决策算法的迭代是如何让特斯拉机器人更智能的。 感知:特斯拉FSD系统拥有非常强大的纯视觉感知方案。 特斯拉纯视觉感知的重要工作是目标检测,包括对周围车辆、交通灯、限速标志的识别与检测,车道线预测,判断物体是否移动等各种任务。 在TeslaFSD视觉感知神经网络架构中,有一个共享的Backbone(RegNet+ResNe),Neck:是BiFPN,这三种网络都是目前SOTA(行业当前最佳)的网络,以后有更好的网络可以直接更换。Head是若干个头部,即Tesla的软件架构HydarNet。这样的架构符合人类视觉的流程。 图4:FSD视觉感知神经网络架构 规划和控制:Tesla拥有极强的决策规划控制算法 人体在感知到周围世界的信息后,会基于对这些信息的认知做出相应的判断,来规划自己的躯体应该作何反应并下发控制指令,人形机器人和自动驾驶汽车也是一样。 特斯拉的“交互搜索”规划模型进一步增强了FSD系统的规控能力。由于车辆、行人的未来行为都有一定的不确定性,特斯拉采用“交互搜索”(Interaction Search)的规划模型,在线预测自己和其他车辆,行人等的交互,并对每一种交互带来的风险进行评估,最终决定采取何种策略。FSD系统还能够通过Occupancy Network对可视区域进行建模来处理未知不可见场景。 在2022AI DAY上,可以看到Optimus已经可以较好地利用起FSD中的Occupancy Network的语义感知能力,从而与周围环境互动。另外机器人技术设计中运用了很多强化学习方面的算法,比如让机器人通过人类示教就能学会一类通用工作的执行方法,需要强大的模仿学习能力。 2.2、英伟达、谷歌、微软等科技巨头加快平台布局,为硬件商赋能 2.2.1、英伟达:扩展机器人平台,推动生成式AI发展 推出自主移动机器人平台IsaacAMR,主要用于仓储、分拣中心以及运输途中等场景。2023年5月29日,英伟达在中国台北国际电脑展上发布多个平台,其中包括支持第三方二次开发的全新自主移动机器人平台IsaacAMR,IsaacAMR是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘到云的软件服务、计算能力以及一套参考传感器和机器人硬件,可加快AMR的开发和部署速度,减少成本和缩短产品上市时间。 图5:英伟达IsaacAMR用于仓储、分拣中心以及运输等场景 运用全新的Metropolis和Isaac框架,扩展机器人平台。2023年10月19日,英伟达宣布适用于边缘AI和机器人的Jetson平台的两大框架(Isaac ROS和Metropolis)的扩展即将推出。 (1)NVIDA Metropolis:可以帮助企业使用全球顶尖视觉AI解决方案,改善运营效率和安全问题,为了帮助开发者快速构建和部署可扩展的视觉AI应用程序,Metropolis API和微服务扩展集将在年底前推出。 图6:NVIDA Metropolis可以帮助企业使用视觉AI解决方案 (2)NVIDA Isaac:在ROSCon2023上,英伟达宣布推出Isaac ROS和Isaac Sim软件的全新版本,对感知和模拟功能进行了重大改进。基于常用的开源机器人操作系统(ROS)的IsaacROS,为自动化带来了感知能力,让移动的物体有了“眼睛”和“耳朵”。借助GPU加速的GEM所拥有的强大功能(包括视觉里程测量、深度知觉、3D场景重建、定位和规划等),机器人开发者就拥有了为不同应用快速定制机器人解决方案所需要各种的工具。 图7:Isaac ROS为移动机器人带来“眼睛”和“耳朵” Eureka算法使用ChatGPT训练机器人,英伟达突破进展。2023年10月19日,英伟达开发出新型AI代理-Eureka,其核心思想是通过让机器人观察人类的行为和语言,并利用GPT-4等自然语言处理模型来理解和生成语言指令,机器人就能够从人类的示范中学习,并根据人类的指令来执行任务。Eureka算法的核心优势是不需要进行复杂和耗时的编程或手动操作,也不需要对任务进行详细和固定的规范。 Eureka算法基本思想:利用LLM作为一个高层次的语义规划器,根据任务描述和环境代码生成可执行的奖励函数代码,并通过进化搜索、GPU加速评估和反思等步骤来不断地优化其输出。 图8:Eureka算法基本思想 图9:Eureka算法可以训练机器人转笔 2.2.2、谷歌:合并DeepMind和Google Brain,引领机器人大模型发展 基于谷歌AI和DeepMind两条路线,引领机器人模型的发展。在机器人模型领域,谷歌自身的AI团队和DeepMind分别沿着不同的技术路线探索机器人模型。 (1)2022年5月,DeepMind发布Gato模型 DeepMind发布Gato,可处理多种任务,包括少量的显示场景任务。DeepMind推出多模态通用智能体(Agent),名为Gato。Gato可以实现不同场景的多种任务,包括给图片输出字幕、和别人聊天、用机械臂堆叠积木等等,此外,Gato还能根据上下文决定是否输出文本、关节力矩、按钮按压等。 图10:Gato可实现不同场景的多种任务 Gato模型的训练:训练阶段,来自不同任务和模态的数据被序列化为扁平的token序列,有类似于大型语言模型的transformer神经网络进行batch和其他处理。 图11:Gato的训练流程 图12:将Ga