2024年1月,斯坦福大学团队在社交媒体上发布了与谷歌DeepMind团队合作研发的能炒菜、能做家务的双臂机器人Mobile ALOHA。时隔不久,特斯拉也发布了关于机器人执行折叠衣物等复杂操作的演示视频,这些事件引发了人们对于人形通用机器人时代的遐想。Mobile ALOHA依托系统收集的数据,通过人类示教动作学习模仿操作技巧与身体控制。其硬件配置并不高,整套价格仅需3.2万美元,且解决方案为开源。上述成本和配置就能打造出在家庭环境下能够实现诸多功能的Mobile ALOHA,其关键在于机器人的运动控制及交互,和自主移动两方面。目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢,今年或将成为人形机器人应用的元年,下文中将讨论机器人是怎样完成复杂操作及自主移动的。 机器人如何进行复杂操作?多种AI训练路径实现运动控制及环境交互。ChatGPT引起浪潮后,以谷歌PaLM-E为代表的多模态具身VLM不断面世,人形机器人领域也出现了许多不同的AI训练方法。目前比较主流的五种AI训练思路:虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和VLA。每种方式都有其优劣之处,各家公司会通过尝试及融合多种训练方式,以寻找最为适合的AI路径。虚拟仿真指在虚拟环境中构建智能体并进行强化学习算法训练,代表为英伟达的VIMA;动捕或遥操作指将真人动作通过传感器等设备精准复制给机器人,机器人接收并收集训练信息从而学会技能,代表为特斯拉等人形厂商;模仿学习指机器人通过观察人类现场演示或端到端学习人类示教视频,理解行动中的底层逻辑,进而复现人类演示的技能,代表为斯坦福MimicPlay;VLM+小模型是由VLM大模型负责高层规划,小模型做低层运动控制,代表为谷歌PaLM-E和MetaImage Bind;VLA是从VLM中演化出来的,直接输出运动控制指令,构成感知-决策-动作的闭环过程,代表为谷歌DeepMind RT-2。 机器人如何实现自主移动?SLAM技术应用推进其发展。SLAM是实现机器人自主导航和后续交互的关键技术之一,是以定位和建图两大技术为目标的算法。根据传感器的不同,机器人用的SLAM算法可以分为二维激光SLAM、三维激光SLAM以及视觉SLAM。不同的SLAM算法,实现的具体细节会有所不同,一般通用架构会包含数据预处理、前端、后端、闭环检测、地图构建等。不同方案的SLAM均有其应用空间,三维激光、视觉SLAM更适合于人形机器人应用场景。国内多家人形机器人厂商已经在自主移动领域应用了SLAM技术,未来随着移动机器人、自动驾驶等领域SLAM技术的迁移,应用范围将更为广阔。 风险提示: 人形机器人下游发展不及预期风险;算法及算力更新迭代不及预期风险;机器人自主移动技术竞争加剧风险;技术落地不达预期风险。 1斯坦福推出擅长家务的Mobile ALOHA,特斯拉Optimus能叠衣服 2024年首周,斯坦福大学团队在社交媒体上发布了与谷歌DeepMind团队合作研发的能炒菜、能做家务的双臂机器人Mobile ALOHA,引发了人们对于人形通用机器人时代的遐想。 图表1:Mobile ALOHA自主控制炒虾仁 斯坦福大学团队重心在于机器人通过人类示教动作学习模仿操作技巧与身体控制,即依托Mobile ALOHA系统收集的数据进行模拟学习的训练。其论文中对于Mobile ALOHA的定义是一种用于收集双臂运动数据的低成本全身遥操作系统。在视频演示中,MobileALOHA迅速且流畅地完成了包括炒虾、清理桌面、水洗盘子、整理桌椅等多个非标准化的动作。根据项目团队的描述,为了实现相关功能,实验人员会首先操作机器人对每个任务的流程进行50次学习。经过协同训练后的机器人在自主完成炒虾、存放锅具、呼叫电梯等复杂移动和操作任务时成功率可以达到90%。同时,团队还设计了远程操作系统,让用户可以通过远程控制的方式控制机器人作业。 图表2:研发人员遥操作Mobile ALOHA训练并掌握技能 Mobile ALOHA的硬件配置并不高,整套价格仅需3.2万美元,且解决方案为开源。机器人的整套系统主要由以下几个部分组成: 移动底座——一台AgileX TracerAGV 运动系统——两个Viperx 300 6dof机械臂 视觉系统——3个480×640分辨率、50Hz的罗技C922xRGB摄像头 控制系统——一台配备Nvidia3070 TiGPU(8GB VRAM)和Inteli7-12800H的消费级笔记本电脑 供电系统——1.26kWh、重14kg的电池 作为一种轻型机器人,MobileALOHA全重只有75kg,在 1.5m 的高度可以施加100N的拉力,移动速度可达1.6m/s,类似于人类的平均步行速度,最多可承重100kg,最长工作12h。 图表3:Mobile ALOHA机器人硬件情况 上述成本和配置就能打造出在家庭环境下能够实现诸多功能的Mobile ALOHA,其关键在于机器人的运动控制及交互,和自主移动两方面。机械手臂的运动控制及同作业环境的交互,是该项目的技术含量所在。同现阶段通过强化学习、大模型等驱动机器人自主认知环境、执行任务不同,MobileALOHA采用的是更为直接的“模仿学习”,通过人类示范教学,机器人学习并模仿人类行为,从而构成机器人的行为逻辑;机器人的自主移动能力在Mobile ALOHA中主要体现在作为移动底座的AGV机器人上,该AGV机器人配备了一整套传感器,以支持室内SLAM、导航和基于视觉的应用,实现在定位导航、路径规划方面的能力。 时隔不久,特斯拉也发布了关于机器人执行复杂操作的演示视频。1月16日,特斯拉CEO埃隆马斯克在社交媒体X上发布了公司人形机器人Optimus叠衣服的演示视频,视频中Optimus展示出的操作速度虽然缓慢但十分自然,流畅度令人印象深刻。尽管之后马斯克表示视频中的Optimus并非完全自主行动,但该视频仍在互联网上引发热议。目前特斯拉通过远程控制机器人完成越来越复杂的任务,一方面是为了验证现阶段硬件能否灵活完成各项任务,另一方面是为了收集端到端神经网络所需的训练数据,从而让未来的机器人能够自行完成任务。马斯克也表示,未来Optimus势必可以在更任意的环境中完全自主执行复杂的任务。 图表4:特斯拉人形机器人Optimus叠衣服 从斯坦福Mobile ALOHA、特斯拉Optimus等人形机器人产品的新进展中,可以看到人形机器人已经能够完成一定程度的复杂任务,以及在特定环境下自主移动。同时,1月初谷歌DeepMind发布了三项大模型新成果AutoRT、SARA-RT和RT-Trajectory的引入,助力现实世界机器人数据收集、速度及泛化。近期的事件引发了市场对于人形机器人智能进步的关注,目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢,今年或将成为人形机器人应用的元年,下文中将讨论机器人是怎样完成复杂操作及自主移动的。 2机器人如何进行复杂操作:多种AI训练路径实现运动控制及环境交互 ChatGPT引起浪潮后,以谷歌PaLM-E为代表的多模态具身VLM不断面世,人形机器人领域也出现了许多不同的AI训练方法。通过对机器人进行AI训练,提升其“大脑”水平,从而使得机器人能够正确的执行动作及与环境中的被操作对象交互。大致总结下目前比较主流的五种AI训练思路:虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和VLA。每种方式都有其优劣之处,最终哪种训练方式会成为主流目前不得而知,各家公司可能会通过尝试及融合多种训练方式,以寻找最为适合的AI训练路径。 图表5:主流AI训练思路优劣对比及代表团队 2.1虚拟仿真(Sim2Real) 虚拟仿真(Sim2Real),全称Simulation to Reality,是指在虚拟环境中构建一个智能体并进行强化学习算法的训练,对于AI的训练是基于虚拟环境的结果。其为强化学习的一个分支,同时也属于transfer learning的一种,其主要解决的问题是在机器人领域中,直接让机器人或者机械臂在现实环境中与环境进行交互、采样时,会出现以下两个比较严重的问题: 一是采样效率太低。在应用强化学习算法解决机器人相关问题时,所需要的样本量一般会达到上千万,现实环境中采集如此数量级的样本要耗费几个月甚至更长的时间; 二是安全问题。由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错,因而在某些时刻其做出的行为可能会损伤机器人自身(例如手臂转动角度过大或者避障任务中由于碰撞造成的不可逆损伤等)或者周围的环境及生物。 在模拟器中进行强化学习算法的训练能够解决上述问题,但同时会引出一个新的问题(RealityGap)。由于模拟器对于物理环境的建模都是存在误差的,因而在模拟环境中学习到的最优策略无法直接在现实环境中应用。 此路径中的典型例子为多模态具身AI系统VIMA。VIMA诞生于2022年10月,是一个基于Transformer架构的仿真机器人智能体,由来自英伟达、斯坦福大学、加州理工学院等多方的研究者们合作完成。VIMA智能体能够接受提示(Prompt)输入,且输入可以是文本、图像、视频等多模态混合,然后输出动作并完成指定任务。不过仿真环境下的被操作对象非常清晰,无法保证真实环境中的成功率。 图表6:VIMA接收多模态prompts并执行指定任务 此外,也有针对如灵巧手等的虚拟仿真训练。北京大学王鹤课题组与北京通用人工智能研究院合作改进了现有灵巧机械手抓取物体的合成方法,提供了一套高效的程序框架用以合成多样、稳定的抓取姿势数据。通过该框架,团队为ShadowHand生成了大规模仿真数据集DexGraspNet,包含133类5355个物体的132万抓取数据,在数量和质量上优于现有灵巧机械手抓取数据集。 2.2动作捕捉或遥操作(Tele-operation) 动作捕捉或遥操作是指将真人执行指令的动作通过传感器等设备精准复制给机器人,输入的信息和行动准确且有针对性,机器人接收并同步收集训练信息,从而学会技能,其训练需要依靠真人重复操作。 不论动作捕捉或是遥操作,均是通过专用设备将人类的动作直接迁移到机器人身上,再由机器人通过传感器收集数据,以达到输入的目的。遥操作在科研技术层面并不是一个十分有潜力的路径,但考虑到机器人更多属于工程应用层面的创新,所以动捕或遥操作在实际应用中较为直接有效,能够解决现实场景的刚需,尤其适合人形机器人使用。 除开前文中提到Mobile ALOHA有配置遥操作的途径,特斯拉等多家机器人厂商都有使用过动捕或遥操作的训练路径。特斯拉在2023年股东大会上展示了Optimus的进展,视频中工程人员穿戴设备进行演示,可以看到人类抓取木品的动作被AI算法精准识别并复制到机器人身上。 图表7:Optimus工程人员穿戴设备为AI训练做演示 遥操作相比其他训练路径更为直接有效,且能够解决工业、极端危险等应用场景的刚需。比如太空探索、深海检测、核电站维护等。不仅如此,腾讯Robotics X在四足机器人领域也有基于真狗的动捕思路。 2.3模仿学习(Mimic Play) 模仿学习是指机器人通过观察人类现场演示或端到端学习人类示教视频,理解行动中的底层逻辑,进而复现人类演示的技能。过程中能够省去繁琐的编程,通过像人类一样从模仿中学习,从而最终达到与人脑类似的决策执行。 模仿学习的过程是机器人观察人类演示后迁移到自己本体上去执行任务。可以说,从人类演示中进行模仿学习,是训练机器人在现实世界中掌握技能的一种朝阳路径,其过程可泛化性强,尤其适合日常生活场景,可以通过迁移掌握人的各类零散动作如打开橱柜、拧紧螺丝等,省略原本需要为机器人进行的逐一编程。 不过,学习复杂的长期任务通常需要大量的演示,目前多为科研团队应用,量少、任务较简单,未来应用的可靠性无法保证。 2023年斯坦福和英伟达合作研究,引入了名为MimicPlay的分层学习框架,前文提及的Mobil