您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:机械设备行业点评:Mobile Aloha发布,机器人场景泛化能力进一步强化 - 发现报告
当前位置:首页/行业研究/报告详情/

机械设备行业点评:Mobile Aloha发布,机器人场景泛化能力进一步强化

机械设备2024-01-12张一鸣、何鲁丽国盛证券
机械设备行业点评:Mobile Aloha发布,机器人场景泛化能力进一步强化

事件:斯坦福华人团队重磅发布开源炒菜机器人Mobile ALOHA,Mobile ALOHA能在复杂的场景中完成各类任务,可以烹饪各类美食如滑蛋虾仁、 干贝烧鸡、耗油生菜等,也可以做扫地、洗碗等清洁家务。Mobile ALOHA 配备了2个腕部摄像头、1个顶部摄像头,并配备了机载电源和计算,移动 速度和人类速度相当,机器人操作重型家用用品时仍具有良好稳定性,所有 自由度都可以同时遥控操作(包括移动底座和手臂)。最重要的,打造Mobile ALOHA的所有成本仅用了3.2万美元。 Mobile ALOHA所展示出的泛化学习能力强劲,机器人应用潜力大。斯坦 福机器人研究团队核心解决了两个问题:1)硬件端:打造了即插即用的全 身远程操控硬件和证明了复杂任务的高性能双臂移动操作的可行性,这是机 器人广泛应用于各种复杂场景的关键点;2)软件端:Mobile ALOHA展示出 了强大的模仿学习能力,机器人通过静态ALOHA数据协同训练的模仿学习, 可以学习各种精细复杂的任务,研究人员通过50次的示范可以把机器人的 自主任务成功率提升到80%+,另外,用户使用Mobile ALOHA远程操控未 见过的任务时,熟练度可以迅速接近专家级程度。Mobile ALOHA的硬件和 软件都已开源,预计斯坦福所展示的机器人在应用场景的潜力在未来将会被 快速复制。 从传统炒菜机器人/机器人厨房到Mobile ALOHA,大模型持续进步中。传 统炒菜机器人需要自动备菜和放入菜等,机器人厨房中的Moley无法自由移 动、只能通过记录学习以及没有足够强的泛化能力。Mobile ALOHA相比之 前的厨房/炒菜机器人拥有足够强的学习和泛化能力,可以自由移动且成本 较低。尽管大模型在视觉和语言处理方面表现出变革性的能力,但在面对现 实世界的机器人任务时,其泛化和微调仍然面临一系列挑战,未来我们认为 大模型将会赋予机器人更强的能力,机器人将能够适应不同的任务和环境, 提供更加智能和个性化的服务。 投资建议:机器人的场景泛化能力进一步强化,从2B到2C,应用场景的拓 宽打开机器人市场想象空间,建议关注产业链核心环节::(1)第一梯队: 鸣志电器、绿的谐波、三花智控、拓普集团;(2)丝杠:北特科技、贝斯特、 五洲新春;(3)感知&力控:峰岹科技、敏芯股份、东华测试、汉威科技; (4)设备:田中精机、华辰装备、浙海德曼、日发精机。 风险提示:制造业扩产不及预期的风险,行业竞争格局加剧的风险,机器人 应用模型开发不及预期的风险。 1从LLM到VLM到VLA,机器人应用模型迎来奇点时刻 机器人执行主要有三大层面:1)第一层:理解需求和环境,即通过传感器等了解周围环境,搞明白机器人所处的环境是室内还是室外,整个厨房长什么样,要拿的蔬菜是什么样子等等;2)第二层:拆解任务和路径规划,即机器人明白任务以后,需要将任务拆解成哪几步,并计划好机器人应该走多远,机械臂和灵巧手该怎么动,每个地方用多大力度等;3)第三层:驱动硬件执行任务,机器人将任务拆解完计划好运动步骤以后,将规划转为机械指令给到驱动系统上,驱动系统确定完速度、动量等物理因素后,机器人开始执行任务。 语言大模型(LLM)是目前发展最为成熟的模型,将机器人从传统机械驱动控制转向具身智能提供了具体路径。随着2023年Chatgpt大火,基于Transformer架构的大语言模型逐步走进大众视野,早在2017年6月,Google就发布了大语言模型里程碑式的产品Transformer,成为后来基本上所有LLM的基础架构,Transformer主要工作原理是采用注意力机制来建立序列之间的相关性。而后国内外多家互联网龙头公司纷纷下场推出自己的大语言模型,如OPEN AI推出的ChatGPT系列,百度推出的文言一心,华为推出的盘古大模型等都是LLM。 图表1:LLM发展脉络 ChatGPT解锁了机器人新的范式,将人机交互简单化。传统的机器人驱动方式需要工程师将任务转化为系统代码,运行过程中工程师需要不停的编写新的代码和规划来纠正机器人的行为,该过程很慢(用户需要编写低级代码)、成本高昂(需要对机器人技术有深入了解的高技能用户)并且效率低下(需要多次交互才能使事情正常工作)。ChatGPT可以为机器人场景生成代码,无需任何微调,就可以控制不同的机器人执行各种任务,且参与人员不仅限定在技术人员,原本机器人需要通过编程告知所需的执行任务,LLM取代了这个过程,使得人机交互成为更简单的事情。通过将GPT-4整合到机器人Alter3中有效地连接LLM与Alter3的身体运动,通过程序代码将人类行为的语言表达映射到机器人的身体上从而实现了直接控制。但大语言模型(LLM)只解决了机器人执行层第一层部分通用性的问题,准确性仍有待提升。 图表2:LLM在机器人上的应用 机器人应用模型主要有两大难点,缺乏大规模多样化的数据和泛化能力。1)缺乏大规模和多样化的机器人数据,模拟场景花费高效果一般,现实世界更加复杂多变,这限制了模型吸收广泛的机器人经验的能力。对于机器人技术来说,数据收集尤其昂贵且具有挑战性,因为数据集管理需要大量工程自主操作,或使用人类远程操作收集演示。2)缺乏可表达的、可扩展的、足够快的实时推理模型,这些模型可以从此类数据集中学习并有效地进行泛化。 为了应对以上难点,2022年底,Google提出了多任务模型RT-1。Robotics Transformer 1 (RT-1)以transformer模型为基础,RT-1的训练数据是基于everyday的13个机器人在17个月内执行了700多个任务收集而来。RT-1是VLM模型,该模型采用文本指令和机器人所拍摄的图像集作为输入,通过预先训练的FiLM EfficientNet模型将它们编码为令牌,并通过TokenLearner压缩它们。然后将这些输入到Transformer中,Transformer输出操作令牌。 图表3:RT-1的架构与工作原理 RT-1是迈向通用机器人的重要一步,突破了之前机器人的零泛化性能和解决了部分机器人训练数据集缺乏的问题。RT-1主要解决的是机器人执行层的第二层问题,即任务拆解和任务实现路径规划。在RT-1大模型的加持下,机器人在可看见的任务、非可看见的任务、背景有干扰和远景场景四个类别下都表现出远高于基准的泛化性和稳健性,机器人执行从未做过的任务的成功率大幅上升,即使在有干扰的场景下成功率也大幅上升。 此外,研究人员还采用了不同型号的机器人进行来训练模型,若未来大模型能对不同的机器人进行预训练,那么将会形成机器人AI通用的训练集。 图表4:RT-1模型下的机器人在各个场景中的任务训练 RT-1到RT-2,VLM到VLA,机器人动作也被编码成自然语言标记的字符串。RT-2(Robotic Transformer 2)是一种新颖的视觉-语言-动作(VLA)模型,建立在RT-1基础上,该模型的演示数据是经过13个机器人在厨房办公室等环境中进行了多任务模拟训练收集的,RT-2以VLM为基础,将单个或数个图像作为输入层,并生成一系列代表自然语言文本的标记。RT-2相比RT-2最大的改变是采用模型对机器人实行控制,而非让传统机械手段控制机器人,RT-2将机器人动作(action)表示为文本token(自然语言字符串形式,也可以是机器人动作token编号的序列),并与视觉-语言数据集一起训练。动作被编码为文本字符串以后,机器人执行动作就会像执行语言命令一样简单。 图表5:RT-2的训练中使用的动作字符串的表示形式 RT-2突破了机器人执行层的第三层,即将硬件驱动执行任务AI化。Googledeepmind研究团队将动作(action)模态加入到VLM模型并经历多次训练后,该模型能够解释全新的命令,并通过执行基本推断来响应客户的要求,并将动作以文本token的形式表示,再将文本token分解为机器人动作,详细的机器人动作完全取代过去模型输出的对执行层的的控制信号,形成闭环控制。在此之前的VLM大模型更多的是在机器人执行层对第 一、二层进行优化,硬件执行任务的驱动更多还是采用传统控制论方法,RT-2的VLA所展现的是AI大模型控制机器人的可能性。 图表6:RT-2的架构与训练 RT-2理解能力、泛化性能和推导能力均较RT-1有大幅提升,展现了构建通用物理机器人的前景。RT-2保留了机器人数据中看到的原始任务的性能,并提高了机器人在以前未见过的场景上的性能,从RT-1的32%提高到了62%,显示了大规模预训练的巨大好处。此外,RT-2与仅有视觉与训练的基准模型相比较,无论是可见还是非可见的任务上成功率都会更高。大规模训练后,RT-2展现出了惊人的学习能力和理解能力,甚至在思想导链结合推理的情况下,可以执行多阶段的语义推理、学习长期规划和低级技能,如可以决定疲惫的人最适合饮用哪一种饮料。 图表7:RT-2在多种场景下执行任务成功率高于其他模型 2从传统炒菜机器人到Mobile ALOHA,人工替代愈来愈近 Mobile ALOHA为机器人技术开拓了新的可能性。有两个主要因素阻碍了模仿学习在双臂移动操作中的广泛采用:1)缺乏即插即用的全身远程操作硬件。购买现成的双臂移动操作器可能会很昂贵,例如PR2和TIAGo可能要花费超过20万美元。2)之前的机器人学习研究没有证明复杂任务的高性能双臂移动操作。无论从硬件还是学习能力的角度来看,之前的研究没有为双臂移动操作提供一个实用的解决方案。相比之前的移动机器人技术,Mobile ALOHA的核心改进主要体现在以下三个方面: 1)低成本。Mobile ALOHA选择AgileX Tracer AGV(“Tracer”)作为移动底座,其在美国的价格为7000美元,比速度和有效载荷相似的同类AGV便宜5倍多。为了避免倾倒,研发团队在底部放置了一个重达14公斤的1.26千瓦时电池作为平衡的重量。Mobile ALOHA配备了2个腕部摄像头、1个顶部摄像头,并配备了机载电源和计算,所有数据收集和计算过程都是在消费级笔记本电脑上完成的。以上设计所需成本仅为3.2万美元,相当于一个单一的工业协同机器人的价格。 2)提供了一套全身远程操作的解决方案,不止局限于桌面任务。在现实的日常环境中,许多任务都需要全身协调的灵巧操作。例如将锅放入橱柜的任务,需要机器人首先导航到橱柜,这需要机器人底座的移动性;为了打开橱柜,机器人需要倒车,同时保持牢固抓握两个门把手的动作;最后,机器人的两臂需要抓住锅柄,一起移动将锅放入橱柜,这强调双手协调的重要性。大多数研究结果都集中在桌面操作上,缺乏一般任务所必需的机动性和灵活性。Mobile ALOHA提供了一套有效的双臂和全身远程操作系统,将用户的腰部与移动底座结合起来,使机器人能够完成更加复杂的动态操作任务。 3)全新的数据收集方法,有效提高已有数据集的利用效率。Mobile ALOHA利用现有的静态ALOHA数据集进行协同训练,与仅使用Mobile ALOHA数据训练的策略相比,能够获得同等或更好的性能和数据效率,研究人员通过50次的示范可以把机器人的自主任务成功率提升到80%+。Mobile ALOHA是第一个利用静态操作数据集来提高移动操作性能和数据利用效率的机器人,全新的数据收集方法为未来机器人技术的发展开拓了新的可能性。 图表8:Mobile ALOHA 图表9:Mobile ALOHA硬件细节 图表10:Mobile ALOHA的数据效率 图表11:Mobile ALOHA远程操作的学习曲线 烹饪机器人完成完整烹饪的技术难度高,市场上多数烹饪机器人并非智能化机器人。烹饪机器人的技术难点主要表现在以下方面:1)烹饪机器人需要对物体建立合适的动力学模型来正确操作可形变物体,如敲鸡蛋、剥香蕉等。2)烹饪机器人需要灵巧的机械手来使用多样的烹饪技能。3)烹饪机器人需要具备触觉、味觉、视觉或其他特殊用