行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

机械设备行业点评：Mobile Aloha发布，机器人场景泛化能力进一步强化

机械设备2024-01-11张一鸣、何鲁丽国盛证券墨

AI智能总结

Mobile ALOHA: 强大泛化学习的开源炒菜机器人

主要内容概览：

事件概述：斯坦福大学的华人团队发布了一款开源炒菜机器人Mobile ALOHA，这款机器人能够在复杂的场景中完成各类任务，包括烹饪多种美食、进行清洁家务等。其创新之处在于硬件设计的即插即用特性、强大的模仿学习能力以及较低的成本。

关键技术特点：

硬件设计：配备了2个腕部摄像头、1个顶部摄像头、机载电源和计算能力，支持高速移动和稳定操作重型家用物品。
成本效益：所有组件成本总计仅3.2万美元，显著低于市场同类产品。
泛化学习能力：展示了在未见任务上的快速学习能力，可迅速接近专家级别熟练度。

技术贡献：

硬件创新：实现了全身远程操作硬件的即插即用，降低了复杂任务的高性能双臂移动操作门槛。
软件突破：展示了强大的模仿学习能力，通过静态数据协同训练，提高了自主任务的成功率。

市场影响：

为机器人技术开辟了新可能性，推动了应用场景的拓宽，尤其是向消费者市场（2C）的拓展。
预期的机器人市场想象空间被进一步打开，特别是通过开源模式加速了技术的快速复制和应用。

大模型与机器人应用的融合

技术进展概览：

从传统到现代：从早期的机械驱动控制到现今基于Transformer架构的大型语言模型（LLM），机器人应用模型实现了重大飞跃。
模型类型：从LLM到VLM（视觉-语言模型）再到VLA（视觉-语言-行动模型），模型能力不断加强，能够更好地理解和执行复杂的任务。
关键技术：大规模数据集、实时推理模型、跨模态学习等技术，推动了机器人从理解环境、拆解任务到执行任务的全面进化。

大模型在机器人领域的应用：

人机交互简化：通过大语言模型，人机交互变得更简单，无需专业编程知识即可控制机器人执行各种任务。
泛化能力提升：大模型在解决机器人执行层的泛化问题上取得了显著进步，尤其是在任务拆解和路径规划方面。

Mobile ALOHA与传统烹饪机器人的对比

产品特点与区别：

硬件：Mobile ALOHA采用独立移动底座，灵活性和可移动性优于Moley等依赖轨道系统的机器人。
学习方式：Mobile ALOHA通过模仿学习，而Moley则通过记录人类操作进行学习。
泛化能力：Mobile ALOHA展现出强大的泛化能力，在未知任务上表现出色，Moley不具备这一能力。

市场前景与挑战：

市场潜力：Mobile ALOHA降低了通用机器人进入家庭市场的门槛，市场前景广阔。
技术挑战：大模型在实际应用中的泛化和微调能力仍面临数据收集、环境差异性、实时性能等挑战。

结论

Mobile ALOHA的发布标志着机器人技术的又一重大突破，特别是在成本控制、泛化学习能力以及人机交互方面展现出巨大潜力。随着大模型技术的持续进步，机器人将在更多领域提供智能和个性化的服务，同时也为制造业、机器人行业带来了新的发展机遇与挑战。然而，面对技术挑战，如数据收集、实时性能提升等，需要持续的创新与优化。

事件：斯坦福华人团队重磅发布开源炒菜机器人Mobile ALOHA，Mobile ALOHA能在复杂的场景中完成各类任务，可以烹饪各类美食如滑蛋虾仁、干贝烧鸡、耗油生菜等，也可以做扫地、洗碗等清洁家务。Mobile ALOHA 配备了2个腕部摄像头、1个顶部摄像头，并配备了机载电源和计算，移动速度和人类速度相当，机器人操作重型家用用品时仍具有良好稳定性，所有自由度都可以同时遥控操作（包括移动底座和手臂）。最重要的，打造Mobile ALOHA的所有成本仅用了3.2万美元。 Mobile ALOHA所展示出的泛化学习能力强劲，机器人应用潜力大。斯坦福机器人研究团队核心解决了两个问题：1）硬件端：打造了即插即用的全身远程操控硬件和证明了复杂任务的高性能双臂移动操作的可行性，这是机器人广泛应用于各种复杂场景的关键点；2）软件端：Mobile ALOHA展示出了强大的模仿学习能力，机器人通过静态ALOHA数据协同训练的模仿学习，可以学习各种精细复杂的任务，研究人员通过50次的示范可以把机器人的自主任务成功率提升到80%+，另外，用户使用Mobile ALOHA远程操控未见过的任务时，熟练度可以迅速接近专家级程度。Mobile ALOHA的硬件和软件都已开源，预计斯坦福所展示的机器人在应用场景的潜力在未来将会被快速复制。从传统炒菜机器人/机器人厨房到Mobile ALOHA，大模型持续进步中。传统炒菜机器人需要自动备菜和放入菜等，机器人厨房中的Moley无法自由移动、只能通过记录学习以及没有足够强的泛化能力。Mobile ALOHA相比之前的厨房/炒菜机器人拥有足够强的学习和泛化能力，可以自由移动且成本较低。尽管大模型在视觉和语言处理方面表现出变革性的能力，但在面对现实世界的机器人任务时，其泛化和微调仍然面临一系列挑战，未来我们认为大模型将会赋予机器人更强的能力，机器人将能够适应不同的任务和环境，提供更加智能和个性化的服务。投资建议：机器人的场景泛化能力进一步强化，从2B到2C，应用场景的拓宽打开机器人市场想象空间，建议关注产业链核心环节：：（1）第一梯队：鸣志电器、绿的谐波、三花智控、拓普集团；（2）丝杠：北特科技、贝斯特、五洲新春；（3）感知&力控：峰岹科技、敏芯股份、东华测试、汉威科技；（4）设备：田中精机、华辰装备、浙海德曼、日发精机。风险提示：制造业扩产不及预期的风险，行业竞争格局加剧的风险，机器人应用模型开发不及预期的风险。 1从LLM到VLM到VLA，机器人应用模型迎来奇点时刻机器人执行主要有三大层面：1）第一层：理解需求和环境，即通过传感器等了解周围环境，搞明白机器人所处的环境是室内还是室外，整个厨房长什么样，要拿的蔬菜是什么样子等等；2）第二层：拆解任务和路径规划，即机器人明白任务以后，需要将任务拆解成哪几步，并计划好机器人应该走多远，机械臂和灵巧手该怎么动，每个地方用多大力度等；3）第三层：驱动硬件执行任务，机器人将任务拆解完计划好运动步骤以后，将规划转为机械指令给到驱动系统上，驱动系统确定完速度、动量等物理因素后，机器人开始执行任务。语言大模型（LLM）是目前发展最为成熟的模型，将机器人从传统机械驱动控制转向具身智能提供了具体路径。随着2023年Chatgpt大火，基于Transformer架构的大语言模型逐步走进大众视野，早在2017年6月，Google就发布了大语言模型里程碑式的产品Transformer，成为后来基本上所有LLM的基础架构，Transformer主要工作原理是采用注意力机制来建立序列之间的相关性。而后国内外多家互联网龙头公司纷纷下场推出自己的大语言模型，如OPEN AI推出的ChatGPT系列，百度推出的文言一心，华为推出的盘古大模型等都是LLM。图表1：LLM发展脉络 ChatGPT解锁了机器人新的范式，将人机交互简单化。传统的机器人驱动方式需要工程师将任务转化为系统代码，运行过程中工程师需要不停的编写新的代码和规划来纠正机器人的行为，该过程很慢（用户需要编写低级代码）、成本高昂（需要对机器人技术有深入了解的高技能用户）并且效率低下（需要多次交互才能使事情正常工作）。ChatGPT可以为机器人场景生成代码，无需任何微调，就可以控制不同的机器人执行各种任务，且参与人员不仅限定在技术人员，原本机器人需要通过编程告知所需的执行任务，LLM取代了这个过程，使得人机交互成为更简单的事情。通过将GPT-4整合到机器人Alter3中有效地连接LLM与Alter3的身体运动，通过程序代码将人类行为的语言表达映射到机器人的身体上从而实现了直接控制。但大语言模型（LLM）只解决了机器人执行层第一层部分通用性的问题，准确性仍有待提升。图表2：LLM在机器人上的应用机器人应用模型主要有两大难点，缺乏大规模多样化的数据和泛化能力。1）缺乏大规模和多样化的机器人数据，模拟场景花费高效果一般，现实世界更加复杂多变，这限制了模型吸收广泛的机器人经验的能力。对于机器人技术来说，数据收集尤其昂贵且具有挑战性，因为数据集管理需要大量工程自主操作，或使用人类远程操作收集演示。2）缺乏可表达的、可扩展的、足够快的实时推理模型，这些模型可以从此类数据集中学习并有效地进行泛化。为了应对以上难点，2022年底，Google提出了多任务模型RT-1。Robotics Transformer 1 (RT-1)以transformer模型为基础，RT-1的训练数据是基于everyday的13个机器人在17个月内执行了700多个任务收集而来。RT-1是VLM模型，该模型采用文本指令和机器人所拍摄的图像集作为输入，通过预先训练的FiLM EfficientNet模型将它们编码为令牌，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作令牌。图表3：RT-1的架构与工作原理 RT-1是迈向通用机器人的重要一步，突破了之前机器人的零泛化性能和解决了部分机器人训练数据集缺乏的问题。RT-1主要解决的是机器人执行层的第二层问题，即任务拆解和任务实现路径规划。在RT-1大模型的加持下，机器人在可看见的任务、非可看见的任务、背景有干扰和远景场景四个类别下都表现出远高于基准的泛化性和稳健性，机器人执行从未做过的任务的成功率大幅上升，即使在有干扰的场景下成功率也大幅上升。此外，研究人员还采用了不同型号的机器人进行来训练模型，若未来大模型能对不同的机器人进行预训练，那么将会形成机器人AI通用的训练集。图表4：RT-1模型下的机器人在各个场景中的任务训练 RT-1到RT-2，VLM到VLA，机器人动作也被编码成自然语言标记的字符串。RT-2（Robotic Transformer 2）是一种新颖的视觉-语言-动作（VLA）模型，建立在RT-1基础上，该模型的演示数据是经过13个机器人在厨房办公室等环境中进行了多任务模拟训练收集的，RT-2以VLM为基础，将单个或数个图像作为输入层，并生成一系列代表自然语言文本的标记。RT-2相比RT-2最大的改变是采用模型对机器人实行控制，而非让传统机械手段控制机器人，RT-2将机器人动作（action）表示为文本token（自然语言字符串形式，也可以是机器人动作token编号的序列），并与视觉-语言数据集一起训练。动作被编码为文本字符串以后，机器人执行动作就会像执行语言命令一样简单。图表5：RT-2的训练中使用的动作字符串的表示形式 RT-2突破了机器人执行层的第三层，即将硬件驱动执行任务AI化。Googledeepmind研究团队将动作（action）模态加入到VLM模型并经历多次训练后，该模型能够解释全新的命令，并通过执行基本推断来响应客户的要求，并将动作以文本token的形式表示，再将文本token分解为机器人动作，详细的机器人动作完全取代过去模型输出的对执行层的的控制信号，形成闭环控制。在此之前的VLM大模型更多的是在机器人执行层对第一、二层进行优化，硬件执行任务的驱动更多还是采用传统控制论方法，RT-2的VLA所展现的是AI大模型控制机器人的可能性。图表6：RT-2的架构与训练 RT-2理解能力、泛化性能和推导能力均较RT-1有大幅提升，展现了构建通用物理机器人的前景。RT-2保留了机器人数据中看到的原始任务的性能，并提高了机器人在以前未见过的场景上的性能，从RT-1的32%提高到了62%，显示了大规模预训练的巨大好处。此外，RT-2与仅有视觉与训练的基准模型相比较，无论是可见还是非可见的任务上成功率都会更高。大规模训练后，RT-2展现出了惊人的学习能力和理解能力，甚至在思想导链结合推理的情况下，可以执行多阶段的语义推理、学习长期规划和低级技能，如可以决定疲惫的人最适合饮用哪一种饮料。图表7：RT-2在多种场景下执行任务成功率高于其他模型 2从传统炒菜机器人到Mobile ALOHA，人工替代愈来愈近 Mobile ALOHA为机器人技术开拓了新的可能性。有两个主要因素阻碍了模仿学习在双臂移动操作中的广泛采用：1)缺乏即插即用的全身远程操作硬件。购买现成的双臂移动操作器可能会很昂贵，例如PR2和TIAGo可能要花费超过20万美元。2)之前的机器人学习研究没有证明复杂任务的高性能双臂移动操作。无论从硬件还是学习能力的角度来看，之前的研究没有为双臂移动操作提供一个实用的解决方案。相比之前的移动机器人技术，Mobile ALOHA的核心改进主要体现在以下三个方面： 1）低成本。Mobile ALOHA选择AgileX Tracer AGV（“Tracer”）作为移动底座，其在美国的价格为7000美元，比速度和有效载荷相似的同类AGV便宜5倍多。为了避免倾倒，研发团队在底部放置了一个重达14公斤的1.26千瓦时电池作为平衡的重量。Mobile ALOHA配备了2个腕部摄像头、1个顶部摄像头，并配备了机载电源和计算，所有数据收集和计算过程都是在消费级笔记本电脑上完成的。以上设计所需成本仅为3.2万美元，相当于一个单一的工业协同机器人的价格。 2）提供了一套全身远程操作的解决方案，不止局限于桌面任务。在现实的日常环境中，许多任务都需要全身协调的灵巧操作。例如将锅放入橱柜的任务，需要机器人首先导航到橱柜，这需要机器人底座的移动性；为了打开橱柜，机器人需要倒车，同时保持牢固抓握两个门把手的动作；最后，机器人的两臂需要抓住锅柄，一起移动将锅放入橱柜，这强调双手协调的重要性。大多数研究结果都集中在桌面操作上，缺乏一般任务所必需的机动性和灵活性。Mobile ALOHA提供了一套有效的双臂和全身远程操作系统，将用户的腰部与移动底座结合起来，使机器人能够完成更加复杂的动态操作任务。 3）全新的数据收集方法，有效提高已有数据集的利用效率。Mobile ALOHA利用现有的静态ALOHA数据集进行协同训练，与仅使用Mobile ALOHA数据训练的策略相比，能够获得同等或更好的性能和数据效率，研究人员通过50次的示范可以把机器人的自主任务成功率提升到80%+。Mobile ALOHA是第一个利用静态操作数据集来提高移动操作性能和数据利用效率的机器人，全新的数据收集方法为未来机器人技术的发展开拓了新的可能性。图表8：Mobile ALOHA 图表9：Mobile ALOHA硬件细节图表10：Mobile ALOHA的数据效率图表11：Mobile ALOHA远程操作的学习曲线烹饪机器人完成完整烹饪的技术难度高，市场上多数烹饪机器人并非智能化机器人。烹饪机器人的技术难点主要表现在以下方面：1）烹饪机器人需要对物体建立合适的动力学模型来正确操作可形变物体，如敲鸡蛋、剥香蕉等。2）烹饪机器人需要灵巧的机械手来使用多样的烹饪技能。3）烹饪机器人需要具备触觉、味觉、视觉或其他特殊用

点击免费查看完整报告