RT-2发布,机器人执行任务的准确性提高,有望推动产业进展。近期, Google以PaLI-X和PaLM-E为支柱推出了全新的机器人应用模型RT-2,该 模型具有几大创新点:1)将动作(action)模态加入到模型中,与语言、 视觉一样具有通用的数据;2)泛化性能较之前的RT-1等模型提高了3倍 以上;3)在非可见场景中执行任务的准确率从RT-1的32%提升到了62%; 4)将机器人控制与思维链推理结合,具有学习长期规划和低级技能的能力。 RT-2不仅是对现有VLM模型简单而有效的修改,也展示了构建通用物理机 器人的前景。 RT-2是新颖的视觉-语言-动作(VLA)模型,核心增量是动作(action)。 要控制机器人,就必须训练它输出动作,RT-2相比RT-1新增了动作(action) 模态,是一种新颖的视觉-语言-动作(VLA)模型,该模型在输出中将操作 表示为token(类似于语言token)来解决动作模态问题,并将动作描述为 自然语言标记生成器可处理的字符串,机器人执行将会更加准确和简单,该 模型突破了机器人执行层面硬件驱动的AI化。RT-2还表现出了强涌现能力, 有惊人的理解能力和泛化能力,与思想导链结合时还可以执行多阶段语义推 理。 执行器驱动是运动控制核心,重点关注驱动芯片和驱动器本体。RT-2应用 模型相当于机器人的“大脑”,电机等硬件设施相当于机器人的“肌肉”, 驱动器和控制器相当于机器人的“小脑”和“神经中枢”,RT-2将机器人 动作执行位置计算的非常精准,执行器驱动是运动控制的核心,重点在人形 机器人驱动器,决定驱动器性能核心的是驱控芯片,随着机器人应用模型的 迭代加速,有望为驱动芯片和驱动器企业打开广阔市场空间。 投资建议:VLA应用模型的出现,有望全面推动机器人全产业链进展,建议 关注以下细分赛道:1)执行器:三花智控、拓普集团、鸣志电器、绿的谐 波、双环传动、金力永磁、鼎智科技、步科股份、五洲新春;2)传感器: 柯力传感、汉威科技、奥比中光;3)驱动控制:峰岹科技、麦格米特、拓 邦股份、英威腾;4)本体:博实股份、优必选(港股)。 风险提示:制造业扩产不及预期的风险,行业竞争格局加剧的风险,机器人 应用模型开发不及预期的风险。 1从LLM到VLM到VLA,机器人应用模型迎来奇点时刻 机器人执行主要有三大层面:1)第一层:理解需求和环境,即通过传感器等了解周围 环境,搞明白机器人所处的环境是室内还是室外,整个厨房长什么样,要拿的蔬菜是什 么样子等等;2)第二层:拆解任务和路径规划,即机器人明白任务以后,需要将任务 拆解成哪几步,并计划好机器人应该走多远,机械臂和灵巧手该怎么动,每个地方用多 大力度等;3)第三层:驱动硬件执行任务,机器人将任务拆解完计划好运动步骤以后, 将规划转为机械指令给到驱动系统上,驱动系统确定完速度、动量等物理因素后,机器 人开始执行任务。 语言大模型(LLM)是目前发展最为成熟的模型,将机器人从传统机械驱动控制转向具 身智能提供了具体路径。随着今年Chatgpt大火,基于Transformer架构的大语言模型 逐步走进大众视野,早在2017年6月,Google就发布了大语言模型里程碑式的产品 Transformer,成为后来基本上所有LLM的基础架构,Transformer主要工作原理是采用 注意力机制来建立序列之间的相关性。而后国内外多家互联网龙头公司纷纷下场推出自 己的大语言模型,如OPEN AI推出的ChatGPT系列,百度推出的文言一心,华为推出 的盘古大模型等都是LLM。 图表1:LLM发展脉络 ChatGPT解锁了机器人新的范式,将人机交互简单化。传统的机器人驱动方式需要工 程师将任务转化为系统代码,运行过程中工程师需要不停的编写新的代码和规划来纠正 P.3 机器人的行为,该过程很慢(用户需要编写低级代码)、成本高昂(需要对机器人技术有 深入了解的高技能用户)并且效率低下(需要多次交互才能使事情正常工作)。ChatGPT 可以为机器人场景生成代码,无需任何微调,就可以控制不同的机器人执行各种任务, 且参与人员不仅限定在技术人员,原本机器人需要通过编程告知所需的执行任务,LLM 取代了这个过程,使得人机交互成为更简单的事情。但大语言模型(LLM)只解决了机 器人执行层第一层部分通用性的问题,准确性仍有待提升。 图表2:LLM在机器人上的应用 机器人应用模型主要有两大难点,缺乏大规模多样化的数据和泛化能力。1)缺乏大规 模和多样化的机器人数据,模拟场景花费高效果一般,现实世界更加复杂多变,这限制 了模型吸收广泛的机器人经验的能力。对于机器人技术来说,数据收集尤其昂贵且具有 挑战性,因为数据集管理需要大量工程自主操作,或使用人类远程操作收集演示。2)缺 乏可表达的、可扩展的、足够快的实时推理模型,这些模型可以从此类数据集中学习并 有效地进行泛化。 为了应对以上难点,2022年底,Google提出了多任务模型RT-1。Robotics Transformer 1 (RT-1)以transformer模型为基础,RT-1的训练数据是基于everyday的13个机器人 在17个月内执行了700多个任务收集而来。RT-1是VLM模型,该模型采用文本指令和 机器人所拍摄的图像集作为输入,通过预先训练的FiLM EfficientNet模型将它们编码为 令牌,并通过TokenLearner压缩它们。然后将这些输入到Transformer中,Transformer 输出操作令牌。 图表3:RT-1的架构与工作原理 RT-1是迈向通用机器人的重要一步,突破了之前机器人的零泛化性能和解决了部分机 器人训练数据集缺乏的问题。RT-1主要解决的是机器人执行层的第二层问题,即任务拆 解和任务实现路径规划。在RT-1大模型的加持下,机器人在可看见的任务、非可看见的 任务、背景有干扰和远景场景四个类别下都表现出远高于基准的泛化性和稳健性,机器 人执行从未做过的任务的成功率大幅上升,即使在有干扰的场景下成功率也大幅上升。 此外,研究人员还采用了不同型号的机器人进行来训练模型,若未来大模型能对不同的 机器人进行预训练,那么将会形成机器人AI通用的训练集。 图表4:RT-1模型下的机器人在各个场景中的任务训练 PaLM-E可以理解图像和语言、生成语言,执行多向复杂的机器人指令却无需预训练。 2023年3月,google和柏林工业大学重磅推出了截止当时最大的视觉语言模型PaLM-E, 参数量高达5620亿,该模型是PaLM-540B语言模型与ViT-22B视觉Transformer模型 (该模型此前已接受过多种复杂的视觉任务训练,如图像分类、对象检测、语义分割和 图像字幕)的结合。PaLM-E的基本工作原理,是分析机器人摄像头采集到的数据,且无 需对场景表示做任何预处理,该模型通过添加感官信息和控制能力,使得PaLM机器人 “具身”化,即达到和人类身体联系紧密的状态。 图表5:PALM-E的架构和工作方式 PaLM-E解决的主要是执行层面一、二层的问题,理解、泛化能力呈现较强的具身状态, 正迁移性明显。PaLM-E机器人可以充分理解图像、语言并相对应将任务拆解成可执行的 部分,相比较RT-1,机器人展现出来了较强的理解输入能力和更强的泛化性能。PaLM-E 还会实时对周边环境检测,实时调整其执行的任务拆解以求最终达到目标,如拿薯片被 打断后机器人能快速调整当前状态并重新拿取。更重要的,PaLM-e相比之前的大模型在 机器人上表现出了较强的涌现能力,即当模型参数突破一定数量时,会表现出让人意想 不到的能力,比如语言理解能力和逻辑推理能力等。 图表6:PALM-E展现出了较强的理解能力和泛化能力 RT-1到RT-2,VLM到VLA,机器人动作也被编码成自然语言标记的字符串。RT-2 (Robotic Transformer 2)是一种新颖的视觉-语言-动作(VLA)模型,建立在RT-1基 础上,该模型的演示数据是经过13个机器人在厨房办公室等环境中进行了多任务模拟 训练收集的,RT-2以VLM为基础,将单个或数个图像作为输入层,并生成一系列代表 自然语言文本的标记。RT-2相比RT-2最大的改变是采用模型对机器人实行控制,而非 让传统机械手段控制机器人,RT-2将机器人动作(action)表示为文本token(自然语 言字符串形式,也可以是机器人动作token编号的序列),并与视觉-语言数据集一起训 练。动作被编码为文本字符串以后,机器人执行动作就会像执行语言命令一样简单。 图表7:RT-2的训练中使用的动作字符串的表示形式 RT-2突破了机器人执行层的第三层,即将硬件驱动执行任务AI化。Googledeepmind 研究团队将动作(action)模态加入到VLM模型并经历多次训练后,该模型能够解释全 新的命令,并通过执行基本推断来响应客户的要求,并将动作以文本token的形式表示, 再将文本token分解为机器人动作,详细的机器人动作完全取代过去模型输出的对执行层的的控制信号,形成闭环控制。在此之前的VLM大模型更多的是在机器人执行层对第 一、二层进行优化,硬件执行任务的驱动更多还是采用传统控制论方法,RT-2的VLA所 展现的是AI大模型控制机器人的可能性。 图表8:RT-2的架构与训练 RT-2理解能力、泛化性能和推导能力均较RT-1有大幅提升,展现了构建通用物理机 器人的前景。RT-2保留了机器人数据中看到的原始任务的性能,并提高了机器人在以前 未见过的场景上的性能,从RT-1的32%提高到了62%,显示了大规模预训练的巨大好 处。此外,RT-2与仅有视觉与训练的基准模型相比较,无论是可见还是非可见的任务上 成功率都会更高。大规模训练后,RT-2展现出了惊人的学习能力和理解能力,甚至在思 想导链结合推理的情况下,可以执行多阶段的语义推理、学习长期规划和低级技能,如 可以决定疲惫的人最适合饮用哪一种饮料。 图表9:RT-2在多种场景下执行任务成功率高于其他模型 2RT-2给机器人带来更多可能,执行效果核心看驱控 RT-2省略了对驱动硬件的控制信号,直接生成更易理解的文本token传输到驱动器和 控制器。Googledeepmind发布的Robotics Transformer 2(RT-2)的新型视觉-语言-动 作(VLA)模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,并将执行 的动作标记为文本token,让其更加精准的理解指令并做出正确的操作。RT-2已经足够 具身化,将机器人执行层的感知、任务拆解、硬件驱动均实现了AI化,该模型的诞生不 亚于机器人产业链的一次物种进化。VLA相比VLM加入了动作(action)模态,意味着 VLA将机器人需要执行的动作计算为更简单好理解也更准确的步骤,直接将动作的文本 token发送到驱动器和控制器,最终的执行效果还是要看驱动器和控制器。 图表10:RT-2对机器人action的推理和最终执行 驱动器、控制器:人形机器人小脑与中枢神经,实现整机运动的核心控制模块。控制器 是控制动力电源与驱动电机之间能量传输的装置。控制器通过接收传感器信号获取电机 的运行状态和环境信息,并对输入的数据进行处理和解析,向驱动器发送相应信号。驱 动器根据控制器输出的PWM信号,将电能转换为机械能,控制电机的速度和位置。由 于现代工业对运动控制的要求日益增长,驱动器越来越多地承担了控制功能,驱动和控 制有集成化发展趋势。当前主流的伺服驱动器由伺服控制单元、功率驱动单元、通讯接 口单元组成。多数伺服驱动器具有独立的控制系统,内部集成主控芯片,形成驱动控制 一体化架构。主控芯片可以实现比较复杂的控制算法,一