RT-2面世,VLA模型将视觉-语言转化为机器人动作。近期Google DeepMind发布Robotic Transformer 2(RT-2),是一种新颖的视觉-语言-动作(VLA)模型。RT-2建立在Robotic Transformer 1(RT-1)的基础上,这是一个经过多任务演示训练的模型,它可以学习机器人数据中看到的任务和对象的组合。RT-2以视觉语言模型(VLM)为基础,VLM已接受网络规模数据的训练,以执行视觉问答、图像字幕或对象识别等任务,RT-2采用PaLI-X和PaLM-E作为支柱,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标记。RT-2通过将机器人动作表示为模型输出中的token(类似于语言token)来制机器人,并将操作描述为可以由标准自然语言标记生成器处理的字符串。与之前的基线(例如之前的RT-1模型和VC-1等模型)相比,RT-2的泛化性能大幅提高。Google DeepMind对机器人没看见过的物体、背景和环境进行不同程度的评估,这需要机器人从VLM预训练中学习泛化,RT-2保留了机器人数据中看到的原始任务的性能,并提高了机器人在以前看不见的场景中的性能,从RT-1的32%提高到62%,显示了大规模预训练的巨大优势 。 受到大语言模型中使用的思维链提示方法的启发 ,Google DeepMind还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。 从VLM到VLA,RT-2进一步验证了“ViT+类GPT+机械”的机器人方案。从VLM到VLA,主要进展在于将机器人动作直接作为模型token输出,省去了VLM模型将输出的指令翻译成动作控制信号的步骤 。ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。 2022年9月,Google推出了PaLI,一个统一的语言图像模型,编码器的输入部分使用了ViT。2023年3月Google推出有5620亿参数的PaLM-E模型,将540B PaLM和ViT-22B结合。在RT-1中,模型省略了将输出的指令转化为动作控制信号的步骤,直接把直接把动作当token输出。RT-2结合了PaLI-X和PaLM-E,针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。通过基于PaLM-E和PaLI-X的VLA的两个实例化,RT-2带来了高度改进的机器人策略,更重要的是通过视觉语言的预训练带来了显著更好的泛化性能。RT-2不仅是对现有VLM模型的简单而有效的修改,还展示了构建通用物理机器人的前景,让机器人可以推理、解决问题和解释信息,以在现实中执行各种任务。 多模态GPT助力机器人软件技术进步,加速机器人产业进展。从PaLM-E到以RT-2为代表的机器人软件模型算法不断提升,有望加速提升通用机器人与行业机器人的迭代速度,带动下游需求的产生,并实现包扩软件算法、机械组件、机器人整机等在内的产业链共振。行业机器人的实现难度相对通用机器人更低,而多模态GPT的发展是通往行业机器人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。我们认为,从下半年开始的1~5年内,随着GPT的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。在5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 建议关注:1)算法及行业机器人潜力公司:大华股份、海康威视、千方科技、中科创达、云从科技、中科信息、亿嘉和、萤石网络、商汤科技等。2)硬件供应商: 三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技、双环传动、中大力德、国茂股份等。 风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 一、RT-2面世,VLA模型将视觉-语言转化为机器人动作 7月28日,Google DeepMind发布Robotic Transformer 2(RT-2),是一种新颖的视觉-语言-动作(VLA)模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。视觉语言模型(VLM)在网络规模的数据集上进行训练,使这些系统能识别视觉或语言模态并跨不同语言进行操作。但要让机器人达到类似的能力水平,模型需要收集每个物体、环境、任务和情况的第一手机器人数据。 RT-2建立在Robotic Transformer 1(RT-1)的基础上,这是一个经过多任务演示训练的模型,它可以学习机器人数据中看到的任务和对象的组合。更具体地说,RT-2使用了RT-1机器人演示数据,这些数据是在办公室厨房环境中使用13个机器人在17个月内收集的。RT-2显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力。 包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。 RT-2以VLM为基础,将一个或多个图像作为输入,并生成一系列通常代表自然语言文本的标记。此类VLM已接受网络规模数据的训练,以执行视觉问答、图像字幕或对象识别等任务 。RT-2采用Pathways Language and Image model(PaLI-X)和Pathways Language model Embodied(PaLM-E)作为支柱。 为了控制机器人,模型需要输出动作,RT-2通过将操作表示为模型输出中的token(类似于语言token)来解决这一问题,并将操作描述为可以由标准自然语言标记生成器处理的字符串,如图所示,该字符串以一个标志开头,指示是继续还是终止当前操作,而不执行后续命令,然后是更改末端执行器的位置和旋转以及操作夹具所需的命令。 图表1:RT-2训练中使用的动作字符串的表示形式,这种字符串的示例可以是机器人动作标记编号的序列 与之前的基线(例如之前的RT-1模型和VC-1等模型)相比,RT-2的泛化性能大幅提高。Google DeepMind在RT-2模型上进行了6000多次机器人试验,在探索RT-2的新兴功能时,首先搜索需要将网络规模数据的知识与机器人的经验相结合的任务,然后定义三类技能:符号理解、推理和人类识别。每项任务都需要理解视觉语义概念,以及执行机器人控制以操作这些概念的能力。诸如“捡起即将从桌子上掉下来的袋子”或“将香蕉移动到二加一的和”之类的命令,机器人被要求对机器人数据中从未见过的对象或场景执行操作任务,这需要从基于网络的数据中转换出来的知识。 图表2:机器人数据中不存在的新兴机器人技能示例,需要通过网络预训练进行知识转移 Google DeepMind对机器人没看见过的物体、背景和环境进行不同程度的评估,这需要机器人从VLM预训练中学习泛化。RT-2保留了机器人数据中看到的原始任务的性能,并提高了机器人在以前看不见的场景中的性能,从RT-1的32%提高到62%,显示了大规模预训练的巨大优势。 图表3:机器人以前未见过的环境示例,RT-2可以推广到新的情况 受到大语言模型中使用的思维链提示方法的启发,Google DeepMind还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。通过对RT-2的变体进行了几百个梯度步骤的微调,以提高其联合使用语言和动作的能力。对数据进行了扩充,添加了一个额外的“计划”步骤,首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。通过此过程,RT-2可以执行更多复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。得益于其VLM主干,RT-2还可以根据图像和文本命令进行规划,从而实现基于视觉的规划。 图表4:思维链推理可以学习一个独立的模型,该模型既可以规划长期技能序列,又可以预测机器人的动作 二、从VLM到VLA,RT-2进一步验证了“ViT+类GPT+机械”的机器人方案 从VLM到VLA,主要进展在于将机器人动作指令直接作为模型token输出,省去了VLM模型将输出的指令翻译成底层控制信号的步骤。RT-2表明视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型,通过将VLM预训练与机器人数据相结合直接控制机器人。通过基于PaLM-E和PaLI-X的VLA的两个实例化,RT-2带来了高度改进的机器人策略,更重要的是带来了显著更好的泛化性能,继承自网络规模的视觉语言预训练。RT-2不仅是对现有VLM模型的简单而有效的修改,而且还展示了构建通用物理机器人的前景,让机器人可以推理、解决问题和解释信息,以在现实中执行各种任务。 ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。Transformer架构从2017年被提出以来,迅速代替RNN成为了自然语言处理的主流架构,但视觉领域依然以CNN结构为主。2020年10月,谷歌推出Vision Transformer(ViT)模型,证明了不使用CNN,直接将Transformer结构应用于视觉模型也可以很好地执行图像分类任务。Transformer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。 图表5:ViT模型架构 2022年9月,Google推出了PaLI,一个统一的语言图像模型,经过训练可以执行多种任务并使用100多种语言,这些任务涵盖视觉、语言以及多模态图像和语言应用,例如视觉问答、图像字幕、对象检测、图像分类、OCR、文本推理等。PaLI的模型架构简单、可重用且可扩展。由处理输入的Transformer编码器和生成输出文本的自回归Transformer解码器组成,为了处理图像,编码器的输入部分使用了ViT。 图表6:PaLi模型结构 2023年3月,Google推出有5620亿参数的PaLM-E模型,将540B PaLM和ViT-22B结合。通过ViT将连续的具体观察结果(例如图像、状态估计或其他传感器模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。 图表7:PaLM-E模型结构 在RT-1中,模型省略了PaLM-E将输出的指令转化为动作控制型号的步骤,直接把直接把控制信号当token输出。RT-2结合了PaLI-X和PaLM-E针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。通过基于PaLM-E和PaLI-X的VLA的两个实例化,RT-2带来了高度改进的机器人策略,更重要的是,网络规模的视觉语言预训练带来了显著更好的泛化性能。RT-2不仅是对现有VLM模型的简单而有效的修改,还展示了构建通用物理机器人的前景,让机器人可以推理、解决问题和解释信息,以在现实中执行各种任务。 图表8:RT-1模型结构 三、多模态GPT助力机器人软件技术进步,加速机器人产业进展 从PaLM-E到以RT-2为代表的机器人软件模型算法不断提升,有望加速提升通用机器人与行业机器人的可能性与迭代速度,带动下游需求的产生,并实现包扩软件算法、机械组件、机器人整机等在内的产业链共振。 行业机器人,相对于通用机器人,聚焦于完成特定行业的需求,又可以分为三大类: 工业机器人:应用于制造业代替人工,目前已广泛应用于汽车、电子、化工等行业。 服务机器人:应用于直接服务人类用户,包括零售、餐饮、医疗、教育等场景。 特种机器人:应用于极端环境或是特殊任务,比如在极端天气、矿难、洪灾、火灾等事件中进行救援或是太空、深海探索等特殊场景。 行业机器