RoboCat面世,“Self-improving”为通用机器人铺平道路。1)近期, Googel DeepMind推出RoboCat,其基于其多模态模型Gato,可在模拟 和物理环境中处理语言、图像和动作。2)自我提升的关键在于自我生成 训练数据。RoboCat可基于输入的机械臂操作实例,通过练习生成新的训 练数据,并将新数据合并进入训练集,用于新版本RoboCat的训练,持续 迭代。3)“通用性学习能力”为RoboCat强项,可快速适应不同机械臂 和任务操作。在多样化训练下,即使新的机械臂更加复杂,它也能在几个 小时内学会操作,并且在观察1000个由人类控制的示范项目(仅仅几个 小时就收集完毕)后,便能灵巧指挥新的机械臂。4)RoboCat具备良性 的训练循环,学习新任务越多,就能更好学习额外新任务。最初版本只有 36%概率成功完成以前未接触的任务,但最新版本已接受更多不同任务训 练,成功率增加一倍多。同时,RoboCat完成现实世界训练任务的成功率 要远高于传统基于视觉的模型方案。5)RoboCat独立学习技能和快速自 我提高的能力,特别是应用于不同的机器人时,将有助于为新一代更有效、 通用的机器人铺平道路。 从通用机器人到行业机器人,“ViT+GPT+机械”为标准范式。1)行业 机器人的实现难度相对通用机器人更低,而多模态GPT的发展是通往行 业机器人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、 泛化能力、感知能力等多方面得到极大提升。与此同时,ViT可应用于各 种模态,使用transformer编码器得到包含输入模态特征的编码,可行性 已经得到了以上业界众多工作的验证,成为了多模态GPT的典型范式。 Google推出5620亿参数的PalM-E模型,将540B PaLM和ViT-22B结 合。通过ViT将连续的具体观察结果(例如图像、状态估计或其他传感器 模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务, 包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中 不存在的物体交互的泛化能力。2)执行器是实现动态运动的最关键的部 分,当前业界与学界有众多型号的人形机器人,分别采用不同的方案。根 据UCLA《Design of a Highly Dynamic Humanoid Robot》分类,目前有 腿机器人的执行器方案可分为高速齿轮减速+力矩传感器执行器、串联弹 性执行器、本体驱动器和液压执行器等。伴随机器人需求持续释放,产业 链也有望迎来景气。 建议关注算法及行业机器人潜力公司:1)硬件供应商:三花智控、拓普 集团、鸣志电器、绿的谐波、峰岹科技等。2)潜力方案厂商:大华股份、 海康威视、千方科技、中科创达、中科信息、云从科技、亿嘉和、萤石网 络、商汤科技等。 风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞 争加剧风险。 一、RoboCat面世,“Self-improving”为通用机器人铺平道路 近期,GoogelDeepMind推出了一种可以自我改进、自我提升(self-improving)的用于机器人的AI智能体,名为“RoboCat”。据DeepMind报道,RoboCat为首个可解决和适应多种任务的机器人AI智能体,且可在各类真实的机器人产品上完成这些任务。 图表1:RoboCat操控机械臂完成各类任务 自我提升的核心在于训练数据的自我生成,减少人类监督学习的需要。RoboCat基于其多模态模型Gato(西班牙语“猫”的意思),它可以在模拟和物理环境中处理语言、图像和动作。DeepMind将Gato的架构与一个大型训练数据集合并起来,该数据集由各种机器人手臂的图像序列和动作组成,可以解决数百种任务。 图表2:RoboCat在训练中可自动生成额外的训练数据 在第一轮训练后,RoboCat进入“自我提升”的训练过程,可分为以下5个步骤: 1)搜集100~1000个由人类控制的机器人手臂操作实例; 2)根据操作实例对RoboCat进行微调(“Fine-tune”),生成专门的衍生智能体; 3)在衍生智能体上对该操作实例练习10000次,生成更多的训练数据; 4)将实例数据和自我生成的数据合并到现有训练集中; 5)在新的训练集上训练RoboCat的新版本。 RoboCat基于数百万条轨迹数据集,包括来自真实和模拟机器人手臂的数据,包括自我生成的数据。DeepMind使用四种不同类型的机器人和多种机器臂来收集基于视觉的数据,这些数据代表RoboCat将被训练去执行的任务。 图表3:RoboCat可从各种各样的训练数据类型和任务中学习 “通用性学习能力”为RoboCat强项,快速适应不同机械臂和任务操作。在RoboCat多样化训练下,即使新的机械臂更加复杂,它也能在几个小时内学会操作。在观察1000个由人类控制的示范项目(仅仅几个小时就收集完毕)之后,RoboCat能够灵巧地指挥新的机械臂,有86%概率成功拾起齿轮。通过同样水平的演示,它可以适应解决精确性和理解性相结合的任务,比如从碗里拿出正确的水果,解决形状匹配的难题,这些都是更复杂的控制所必需的。 图表4:RoboCat科学系操控新的机械臂及完成拾取齿轮的任务 图表5:RoboCat可以适应在500-1000次演示后解决任务示例 任务成功率持续提升,为通用机器人铺平道路。1)RoboCat有一个良性的训练循环:学习的新任务越多,就能更好地学习额外的新任务。最初版本的RoboCat在完成每个任务500次演示后,只有36%的概率成功完成了以前看不见的任务。但是最新的RoboCat已接受了更多不同任务的训练,在同样任务上成功率增加了一倍多。同时,RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案。2)上述改进归功于RoboCat不断增长的经验,类似于人类在特定领域深化学习时发展更多样化的技能。 RoboCat独立学习技能和快速自我提高的能力,特别是应用于不同的机器人设备时,将有助于为新一代更有效、通用的机器人铺平道路。 图表6:最终版RoboCat较一次训练后版本性能有大幅提升 图表7:RoboCat完成现实训练任务成功率要远高于传统基于视觉的模型方案 二、从通用到行业机器人,“ViT+GPT+机械”为标准范式 行业机器人,相对于通用机器人,聚焦于完成特定行业的需求,又可以分为三大类: 工业机器人:应用于制造业代替人工,目前已广泛应用于汽车、电子、化工等行业。 服务机器人:应用于直接服务人类用户,包括零售、餐饮、医疗、教育等场景。 特种机器人:应用于极端环境或是特殊任务,比如在极端天气、矿难、洪灾、火灾等事件中进行救援或是太空、深海探索等特殊场景。 行业机器人的实现难度相对通用机器人更低,而多模态GPT的发展是通往行业机器人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。 交互能力:传统的模型往往只能让机器人理解少数特定指令,甚至无法通过自然语言下达指令。GPT模型能让机器人更好地理解人类指令,从而更好地完成各类需求,使用自然语言与机器人交互也能极大提升用户交互体验。 规划控制能力:传统的机器人模型难以实现复杂任务,GPT模型具备很强的逻辑能力,可以赋能机器人完成复杂的规划控制操作。这种能力在ChatGPT的代码能力上便能体现,写代码是逻辑性很强且需要多步骤的复杂任务。2022年谷歌的论文《Chain-of-Thought Prompting Elicits Reasoning inLarge Language Models》也探索过使用思维链提示法,能激发出大型语言模型处理复杂问题的推理能力。 泛化能力:机器人应用的下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。GPT模型作为生成式模型,具备很强泛化能力,比如chatgpt有很强的多语言能力,即使其大部分训练数据为英文,并且在翻译、对话和文本生成等各类不同任务。 感知能力:多模态的发展让机器人可以同时处理包括视觉、文本、传感器等不同模态的输入,赋予机器人更强的感知能力。 ViT应用于各种模态,使用transformer编码器得到包含输入模态特征的编码,可行性已经得到了以上业界众多工作的验证,成为了多模态GPT的典型范式。ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。 Transformer架构从2017年被提出以来,迅速代替RNN成为了自然语言处理的主流架构,但视觉领域依然以CNN结构为主。2020年10月,谷歌推出Vision Transformer(ViT)模型,证明了不使用CNN,直接将Transformer结构应用于视觉模型也可以很好地执行图像分类任务。Transformer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。 图表8:ViT模型架构 2023年3月6日,谷歌推出有5620亿参数的PalM-E模型,将540B PaLM和ViT-22B结合。通过ViT将连续的具体观察结果(例如图像、状态估计或其他传感器模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中不存在的物体交互的泛化能力。 图表9:PaLM-E操控机器人在被干扰的情况下从抽屉取出薯片 执行器是实现动态运动的最关键的部分,当前业界与学界有众多型号的人形机器人,分别采用不同的方案。在UCLA论文《Design of a Highly Dynamic Humanoid Robot》中,作者将目前的有腿机器人的执行器方案分为了以下几类: 1)高速齿轮减速+力矩传感器执行器(High gear reduction + force torque sensor actuators)。提高执行器转矩密度的一个方法是使用更高的齿轮减速比。应变波齿轮传动也称为谐波齿轮传动,因为其紧凑性和没有反弹的优点被广泛使用。随着越来越复杂的控制算法的实施,力和扭矩可控性成为执行器的关键。直接的方法是将扭矩传感器集成到执行器上,并将力矩传感器(F/T传感器)放在机器人的每个肢体的末端。这种方法已被成功用在许多机器人上,如ASIMO,HRP系列,HUBO系列,JAXON,SCHAFT。除了少数例外,高齿轮减速的机器人只能实现非常缓慢和相对静态的运动。这是由于谐波传动器和F/T传感器是脆弱的,并且非常容易受到冲击。此外变速箱的高反射惯性和低效率使它不能吸收每次脚撞到地面的冲击负荷。 图表10:谐波齿轮和力矩传感器 2)串联弹性执行器(Series elastic actuator,SEA)。SEA是一种能够实现柔性输出的驱动单元,在驱动和执行模块之间添加弹性元件,来使驱动和负载之间具有柔性缓冲。 带有SEA的机器人可以展示自然、动态和节能的步态,包括ATRIAS、THOR、WALK-MAN。 然而,SEA有一个难以取舍的权衡;弹性弹簧影响系统动力学,较低的弹簧刚度意味着较低的控制带宽,而较高的弹簧刚度导致较差的冲击缓解。因此弹簧的刚度通常需要根据所使用的连接进行调整。此外在生物学中,有效的腿部刚度实际上随着运动速度的变化而变化,这使得可变的刚度成为动态运动的潜在要求。 3)本体驱动器(Proprioceptive actuator)。实现力控的一种替代方法是使用电机电流来估计致动器的扭矩输出。由于变速箱的摩擦损失和其他非线性问题,基于电流的扭矩控