过去一年机器人产业发展迅速,AI和机械技术新成果不断。1)2022特 斯拉AI日活动中首次推出人形机器人Optimus原型机。2)微软将 ChatGPT的能力扩展到机器人领域,用语言直观地控制机械臂、无人机、 家庭助理机器人等多个平台。3)谷歌推出有5620亿参数的PalM-E模型, 将540BPaLM和ViT-22B结合,用于机器人规划操作。4)腾讯推出自研 机器人灵巧手TRX-Hand和机械臂TRX-Arm,灵活程度堪比人手。5)第 六届数字中国建设峰会上,阿里CEO张勇透露,阿里云工程师正在实验 将千问大模型接入工业机器人。6)NVIDIA创始人黄仁勋在比利时举行的 ITF2023年半导体大会上表示下一波人工智能浪潮是 “ 具身智能 (embodied AI)”,并展示了多模态人工智能系统VIMA。7)特斯拉2023 股东大会上发布了人形机器人Optimus最新进展演示,包括电机转矩控 制能力;环境探索与记忆能力;基于人类动作演示的AI训练方式;端到 端的控制能力。 多模态GPT是通向行业机器人的钥匙。行业机器人相对通用机器人,聚 焦于特定领域,分为工业机器人、服务机器人和特种机器人。行业机器人 的实现难度相对通用机器人更低,而多模态GPT的发展是通往行业机器 人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、泛化能 力、感知能力等多方面得到极大提升。我们认为从今年下半年开始的5年 内,随着GPT的发展带来AI泛化能力提升,以及硬件水平的提高,通用 视觉、通用机械臂、通用AGV、行业机器人、真正的智能家居会进入生活。 未来5~10年,结合复杂多模态方案的大模型有望具备完备的与世界交 互的能力,在通用机器人、虚拟现实等领域得到应用。 ViT+GPT成为典型范式。ViT是可行性得到了充分验证的实现多模态的 典型方案,将语言模型的transformer架构用于视觉模型,代替了传统的 CNN,统一了CV和NLP的架构。建议关注算法&行业机器人潜力和硬件 供应商公司,具体分析可见2023年5月3日的报告《下半年的超级场景 一:多模态GPT》。 建议关注: 算法&行业机器人潜力:大华股份、海康威视、千方科技、中科信息、云 从科技、亿嘉和、萤石网络、中科创达、商汤科技等。 硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波等。 风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞 争加剧风险。 1、机器人产业发展迅速,AI和机械技术新成果不断 2022年10月1日,特斯拉推出人形机器人Optimus。2022年10月1日,特斯拉AI日活动中特斯拉人形机器人擎天柱Optimus原型机正式亮相,全身具有40个执行器。 分别为身体上28个结构执行器与手部12个执行器。身体执行器分为6类,从各项指标推测,为3类使用谐波方案+3类直线传动方案,分别为肩部6个、肘部2个、腕部6个、腰部2个、髋部6个、膝部2个、踝部4个。2)初代原型机BumbleC现场展示了行走、挥手等功能,并播放了该版本机器人在办公室浇水、在工厂搬运盒子与零部件的视频,展现了基本功能实现与承重能力。二代机Optimus由于出厂时间短尚未将行走功能训练成熟,但指关节快速进行了1、2、6、握拳等动作,展示了高精度与高灵敏度,给未来功能迭代提供了极大想象空间。 图表1:平衡性和移动速度提升过程 图表2:Optimus采用的六类执行器 2023年2月,微软将ChatGPT的能力扩展到机器人领域,用语言直观地控制机械臂、无人机、家庭助理机器人等多个平台。 图表3:微软将ChatGPT的能力用于机械臂/无人机 2023年3月6日,谷歌推出有5620亿参数的PalM-E模型,将540B PaLM和ViT-22B结合。通过ViT将连续的具体观察结果(例如图像、状态估计或其他传感器模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中不存在的物体交互的泛化能力。 图表4:PaLM-E操控机器人在被干扰的情况下从抽屉取出薯片 图表5:PaLM-E操控机器人将绿色块推到海龟处,机器人之前没见过海龟 2023年4月25日,腾讯推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm,灵活程度堪比人手。 图表6:TRX-Hand能力展示,能完成复杂的调酒动作 据科创版日报消息,4月27日,在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露,阿里云工程师正在实验将千问大模型接入工业机器人,在钉钉对话框输入一句人类语言,可远程指挥机器人工作。阿里云当天发布的一个演示视频,展现了这一实验成果。“我渴了,找点东西喝吧。”工程师通过钉钉对话框向机器人发出指令后,千问大模型立即理解了指令内容并回答,“好的,我找找有什么喝的。”随后,千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,顺利递送给工程师。 图表7:千问大模型操控机器人完成人类指令 2023年5月17日,NVIDIA创始人黄仁勋在比利时举行的ITF2023年半导体大会上表示:下一波人工智能浪潮是“具身智能(embodied AI)”,即能够理解、推理并与物理世界互动的智能系统,包括机器人、自动驾驶汽车等。具体来说,具身智能能够通过自己的物理躯体来与环境交互感知,然后自主进行规划、决策和行动,而不是被动的等待数据投喂。 黄仁勋在会上还向观众介绍了多模态人工智能系统VIMA,许多机器人操作任务可以表示为交错语言和图像/视频帧的多模态提示,VIMA能够处理这些提示并自回归地输出电机动作。VIMA使用预训练的T5模型对多模态提示进行编码,并通过交叉注意层对机器人控制器进行调节。该控制器是一个trasformer解码器,可以预测以提示和交互历史为条件的电机命令。VIMA可以根据视觉文本提示执行任务,例如“重新排列对象以匹配此场景”;可以学习概念并采取相应的行动,例如“这是一个小部件”、“那是一个东西”,然后“把这个小部件放在那个东西里”。VIMA在NVIDIAAI上运行,其数字孪生在3D开发和模拟平台NVIDIA Omniverse中运行。黄仁勋说,了解物理学的人工智能可以学习模仿物理学并做出符合物理定律的预测。 图表8:VIMA架构 为了训练和评估VIMA,NVIDIA开发了一个新的模拟基准VIMA-Bench,其中包含数千个带的有多模态提示的桌面任务、600K+用于模仿学习的专家轨迹,以及用于系统泛化的四个级别评估协议。VIMA在模型容量和数据大小上都实现了强大的可扩展性。在给定相同训练数据的情况下,它在最难的零样本泛化任务中能优于之前的SOTA方法。 图表9:VIMA操纵机器人完成多种任务,包括简单的对象操作、视觉目标达成(重新排列)、理解新名词并操 特斯拉2023股东大会上,人形机器人Optimus发布了最新进展,包括电机转矩控制能力、环境探索与记忆能力、基于人类动作演示的AI训练方式;端到端的控制,提升复杂任务能力。 图表10:电机转矩控制能力,能敲打鸡蛋而不打破 图表11:环境探索与记忆能力,双足机器人通过摄像头能够探索环境并记住 图表12:基于人类演示的AI训练方式 图表13:端到端的控制能力,用机械手处理各种物体交互。 马斯克在股东会上表示Optimus机器人的电机、控制器和电子设备,全部是自主设计的,因为特斯拉有世界一流的电机和电子团队。同时对于FSD,马斯克觉得其实也越来越接近广义的现实世界的人工智能了。特斯拉开发的AI系统希望未来可以转移到任何东西上。 马斯克认为特斯拉现在做的工作,其实是被极大的低估的。未来人形机器人的需求,可能会远远超过对汽车的需求。所以马斯克个人预测,对于特斯拉长期来讲,未来长期价值可能都是Optimus给的,并且对这个预测非常有信心。 2、多模态GPT是通向行业机器人的钥匙 行业机器人,相对于通用机器人,聚焦于完成特定行业的需求,又可以分为三大类: 工业机器人:应用于制造业代替人工,目前已经广泛应用于汽车、电子、化工等行业。 服务机器人:应用于直接服务人类用户,包括零售、餐饮、医疗、教育等场景。 特种机器人:应用于极端环境或是特殊任务,比如在极端天气、矿难、洪灾、火灾等事件中进行救援或是太空、深海探索等特殊场景。 行业机器人的实现难度相对通用机器人更低,而多模态GPT的发展是通往行业机器人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。 交互能力:传统的模型往往只能让机器人理解少数特定指令,甚至无法通过自然语言下达指令。GPT模型能让机器人更好地理解人类指令,从而更好地完成各类需求,使用自然语言与机器人交互也能极大提升用户交互体验。 规划控制能力:传统的机器人模型难以实现复杂任务,GPT模型具备很强的逻辑能力,可以赋能机器人完成复杂的规划控制操作。这种能力在ChatGPT的代码能力上便能体现,写代码是逻辑性很强且需要多步骤的复杂任务。2022年谷歌的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》也探索过使用思维链提示法,能激发出大型语言模型处理复杂问题的推理能力。 泛化能力:机器人应用的下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。GPT模型作为生成式模型,具备很强泛化能力,比如chatgpt有很强的多语言能力,即使其大部分训练数据为英文,并且在翻译、对话和文本生成等各类不同任务。 感知能力:多模态的发展让机器人可以同时处理包括视觉、文本、传感器等不同模态的输入,赋予机器人更强的感知能力。 2023年1月19日,工信部等十七部门发布《“机器人+”应用行动实施方案》。方案中提出目标:到2025年,制造业机器人密度较2020年实现翻番,服务机器人、特种机器人行业应用深度和广度显著提升,机器人促进经济社会高质量发展的能力明显增强。 我们认为,从今年下半年开始的1~5年内,随着GPT的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。在5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 3、ViT+GPT是典型范式 ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。Transformer架构从2017年被提出以来,迅速代替RNN成为了自然语言处理的主流架构,但视觉领域依然以CNN结构为主。2020年10月,谷歌推出Vision Transformer(ViT)模型,证明了不使用CNN,直接将Transformer结构应用于视觉模型也可以很好地执行图像分类任务。Transformer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。 图表14:ViT模型架构 ViT应用于各种模态,使用transformer编码器得到包含输入模态特征的编码,可行性已经得到了以上业界众多工作的验证,成为了多模态GPT的典型范式。我们建议关注算法&行业机器人潜力和硬件供应商公司,具体分析可见2023年5月3日的报告《下半年的超级场景一:多模态GPT》。 4、投资建议 建议关注: 算法&行业机器人潜力:大华股份、海康威视、千方科技、中科信息、云从科技、