您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:AGI+机器人行业深度报告:AGI赋能人形机器人,具身智能时代有望加速到来 - 发现报告
当前位置:首页/行业研究/报告详情/

AGI+机器人行业深度报告:AGI赋能人形机器人,具身智能时代有望加速到来

机械设备2023-11-11佘炜超、刘俊奇、孟欣财通证券肖***
AI智能总结
查看更多
AGI+机器人行业深度报告:AGI赋能人形机器人,具身智能时代有望加速到来

AGI起于大语言模型,终于具身智能。AGI(Artificial General Intelligence),即通用人工智能,也称强人工智能,指的是具备与人类同等甚至超越人类的智能,能表现出正常人类所具有的所有智能行为。AGI技术实现突破,离不开LLM大模型和多模态能力,在两者结合下,AI具备了创造力。具身智能是迈向通用人工智能(AGI)的重要一步,国内外大厂及高等学府均开展了具身智能的相关研究,如微软、谷歌、斯坦福、达闼机器人、智元机器人等。 人形机器人是AGI最佳载体,业界研究进展加速。谷歌的RT-1是迈向视觉语言动作(VLA)模型的一个尝试,通过吸收大量的真实数据,提升机器性能和泛化能力;RT-2是全球首个控制机器人的VLA模型,将视觉语言模型(VLM)与机器人操作能力结合,在泛化能力和涌现能力上均有明显提升。 GPT-4是OpenAI发布的最新GPT系列模型,是一个大规模的多模态模型,已应用在Ameca和Eureka等机器人上;GPT-4V(ision)新增语言、图像交互功能。 Meta和CMU联合打造出RoboAgent,突破了缺乏足够庞大的数据集来训练通用智能体和缺乏能够生成此类数据的通用智能体的困境。特斯拉链接FSD和机器人的底层模块,使用端到端的神经网络,助力Optimus在任务操作方面展现出先进性。 “机器人+大模型”是迈向AGI时代的有效途径:人工智能大模型的语言处理能力可以被看作“大脑”,若想真正发挥通用人工智能的力量,未来的AGI需要有具身实体。LLM有助于实现任务级编程/交互,整个过程基本不需要或者仅需少量人类的介入和确认,降低了机器人的使用门槛。多模态大模型使得机器人开始理解如何合理使用多种输出能力来更好的完成任务。但我们离通用人工智能还很遥远,仍然存在许多尚未解决的重大问题,如多模态融合、安全性、高质量训练数据缺乏等。 投资建议:AGI是人工智能未来发展的方向,LLM和多模态推动AGI实现技术上的突破,“机器人+大模型”为AGI走进物理世界提供了更多的可能性。 随着谷歌、OpenAI、Meta和特斯拉等科技大厂以及斯坦福等高等学府纷纷投入AGI的研究中,“机器人+大模型”将会进入发展的快车道,带动机器人软件和硬件系统的迭代升级,具有较好的发展前景。建议关注机器人整机领域的公司,如三花智控、拓普集团、埃斯顿、亿嘉和、博实股份、德昌股份等。 风险提示:特斯拉人形机器人量产进展不及预期;国产化替代进展不及预期; 制造业景气度恢复低于预期等。 表1:重点公司投资评级: 1AGI的关键拼图:起于大模型,终于具身智能 1.1大语言模型百家争鸣,推动弱人工智能向通用人工智能跃升 AGI(Artificial General Intelligence),即通用人工智能,也称强人工智能(Strong AI),指的是具备与人类同等甚至超越人类的智能,能表现出正常人类所具有的所有智能行为。这种人工智能系统可以比人类更好更快地学习和执行任何任务,包括人类无法处理的任务。并且由于机器在速度、内存、通信和带宽方面的巨大优势,未来,通用人工智能在几乎所有领域都将远远超过人类的能力。 《Artificial Intelligence: A Modern Approach》给出了人工智能的最新定义,即设计和构建智能体,这些智能体从环境中接收感知并采取影响环境的行动。如果以人类为中心来定义人工智能,即以人类的智能水平执行任务,那么人工智能需要感知、推理、推断、知识构建、决策和规划、学习、沟通以及高效改变和操纵环境的能力。人工智能大致分为三个主要层次——弱人工智能(ANI)、强人工智能(AGI)和超人工智能(ASI)。与AGI相比,传统的基于中小模型的弱人工智能聚焦某个相对具体的业务方面,采用相对中小参数规模的模型以及中小规模的数据集,然后实现相对确定、相对简单的人工智能场景应用。 图1.人工智能历史时间表 图2.人工智能层次关系 表1.AGI存在不同的研究视角 AGI技术实现突破,离不开LLM大模型和多模态能力,在两者结合下,AI具备了创造力。 大语言模型(LLM)是一种基于深度学习技术的大型预训练神经网络模型,与传统机器学习相比,LLM具有更强的泛化能力,在复杂任务理解、连续对话、零样本推理等方向有了突破进展。但大语言模型还不符合通用人工智能的要求:(1)处理任务方面的能力有限,LLM只能处理文本领域的任务,无法与物理和社会环境进行互动;(2)不具备自主能力,它需要人类来具体定义好每一个任务;(3)不具备理解人类价值或与人类价值保持一致的能力,即缺乏道德指南针。 因此,单靠LLM是无法实现AGI的,需要让模型接触到更多的模态数据。每一种信息的来源或者形式,都可以称为一种模态,例如人有触觉、听觉、视觉等。 多模态,即从多个模态表达或感知事物,而多模态机器学习,指的是从多种模态的数据中学习并且提升自身的算法。基于Transformer的ChatGPT出现之后,之后的AI大模型基本上都逐渐实现了对多模态的支持:首先,可以通过文本、图像、语音、视频等多模态的数据学习;并且,基于其中一个模态学习到的能力,可以应用在另一个模态的推理;此外,不同模态数据学习到的能力还会融合,形成一些超出单个模态学习能力的新的能力。 表2.AGI的特征 萌芽期是以CNN为代表的传统神经网络模型阶段;探索沉淀期是以Transformer为代表的全新神经网络模型阶段,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升;迅猛发展期是以GPT为代表的预训练大模型阶段,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。 图3.大语言模型(LLM)发展的三个阶段 尽管AGI仍处于发展早期,但其已在包括文字、代码、图像、语音、视频等诸多领域和场景实现应用。目前,以谷歌、微软为代表的国际科技巨头和以百度、阿里等为典型的国内互联网集团纷纷押注大模型研发,旨在以更广的数据及语料规模驱动AGI更广泛的商业化落地。据红杉资本预测,AGI有望提升10%人类生产力,或产生数万亿美元的经济价值。 图4.AGI应用场景例举 1.2具身智能助力AGI走进现实 具身智能是迈向通用人工智能(AGI)的重要一步。具身智能(Embodied AI)指的是有身体并支持物理交互的智能体。简单来说,就是让AGI从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机上,让实体世界中的机器人或仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务。 表3.具身智能核心要素 在基于Transformer的大语言模型浪潮带领下,微软、谷歌、英伟达等大厂,以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。微软基于ChatGPT的强大自然语言理解和推理能力,生成控制机器人的相关代码;英伟达VIMA基于T5模型,将文本和多模态输入交错融合,结合历史信息预测机器人的下一步行动动作;谷歌具身智能路线较多,包括从PaLM衍生来的PaLM-E,从Gato迭代来的RoboCat,以及最新基于RT-1和PaLM-E升级得到的RT-2;苹果内部已经建立了大语言模型Ajax,并推出了一个被称为Apple GPT的内部聊天机器人来测试其功能。斯坦福大学李飞飞团队研究指出,通过大语言模型加视觉语言模型,AI能在3D空间分析规划,指导机器人行动,其最新研发成果VoxPoser可以在没有额外数据和训练的情况下,将自然语言指令转化为具体行动规划;加州大学伯克利分校的LM Nav,则通过视觉模型、语言模型、视觉语言模型CLIP等三个大模型,让机器人在不看地图的情况下按照语言指令到达目的地。 图5.国外具身智能相关研究 国内具身智能的相关研究也正持续推进。达闼机器人在世界人工智能大会上发布了首个机器人领域的多模态人工智能大模型“RobotGPT”,能使接入云端大脑的机器人基于人工反馈的强化学习而不断提升学习能力,实现机器人理解人类语言,自动分解、规划和执行任务,进行实时交互,完成复杂的场景应用,推动具身智能的自主进化,让云端机器人成为通用人工智能的最佳载体。智元机器人团队实现了自然语言端到端到机器人的映射,可以用自然语言让机器人编排整个任务,还能动态调整任务。 2人形机器人是AGI最佳载体,业界研究进展加速 2.1从RT-1到RT-2,谷歌演进式打造全能机器人大脑 2017年提出的Transformer架构是大语言模型(LLM)的最底层的基座,但Transformer不止可以应用于大语言模型中,也可以用于训练其他类型的数据。 在大语言模型(LLM)中,语言被编码为向量,研究员们为模型提供大量的语料,使其具备上下文学习、指令遵循和推理等能力,借此生成语言回答。而在视觉语言模型(VLM)中,模型可以将图像信息编码为与语言类似的向量,让模型既能理解文字,又能以相同方式理解图像。研究员们为模型提供大量的语料和图像,使其能够执行视觉问答、为图像添加字幕和物品识别等任务。 视觉和语言数据属于被动数据,可由人类提供,而机器人的动作数据属于主动数据,来源于机器人自身,获取难度大、成本高。RT-1是迈向视觉语言动作(VLA)模型的一个尝试,它的数据集包含了视觉、语言和机器人动作三个维度,但RT-1的能力很大程度上由数据集和任务集决定,对新指令的泛化仅限于以前见过的概念的组合,且要进一步扩大数据集规模是一件非常困难的事。 图6.从LLM到VLM到VLA 通过从大型的、多样化的、与任务无关的数据集中迁移知识,现代机器学习模型能够以较高的性能解决特定的下游任务,但这种能力在机器人领域仍有待进一步的应用考证。主要的挑战有两点:1)缺乏大规模和多样化的机器人数据,这限制了模型吸收广泛机器人经验的能力;2)泛化能力不足,缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。 2022年12月,谷歌推出了RT-1(Robotics Transformer 1),有效应对以上两点挑战,推动机器学习在机器人领域的应用。RT-1建立在Transformer架构上,它能从机器人的相机中获取图像历史记录同时将以自然语言表达的任务描述作为输入,通过预训练的FiLM EfficientNet模型将它们编码为token,然后通过TokenLearner将大量标记映射到数量更少的标记中,实现标记压缩,最后经Transformer输出动作标记。动作包括手臂运动的7个维度(x、y、z、滚动、俯仰、偏航、打开夹具),移动底座的3个维度(x、y、偏航),以及在三种模式(控制手臂、底座或终止)之间切换的1个离散变量。 图7.RT-1模型架构 RT-1通过吸收大量的真实数据,让机器人胜任不同环境下的多种任务,从而提升机器性能和泛化能力。RT-1是在一个由13台机器人历时17个月收集的包含13万个事件和超过700个任务的大型真实世界机器人数据集上训练而成的。RT-1的性能优于之前发布的基线,能够以97%的成功率执行700多条指令,并能有效地泛化到新的任务、对象和环境中。此外,RT-1可以成功吸收来模拟环境和其他机器人的异构数据,不仅不牺牲在原始任务上性能,还提高了对新场景的泛化能力。 图8.RT-1的实验结果 2023年7月28日,Google DeepMind推出全球首个控制机器人的VLA模型RT-2(Robotics Transformer 2),可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。RT-2以两个已接受网络规模数据训练的视觉语言模型(VLM)PaLM-E和PaLI-X为支柱,相当于赋予机器人规模足够大的数据库,使其具备识别物体和了解物体相关信息的能力。进一步,RT-2还使用了RT-1的数据集进行联合微调,通过加入机器人动作数据进行训练,使其具备动作执行能力。具体来说,研究人员将机器人的动作表示为另一种语言,可以将其转换为文本标记,并与互联网规模的视觉语言数据集一起进行训练。在推理