自1950年艾伦·图灵首次提出具身智能(EmbodiedAI)的概念,直到进入21世纪,具身智能才在机器人领域进一步发展。近两年随着人工智能技术的进步,尤其是大模型的出现,人们开始看到具身智能实际应用的可能性,越来越多的企业开始布局和投身这一「人工智能的下一个浪潮」。 今年以来,科技巨头们在具身智能领域的动作不断——谷歌发布了融合视觉、语言、动作的RT系列机器人模型的新成果RT-H,英伟达在GTC大会上推出了人形机器人通用基础模型ProjectGR00T,特斯拉擎天柱(Optimus)机器人从叠衣服、散步到进厂“打工”,就连OpenAI也宣布时隔四年重新组建机器人团队…… 除了顶流大厂之外,具身智能初创企业更是参与和推动这次浪潮的主角。遍观海内外,近年来不断有顶级院校和科技巨头AI/机器人实验室出身的专家创立或参与创立具身智能企业;不同企业具身智能机器人产品的动态相较以往更密集地向公众传递;具身智能初创公司融资状态火热,明星创企单轮融资额破亿屡见不鲜,整体估值水涨船高。 在《中国具身智能创投报告》中,量子位智库对具身智能的背景现状、技术原理与路线、国内创业格局、融资梳理及代表创企、创业者背景等方面进行了系统介绍,希望为科技从业者和爱好者们描绘出国内具身智能创业的澎湃蓝图。 01 02 03 04 05 01 具身智能定义 根据中国计算机协会的定义,「具身智能(EmbodiedAI)」是一种基于物理身体进行感知和行动的智能系统,它通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。本篇报告研究的「具身智能」以通用智能机器人载体为主,不包含无人车等物理形态。 具身智能机器人与普通机器人的区别主要集中在自主性、感知与交互能力、学习与适应能力、应用场景等方面。 普通机器人具身智能机器人 自主性 按预设程序执行任务 可自主完成任务 感知能力 只有基本的感知能力 具备高级的感知系统,如视觉、听觉、触觉等 交互能力 依赖于编程指令或外部控制 与环境和人类进行复杂交互 学习能力 依靠人工进行编程或更新 可实现自我进化和适应性学习 适应能力 只能在预设的参数或条件下工作 可在变化的环境中自主调整行为 应用场景 适用于结构化环境和重复性任务 可用于未知环境和复杂任务 具身智能火热现状 产业端——科技巨头布局具身智能生态 谷歌继去年推出首个控制机器人的视觉-语言-动作模型RT-2之后,于今年3月又推出RT系列的最新模型RT-H, 在多个任务评估中相比RT-2平均提高了15%的成功率。 英伟达今年2月宣布成立GEAR(GeneralistEmbodiedAgentResearch)实验室,专注通用具身智能体研究;在3月的GTC大会上,英伟达发布人形机器人通用基础模型ProjectGR00T,以及专为人形机器人打造的新型计算平台JetsonThor。 微软不仅和英伟达、OpenAI一起投资了具身智能明星创企FigureAI,今年5月还与仿人机器人公司 SanctuaryAI达成合作,为其提供Azure云资源、加速具身AI研究。 OpenAI与Figure、1XTechnologies等公司合作开发机器人大模型,并将视觉语言模型加持在Figure01人形机器人上;同时时隔四年重新组建了自己的机器人团队。 特斯拉持续发布擎天柱(Optimus)机器人的演示视频,展示其从叠衣服、散步到进厂分拣电池的最新进展。 具身智能火热现状 学术端——高校机构研究具身智能系统 斯坦福大学李飞飞团队推出VoxPoser,基于环境信息和自然语言命令,通过大语言模型和视觉语言模型的交 互,指导系统为机器人生成相应的操作指示地图。李飞飞教授今年也发起「空间智能」方向的创业项目,目标让AI像人类一样对视觉信息进行高级推理。 卡内基梅隆大学研发出OmniH2O(OmniHuman-to-Humanoid)全身遥控系统,实现全尺寸人形机器人的 实时全身远程操作,并用宇树科技的H1-ReS人形机器人做了效果演示。 北京大学推出一系列具身智能研究成果,包括具身导航系统DiscussNav、具身大模型ManipLLM、机器人多模态大模型RoboMamba等。 清华大学、中南大学研发出具身智能体开放平台LEGENT,利用所生成的数据训练视觉-语言-动作模型。 智源研究院在今年6月的智源大会上推出世界首个端到端基于视频的多模态具身大模型NaVid。 具身智能火热原因:大模型及生成式AI的快速发展 自1950年艾伦·图灵首次提出具身智能(EmbodiedAI)的概念,直到进入21世纪,具身智能才在机器人领域进一步发展。近两年随着人工智能技术的进步,尤其是大模型及生成式AI的发展,大众逐渐看到具身智能实 际应用的可能性,而不仅仅将其看作象牙塔内的学术研究。英伟达CEO黄仁勋和斯坦福李飞飞教授等产业界和学术界的旗帜性人物纷纷为具身智能站台,越来越多的人相信具身智能将成为「人工智能的下一个浪潮」。 对生成式AI而言,机器人是大模型能力 的理想载体,是人工智能发展到一定阶段、从单纯数字领域的应用到与物理世界交互的必然途径。 大模型与机器人耦合,激发人们对AGI的想象 对通用机器人而言,大模型提供了更强 大的“AGI大脑”,提升了机器人在感知、理解和规划任务上的泛化能力,也对人 机交互产生颠覆性影响。 02 技术原理 具身智能本质上是为以机器人为代表的物理实体注入人工智能,使其能感知、学习并与环境动态交互。 能力拆解 具身智能系统 「大脑」,负责感知、理解和规划,主上要通过大语言模型、视觉语言模型来驱层动 感知规划控制执行 「小脑」,负责运动控制和动作生成, 主要通过运动控制算法、反馈控制系统中层 来实现 图:Figure01机器人 「身体」,负责动作执行,由机器人本 体(包含机械结构、传感器、执行器等)底层 来支持 技术路线 具身智能的算法方案可分为分层决策模型和端到端模型两种路线。 分层决策模型端到端模型 以「Figure01」为代表,将任务分解成不同层级,以多个神经网络训练,再以流程管线的方式组合。Figure01顶层接入OpenAI的多模态大模型,提供视觉推理和语言理解;中间层神经网络策略作为小脑 进行运动控制并生成动作指令;底层机器人本体接受神经网络策略的动作指令,进行控制执行。分层决策模型的缺点是:不同步骤间的对齐和一致性需解决。 以「GoogleRT-2」为代表,通过一个神经网络完成从任务目标输入到行为指令输出的全过程。首先在大规模互联网数据预训练视觉语言模型,然后在机器人任务上微调,结合机器人动作数据,推出视觉语言动作模 型。RT-2不仅负责最上层的感知与规划,还参与中下层的控制与执行,打通了端到端的链路。端到端模型的缺点是:训练数据海量、消耗资源巨大、机器人执行实时性差。 图:Figure01线程,来源https://x.com/adcock_brett/status/1767913955295744449 图:RT-2模型闭环控制流程,来源https://robotics-transformer2.github.io/assets/rt2.pdf 技术路线 具身智能的训练方法可分为模仿学习和强化学习两种路线。 模仿学习强化学习 模仿学习—— 智能体通过观察和模仿专家(经验丰富的人类操作者或具有高级性能的系统)的行为来学习任务。 优势:可以快速学习专家策略,无需复杂的探索过程 劣势:学习到的行为策略受限于专家数据,对于未见过的情况泛化能力较差 强化学习—— 智能体通过与环境的交互来学习最佳行为策略,以最大化某种累积奖励。 优势:能够通过探索环境学习未知的策略;可以处理高度不确定和动态变化的环境 劣势:需要大量的探索和试错,学习过程缓慢;对于复杂任务,设计合适的奖励函数难度较高 技术路线 具身智能的数据采集可分为基于仿真环境数据和基于真实世界数据两种路线。 基于仿真环境的数据采集(Sim2Real)基于真实世界的数据采集 Sim2Real(SimulationtoReality)——在仿真环境中学习技能和策略,并迁移到现实世界中。 优势:数据可大规模获取,成本低 劣势:对仿真器要求高,仿真环境与真实世界存在差异;迁移过程中存在性能下降 基于真实世界数据采集—— 直接从现实世界数据中学习,包括本体采集、遥操作、动态捕捉、视频学习等方式。 优势:数据更真实可靠 劣势:数据少、泛化性差;通过机器本体和人采集,成本高、难度大、效率低 03 具身智能浪潮主要参与者 国内具身智能浪潮的主要参与者包括科技大厂、传统机器人公司和新生代的具身智能创业公司等。其中,数量众多的创业公司们正将最前沿学术研究与产品研发相结合,为具身智能市场释放无限想象力。 传统机器人公司 科技大厂 具身智能创业公司 阿里通义千问联合有鹿机器人发布具身智能大模型LPLM 百度为优必选的人形机器人 WalkerS接入文心大模型 腾讯通过RoboticsX机器人实验室持续研究多模态大模型与机器人的融合 华为成立具身智能创新Lab且 与乐聚机器人合作发布盘古具身智能大模型 小米成立独立的人形机器人 公司,推出Cyberone机器人 …… 优必选推出面向工业领域的人形机器人WalkerS 宇树科技发布通用人形机器 人H1 傅利叶智能发布通用人形机器人GR-1 达闼机器人发布搭载云端大 脑的人形机器人XR4 乐聚机器人发布搭载开源鸿蒙系统的人形机器人“夸父” …… 近两年不断有AI顶级院校和科技巨头AI/机器人实验室出身的专家学者创立或参与创立具身智能企业。 这些初创公司技术实力优越,吸引无数投资,带来更密集的具身智能机器人产品动态更新,是参与和推动这次具身智能浪潮的重要主角。 机器人本体(整机)研发商 具身智能创业公司分类及图谱 机器人本体研发商- 机器人本体研发商- 人形机器人厂商其他机器人厂商 人形机器人 以双足或轮式腿的人形机器人产品为代表,机器人通常拥有类人外形,包括头部、躯干、手臂、腿等,且能够模仿人类基本动作,如行走、跑步、跳跃、抓握和操作物体,还可以通过语音、视觉或触觉等方式与人类进行交互。 其他机器人 以双臂机器人产品为代表,机器人拥有非完全体的类人外形,通过灵巧手、机械臂、行走腿等高自由度关节,展现人体结构与外界交互、执行任务的能力。 智元机器人星尘智能 逐际动力加速进化 松延动力星动纪元 银河通用开普勒探索智平方科技戴盟机器人 月泉仿生星海图求之科技方舟无限 仅列举代表性公司 机器人大模型研发商 机器人数据及系统方案供应商 帕西尼感知科技 千寻智能 大模型研发商 专注通用机器人大脑研发,为机器人提供通用的大模型 主要是通过动作捕捉、sim2real等方式, 为机器人研发提供多模态数据支持,以 有鹿机器人XSquare 艾欧智能 数据&系统方 案供应商 底座。 及感知和决策规划系统支持。 穹彻智能 雅可比机器人 若愚科技 小雨智造 跨维智能 04 公司 创立时间 融资轮次 最新融资额 投资方 估值 产品类型 最新公布产品 产品阶段 智元机器人 2023.2 A++++轮 超10亿元 红杉中国、M31资本、高瓴创投、鼎晖投资、BV百度风投、经纬创投、比亚迪等 约70亿元 人形机器人 远征A2 有样机展示,即将面向商用 帕西尼感知科技 2021.6 A+轮 数亿元 新奥资本、北汽产投、南山战新投、盈富泰克等 暂无 人形机器人 Tora 有样机实体展示 逐际动力 2022.1 A轮 亿元 阿里巴巴、招商局创投、上汽集团、峰瑞资本、绿洲资本、明势资本等 暂无 人形机器人 CL-1 有演示视频,正在探索商用 星尘智能 2022.12 A轮 数千万元 云启资本 暂无 人形机器人 AstribotS1 有演示视频,预计2024年商用 穹彻智能