人形机器人报告(一):大模型视角下人形机器人的现在和未来 机械设备 评级:看好 日期:2023.12.19 证券研究报告|行业深度 报告要点 人形机器人的核心价值在于通用+智能,将和工业机器人共同推动制造业智能化。工业机器人虽然技术成熟,但却无法解决泛化性的问题,不适应现代制造 业柔性生产的需要。我们认为人形机器人将作为工业机器人的补充,与工业机器人共同推进制造业的智能化发展。“人形”只是表象,人形机器人的核心价值在于通用+智能。未来的工厂中,工业机器人、人形机器人、人工或将以7:2:1的比例存在。 以GPT为代表的大模型是迈向通用人工智能AGI的重要一步。之前的人工智能属于专业AI,走的是“先专后通”的发展路径。而以GPT为代表的大模 分析师祁岩 登记编码:S0950523090001:021-61102527 :qiyan1@wkzq.com.cn 行业表现2023/12/18 13% 8% 2% -3% -9% -14% 2022/122023/32023/62023/9 型具备了一定的常识和推理能力,有望走出一条“先通后专”的发展路径。而机械设备沪深300 具备控制、感知、执行能力的AIAgent是大模型落地的重要形式。 资料来源:Wind,聚源 LLM与机器人结合的研究在短时间取得了众多突破,让我们对产业化多了一份信心。我们把人形机器人视为LLM+机器人领域的AIAgent。LLM的引入 解决了之前机器人行业的两大痛点:1)交互不便,无法理解人类的自然语言;2)不够聪明,无法对复杂任务自主拆解。在LLM与机器人结合方面,学界取得了众多进展。Google在2022年发表的SayCan模型,解决了LLM作为语言模型无法适应现实世界的问题;2022年12月,google发布RT-1模型,使人形机器人表现出了泛化性,可以解决未训练场景的任务;2023年2月,微软发表ChatGPTforRobots,提出用LLM语言模型控制机器人的方法,使机器人可以利用LLM模型的“常识”和推理能力;2023年3月,google发布PaLM-E模型,把具身信息融入大模型,进一步提升了泛化能力;2023年7月,google发布视觉-语言-动作(VLA)的机器人模型RT-2,模型直接输出机器人的动作,泛化能力进一步增长,并为解决机器人数据缺乏问题提供了一种新的思路。 人形机器人的商业化落地需要具体的场景。当前人形机器人产业面对数据不足、算力不足、人机交互安全性、长尾场景等挑战,终极的通用人形机器人还 比较遥远,但是基于特定场景的人形机器人可以降低对数据、算力的依赖,有望率先落地。2023年10月,亚马逊宣布已经在仓库试用人形机器人Digit。 自动驾驶与人形机器人有众多相似之处,自动驾驶的发展历程有借鉴意义。 何小鹏认为,自动驾驶本质上是机器人科学,智能汽车公司最终也会和机器人公司在技术、产品、生态等等方面融合。参考自动驾驶的发展历程,我们认为人形机器人的发展也会有3个趋势:1)终极的人形机器人还很遥远,但基于特定场景的机器人会率先落地;2)随着人形机器人对大数据、大模型的要求越来越高,数据闭环能力越来越关键;3)端到端模型可以节省算力,但当前受限于数据、规模。区分规划算法、控制算法的多模块的方案更容易落地,其中连接LLM和控制算法的prompt是瓶颈所在。 相关研究 《特斯拉发布optimusgen2视频点评》 (2023/12/15) 《工信部印发《人形机器人创新发展指导意见》点评》(2023/11/8) 风险提示:1.人工智能技术仍在快速发展阶段,软硬件都在持续迭代中,行业发展存在较大技术风险。 2.人形机器人作为新兴产业,产业链尚不成熟,可能阻碍产品的商业化落地。 内容目录 人形机器人的核心价值来自通用性4 大模型加速人形机器人产业化落地6 技术和成本限制人形机器人的产业化6 LLM:人工智能迈出走向AGI的重要一步9 人形机器人:机器人领域的AIAgent15 人形机器人的落地需要具体场景22 未来推演:自动驾驶发展历程给人形机器人的启示25 自动驾驶在港口、矿山已经取得进展25 大数据+大模型驱动的方案成为趋势27 端到端的大模型或是终极方案29 风险提示31 图表目录 图表1:工业机器人市场规模4 图表2:工业机器人在不同行业、不同场景的应用成熟度4 图表3:汽车总装线依然大量依赖人工5 图表4:谷歌everydayrobot(左)、波士顿动力Spot(中)和特斯拉Optimus(右)6 图表5:2022年比亚迪员工人数6 图表6:ASIMO机器人的前身7 图表7:ASIMO机器人可以完成倒水任务8 图表8:ASIMO机器人可以做出各种手势8 图表9:波士顿动力推出的代表性产品8 图表10:AI发展的三次浪潮10 图表11:生成式AI发展历程10 图表12:公元前9000年至今的通用目的技术(GPT)11 图表13:AIAgent通过与真实世界交互,构建了完整的“感知-认知-执行”的信息闭环12 图表14:复旦大学团队提出AIAgent框架包括控制、感知、行动三个模块13 图表15:OpenAI认为Agent是用LLM(大脑)+记忆+规划+工具使用13 图表16:人类与AI协同的三种模式14 图表17:LLM-basedagents主要研究方向14 图表18:斯坦福构建的虚拟小镇,里面有25个AIAgents生活15 图表19:传统机器人的两大挑战15 图表20:单纯的大预言模型会给出不合情景的回答16 图表21:SayCan模型结合LLM输出结果的相关性和可执行性,综合做出最佳选择16 图表22:研究人员让Saycan模型执行的101个任务17 图表23:Saycan模型在各模型下的执行成功率17 图表24:把chatGPT引入机器人改变了过去人机交互的逻辑17 图表25:RT-1模型结构18 图表26:RT-1模型的执行成功率要高于其他模型18 图表27:Palm-E是一个多模态语言具身模型19 图表28:搭载GooglePaLM-E模型的机器人从抽屉里拿出薯片19 图表29:机器人控制算法一般是双层结构20 图表30:使用强化学习做机器人运动控制20 图表31:RT-2在大模型的基础上用机器人数据微调,然后输出机器人动作20 图表32:RT-2模型在理解、推理方面的能力要显著优于RT-1模型21 图表33:RT-2模型在未知场景的表现明显优于RT-1模型21 图表34:google在机器人大模型领域研究进展21 图表35:特斯拉optimus在2022年4月迈出第一步22 图表36:2023年9月特斯拉发布的视频中optimus进行瑜伽和物品分拣22 图表37:2023年12月optimus-gen2可以完成深蹲动作22 图表38:2023年12月optimus-gen2搭配触觉传感器拿起鸡蛋22 图表39:人形机器人潜在落地场景23 图表40:小米科技人形机器人的1+N+X战略24 图表41:优必选walker机器人的六大应用场景24 图表42:digit机器人在工厂搬运25 图表43:digit机器人收到命令后的思考过程25 图表44:踏歌智行的国家能源胜利一号露天煤矿项目26 图表45:踏歌智行基于车、地、云协同的“旷谷”解决方案26 图表46:踏歌智行的车载硬件方案26 图表47:华为在天津港实现L4级自动驾驶27 图表48:自动驾驶进入3.0时代28 图表49:自动驾驶的数据闭环28 图表50:使用英伟达EmerNeRF进行仿真29 图表51:关于自动驾驶端到端方案的论文数量明显增加29 图表52:端到端方案与传统方案的对比30 图表53:特斯拉基于占用网络的感知30 图表54:特斯拉基于车道线和物体算法(lane&object)的感知30 人形机器人的核心价值来自通用性 工业机器人虽然技术成熟,但却无法解决泛化性的问题,不适应现代制造业柔性生产的需要。我们认为人形机器人将作为工业机器人的补充,与工业机器人共同推进制造业的智能化发展。 如何增强机器人的泛用性是行业一直致力解决的问题。传统的工业机器人并不能直接使用,需要被系统集成商集成后使用。机器人的系统集成需要对客户工艺的深刻理解,是高度定制化的环节,同时也是严重依赖工程师经验的环节。系统集成不仅增加了工业机器人的使用成本,还使工业机器人失去了泛化性。在工业机器人被集成的过程中,工业机器人遵循编写好的程序运行,与应用场景高度绑定。一旦环境变化后,用户需要通过工程师重新部署、编程,无法通过简单操作实现场景适配。这注定了工业机器人适用于大规模、重复性生产,无法适应柔性化生产的需要。这严重限制了机器人的使用范围,阻碍了机器人行业的成长。2022年工业机器人市场规模585亿,并不是一个非常大的市场。 图表1:工业机器人市场规模 中国工业机器人市场规模 700 600 500 400 300 200 100 0 2019202020212022 资料来源:中商情报网,IFR,五矿证券研究所 尽管工业机器人已经广泛应用于汽车、3C、纺织、包装等行业,但在这些行业之中依然有大量环节离不开人工。以汽车行业为例,目前工业机器人在汽车行业主要应用于搬运、上下料、焊接、喷涂、切割和冲压。在打磨、清洁、检测、分拣、包装等领域依然依赖人工。在汽车的总装环节95%依然是重人工。原因在于:1)汽车总装的时候需要工人进入车内空间操作,而车内空间是有限的、为人体设计的,工业机器人没有多余的施工空间;2)单个工人使用的工具超过10个,并非简单、单一的操作。 图表2:工业机器人在不同行业、不同场景的应用成熟度 资料来源:iresearch五矿证券研究所 图表3:汽车总装线依然大量依赖人工 资料来源:AI汽车制造业,五矿证券研究所 小米集团高级副总裁曾学忠认为,在未来智能制造体系里面,自动化设备、人形机器人以及人将以7:2:1黄金法则来组成。未来70%的对制造质量和制造效率要求高的工作依靠自动 化设备来完成;20%高复杂度、高柔性的场景需要人形机器人来完成;10%是工作还是要依靠人,因为最终数据与价值的管理还是要依靠人,人才可以定义价值。根据智研咨询,2022年中国自动化设备的市场规模达到2909亿元,全球自动化设备达到2308亿美元。以此推算,仅在工业制造领域,人形机器人未来潜在市场规模约660亿美元(全球市场)。 人形机器人会带来整个自动化市场的扩张。我们希望机器人渗透到社会的方方面面帮助我们工作,但当前的工业机器人需要系统集成商去安装部署,所以很难渗透到非标准化的场景之 中,这限制了整个行业的市场规模。我们认为,依赖人形机器人的泛用性,未来机器人可以从标准化工业场景进一步渗透到非标准化场景,也包括建筑、商业导览、医疗护理、教育培训、家庭服务等非工业领域。这将会给机器人行业带来远超之前的市场空间。 “人形”只是表象,通用+智能是人形机器人更为核心的价值。选择“人形”,只是因为我们活动的世界是为人的身体所创造的,人的形态可以操作一切工具,具有最广泛的适应性。通用+智能才是人形机器人的核心价值。人形机器人的发展也不是孤立的,而是从四足机器人、 机械臂上衍化而来。人形机器人的“小脑”运动控制算法,是在四足机器人的基础上发展而来。人形机器人的“大脑”大模型,常被搭载在机器臂上进行研究。所以在讨论广义的人形机器人时,我们不局限于特斯拉Optimus这样的双足机器人,也会讨论波士顿动力Spot这样的四足机器人,甚至还包括谷歌everydayrobot这样的轮式机器人。 图表4:谷歌everydayrobot(左)、波士顿动力Spot(中)和特斯拉Optimus(右) 资料来源:机器人大讲堂、新智元、特斯拉,五矿证券研究所 人形机器人潜在的市场规模是巨大的。比亚迪2022年年报披露,比亚迪共有员工57.01万人,其中生产工人44.21万人,占比78%。可见即使在高度自动化的汽车行业,依然有大量 环节是工业机器人无法胜任的