行业专题报告|计算机 人形机器人步入软件定义和AI驱动时代 人工智能系列报告(三) 核心结论 基于对人形机器人发展阶段及核心竞争力的分析,我们认为人形机器人已经跨入了一个全新的软件定义加AI驱动的时代。软件不仅承载着人形机器人的基础操作系统和应用算法,而且通过不断迭代升级,为人形机器人赋 予了超越传统机械设备的智能特性。软件和AI不仅开启了人形机器人在各行各业广泛应用的可能性,更定义了人形机器人的功能边界。 基于人形机器人所展现出的高度机械化特性以及在视觉感知方面对自动驾驶算法的成功复用,我们认为人形机器人处于由高动态向高度智能化发展的阶段。高动态是指机器人在运动能力上表现优秀,特别是 平衡性、越障碍能力等。当前人形机器人机械化程度较高且具备较强的运动控制及环境感知能力。运动控制方面,波士顿动力的Atlas人形机器人身体协调性非常出色,除了行走,还完成翻滚等高难度动作;感知方面,特斯拉Optimus基于完全端到端训练的神经网络架构,底层感知、识别算法等等已经和FSD打通复用。 我们认为人形机器人的核心竞争力在于其通用性和泛化性,即智能化程度,也就是在面对各种未知环境、任务和交互情境时的高度适应性和自我学习能力。人形机器人的设计初衷是通过模仿人类的形态和行 为能力,让其能无缝使用人类所有的基础设施和工具,以便在多种环境中执行任务,提高生产效率,尤其是在替代人类执行一些可能危险、困难或不适宜的任务。人形机器人的商业化进程中深受应用场景局限性的影响,提高智能程度能够显著拓宽人形机器人应用场景,打破现有局限,提升其对复杂环境的适应性和任务执行的灵活性。 大模型成为“AI大脑”,通用人形机器人曙光已现。1)“决策”+“认知”是智能机器人智能化水平的高层次判断标准。根据当前技术形态研判,国内外的人形机器人目前已普遍处在L3阶段,并随着大模型时代的到来逐渐 向L4和L5阶段进行发展,而实现人形机器人智能化等级的跃升,提升其决策和认知能力是必经之路更是核心难点之一。2)大模型+机器人是AI重要落地场景,大模型的泛化能力为通用人形机器人的发展带来曙光。大模型凭借其庞大的知识库和强大的理解能力所带来的泛化能力,赋予了人形机器人更高的通用性,使其能够满足不同场景下的多样化任务需求;同时大模型的辅助编程等功能还能有效降低软件开发成本,有望加速人形机器人商业化落地。 建议关注:1)视觉感知:海康威视、大华股份、虹软科技、智微智能; 2)机器人大模型:科大讯飞、商汤-W、云从科技-UW。 风险提示:人形机器人技术发展不及预期、政策法规环境不确定风险、供应链与制造成本上升风险、国际竞争加剧与技术替代风险。 证券研究报告 2024年04月17日 行业评级超配 前次评级超配 评级变动维持近一年行业走势 计算机沪深300 4% -3% -10% -17% -24% -31% -38% -45% 2023-042023-082023-12 相对表现 1个月 3个月 12个月 计算机 -16.01 -9.47 -37.28 沪深300 -1.65 8.73 -15.38 分析师 郑宏达 S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 相关研究 计算机:大模型企业级B端收入有望高速增 长—计算机行业周观点第7期2024-04-14计算机:广州数科集团,国企市值管理标杆,打造新质生产力—2024-04-09 计算机:继续看好端侧智能—计算机行业 2024年4月研究观点2024-04-07 索引 内容目录 一、为什么我们认为人形机器人步入软件定义时代?4 1.1人形机器人现在处于什么发展阶段?5 1.2人形机器人的核心竞争力在于什么?6 1.3为什么我们认为人形机器人步入软件定义时代?7 二、大模型成为“AI大脑”,通用人形机器人曙光已现8 2.1人形机器人走向通用,“决策”+“认知”是必经之路8 2.2具身智能技术持续突破,通用人形机器人新纪元将至9 2.2.1ChatGPTforRobotics:大模型赋能机器人的初步探索10 2.2.2PaLM-E:具身多模态视觉语言模型,是具身智能领域的一次重大飞跃11 2.2.3RT-2:全球首个VLA多模态大模型,能够理解视觉输入,机器人模型里程碑.122.2.4VoxPoser:实现零样本机器人任务轨迹规划13 2.2.5RoboAgent:实现通用机器人小数据集的快速训练14 2.2.6RT-X:基于多个数据集的机器人通用大模型14 2.2.7Eureka:基于GPT-4的人工智能代理15 2.2.8RobotGPT:ChatGPT运用于机器人的框架16 2.2.9EVE:依赖端到端神经网络实现自主工作16 2.2.10Figure01:能听、能说、能自主决策的人形机器人17 2.2.11GR00T——通用人形机器人基础模型18 三、建议关注19 四、风险提示19 图表目录 图1:汽车产业发展历程4 图2:人形机器人发展大事记5 图3:波士顿动力Atlas俯身下蹲抓起工具包5 图4:波士顿动力Atlas蹦上高台5 图5:波士顿动力Atlas推完箱子后保持身子平衡,不前倾摔倒6 图6:波士顿动力Atlas前空翻落地6 图7:TeslaOptimusGen2用手指抓取鸡蛋(屏幕右侧实时显示了手指压力)6 图8:TeslaOptimusGen2叠衣服(目前尚不能自主执行叠衣服操作)6 图9:优必选人形机器人发展历程及展望7 图10:泛化能力包括跨语言泛化、跨任务泛化、跨领域泛化、结构泛化、组合泛化、鲁棒性等9 图11:2023年至今“大模型+机器人”发展进程10 图12:传统机器人任务需要工程师在循环中不断改进11 图13:接入ChatGPT后工程师无需在循环中调整11 图14:ChatGPTforRobotics的设计原则11 图15:PaLM-E主要架构12 图16:PaLM-E在复杂的移动操作任务表现出色12 图17:RT-2架构13 图18:Voxposer系统流程14 图19:RoboAgent采用的多任务动作分块MT-ACT架构14 图20:RT-X架构15 图21:Eureka训练机械手臂完成高难度的转笔动作15 图22:Robot-GPT架构16 图23:EVE可自主进行物品搬运收纳17 图24:EVE可自主进行充电17 图25:Figure01技术原理17 图28:优必选WalkerS根据语音指令完成叠衣服任务18 图26:GR00T能够理解语言、视频和演示18 图27:GR00T基于NVIDIA深度技术堆栈开发18 表1:机器人智能化信息模型要素8 表2:通用智能化等级判断依据9 一、为什么我们认为人形机器人步入软件定义时代? 由于技术与产业关联性、以及未来成本下降和规模化生产路径相似性,人形机器人经常与汽车类比。人形机器人和汽车都是高度工程化的产物,需要集成多种技术和部件。特斯拉等公司在开发人形机器人时,强调了与汽车业务的共享技术路径,比如使用类似的 电池技术、电机技术、AI算法以及自动驾驶技术。汽车集合了动力系统、传动系统、电子控制系统等多种复杂组件,人形机器人同样融合了机械设计、运动控制、感知系统 (目前多数汽车也有传感器和雷达)等;而汽车的自动驾驶技术则可以对应于目前人形机器人自主决策与动作规划。 复盘汽车产业“机械时代→电子时代→软件时代”发展历程,本质是汽车的核心竞争力在发生变化。在“机械时代”,汽车的核心竞争力主要体现在机械结构和制造工艺上,这一时期的汽车更多依赖于物理结构和机械性能来满足市场需求。而后汽车产业进入“电 子时代”,电子控制单元(ECU)的应用开始提升车辆的功能性,此时的核心竞争力转向了电子技术和系统集成能力,这些技术的应用不仅提高了汽车的安全性和舒适性,也使得汽车能够实现更复杂的控制功能。随后,硬件功能及成本改善升级空间逐步变小,汽车产业进入“软件时代”,汽车的核心竞争力发生了根本性的变化,软件定义汽车(SDV)的概念应运而生,汽车从高度机电一体化的机械终端,逐步转变为一个智能化、可拓展、可持续迭代升级的移动电子终端。 图1:汽车产业发展历程 资料来源:头豹研究院、西部证券研发中心 1.1人形机器人现在处于什么发展阶段? 基于人形机器人所展现出的高度机械化特性以及在视觉感知方面对自动驾驶算法的成功复用,我们认为人形机器人处于由高动态向高度智能化发展的阶段。高动态是指机器人在运动能力上表现优秀,特别是平衡性、越障碍能力等。当前人形机器人机械化程度较 高,体现强大的运动性能、仿生结构设计、先进材料应用和精细操作能力等层面;且具备较强的运动控制及环境感知能力,体现在多传感器融合感知、无线通信、模块化设计以及能源管理等多个方面。展望未来,人形机器人将在现有基础上,进一步强化自主决策与深度学习能力,在复杂场景下能够独立思考、适应环境并持续优化自身行为。 图2:人形机器人发展大事记 资料来源:中国机器人网、新智元、智东西、机器之心、优必选科技视频号、西部证券研发中心 运动能力方面,以波士顿动力的人形机器人Atlas为例。 Atlas有多达28个自由度,涵盖双足、躯干、手臂等,确保了全方位、精细化的动作模拟。这种高自由度赋予Atlas出色的身体协调性与灵活性,使其能精准模仿人类复杂的行走步态、跑动、跳跃,甚至完成翻滚、360度旋转等高难度动作。 图3:波士顿动力Atlas俯身下蹲抓起工具包图4:波士顿动力Atlas蹦上高台 资料来源:量子位微信公众号、西部证券研发中心资料来源:量子位微信公众号、西部证券研发中心 图5:波士顿动力Atlas推完箱子后保持身子平衡,不前倾摔倒图6:波士顿动力Atlas前空翻落地 资料来源:量子位微信公众号、西部证券研发中心资料来源:量子位微信公众号、西部证券研发中心 感知方面,以Optimus——特斯拉基于端到端训练的神经网络架构的人形机器人为例。 2023年12月,特斯拉发布其最新一代人形机器人OptimusGen2的最新进展,步行速度提升30%,整体重量减轻10kg,且具有触觉感知灵巧手。与之前的版本相比, OptimusGen2的稳态行走能力有了较大提升,步行速度加快30%;手有11个自由度,手指搭载触觉传感器能够精准抓握鸡蛋等易碎物品;且能够完成多个深蹲动作并保持身体平衡等。 Optimus基于完全端到端训练的神经网络架构,底层感知、识别算法等等已经和FSD打通复用。马斯克表示,特斯拉目前已经打通了FSD与Optimus的底层模块,实现了一定程度的算法复用。FSD(FullSelf-Driving,全自动驾驶)算法主要依赖于神经网络和 计算机视觉技术,其核心是神经网络模型:通过对实时传感器获取的数据进行处理和分析并从中提取有关道路、车辆、行人和障碍物等信息,可以实现车辆的环境感知和物体识别,而FSD算法在人形机器人的感知、决策和控制等方面也同样起到重要作用。Optimus的神经网络是完全的端到端训练架构,即可以做到视频信号输入和控制信号输出,能够直接从原始输入端到输出端进行训练而无需进行手动特征工程或中间阶段处理,有效缩短研发周期、实现快速的产品迭代。 图7:TeslaOptimusGen2用手指抓取鸡蛋(屏幕右侧实时显示了手指压力) 图8:TeslaOptimusGen2叠衣服(目前尚不能自主执行叠衣服操作) 资料来源:机器之心微信公众号、西部证券研发中心资料来源:机器之心微信公众号、西部证券研发中心 1.2人形机器人的核心竞争力在于什么? “拟人化”不只是身体和行为拟人,更重要的是大脑和思维拟人,人形机器人不是单纯地执行预先编写程序的机械设备,而是拥有自主决策和学习能力的智能终端。人形机器人的研究和发展不仅仅只是为了模仿人类的外观形态,更重要的是要赋予它们类似于人 类的认知能力和情感表达能力,使其能够理解和响应人类的需求,在不同的环境和场景 中自主地完成任务。 图9