——机器人行业深度报告 评级(强于大市) 长城证券产业金融研究院分析师:邓宇亮执业证书编号:S1070525120004分析师:孙培德执业证书编号:S1070523050003 时间:2026年2月26日 战略定位:全球主要国家及地区在机器人行业的政策 行业三大卡点 机器人的机会远大于新能源车 人形机器人≠新能源汽车 增速更陡 门槛更低 ①零件数量②研发费用③建厂费用 ①应用场景:众多vs出行②国际竞争的战略高地,资金支持 大脑和小脑的分工 ➢大脑(感知-规划),负责人机交互工作,并统筹完成任务的接收、理解、决策与规划全流程;大模型具体落地上述核心环节,实现任务接收、需求理解、行动决策,以及对任务的规划与步骤分解。 ➢小脑(决策-控制),负责把任务转化为动作,控制运动包括状态分析、全身运动控制、轨迹优化等环节;动作规划明确任务执行的路径与操作规划,运控算法则具体把控手部伸展、抓取位置、关节控制等运动执行细节。 大脑:算法大模型、算力、数据 ➢特斯拉:FSDV14MoE大模型+Grok3协同为算法核心,Dojo3自研超算+Cortex通用集群+xAIColossus三引擎并行,AI5/AI6/AI7芯片覆盖车/机器人/太空端侧训推,形成“数据-模型-算力-芯片”全闭环 ➢英伟达:英伟达发布人形机器人通用基底模型Groot+Blackwell云端超算中心+机器人端侧芯片Jetson+Isaac机器人训练平台 ➢0penAl:0penAl将大语言模型接入1X、Figure等人形机器人产品 ➢谷歌:谷歌机器人大模型迭代至GeminiRobotics1.5,一种多形态视觉-语言-动作(VLA)模型,以及GeminiRobotics-ER1.5,一种最先进的具身推理(ER)模型。该模型具有几大创新点:首先,Gemini Robotics1.5具有新颖的架构和运动迁移(MT)机制,使其能够从异构、多形态的机器人数据中学习,从而使VLA更加通用。其次,Gemini Robotics 1.5将动作与多层次的内部自然语言推理过程交错进行。这使机器人能够“先思考后行动”,显著提升其分解和执行复杂多步骤任务的能力,同时也让机器人的行为对用户更具可解释性。第三,Gemini Robotics-ER1.5在具身推理方面建立了新的最先进水平,即在机器人关键能力的推理方面,如视觉和空间理解、任务规划及进度估计。 ➢大脑能力依赖数据+小脑运控和硬件耦合:机器人运动和操作的数据模态更复杂,需要从头开始定义数据,还要在真实环境里长期、大规模采集。 资 料 来 源 :G o o g l e D e e p M i n d, 长 城 证 券 产 业 金 融 研 究 院 大脑:算法大模型、算力、数据 ➢数据来源:机器人大脑(具身智能大模型)的训练与优化高度依赖多元且规模化的数据集,数据来源已形成“真实采集+仿真生成+开源共建”的三位一体格局,是其实现环境理解与任务决策的核心基础。 ➢数据:根据2024年Coatue的报告,具身智能训练数据较为短缺。各类模型的数据集存在本质差异,彼此完全不同: •以图像为标记的模型,最大数据集规模达到6B,Midjourney为典型示例;•以视频为标记的模型,最大数据集规模达2.6B(十亿级),如全球通用大模型Runway;•大语言模型是现阶段数据集规模最大的模型类别,其中发展最成熟的大语言模型,数据集体量已达15Ttokens(万亿级);•而现阶段机器人模型的数据集规模仅为2.4M(百万级),距离实现机器人通用模型的目标还相去甚远。 ➢解决数据不够的办法是:第一,模型端,用更高效的模型,把稀缺的数据高效利用;第二,训练端,用仿真训练、模拟训练,改变假设、背景、参数,创造数据。 资 料 来 源 :C o a t u e, 诺 亦 腾 官 微 ,长 城 证 券 产 业 金 融 研 究 院 大脑:算法大模型、算力、数据 根据《中国人形机器人创新发展报告2025》的信息,机器人智能化能力的主要原因是数据不足,提升具身智能算法的核心依然在于数据。 •最佳的数据取得方式是通过机器人本体进行采集的,但获取成本高限制了其数量。通过人类示教、真机作业采集等方式,获取物理世界中的多模态交互数据。国内人形国创中心的具身智能训练场,依托百台机器人和多样场景,积累异构虚实通用数据集,支撑模仿学习与技能训练。 •仿真合成数据——首先,大语言模型根据简短的任务描述和任务需求来生成相应任务的仿真场景代码搭建,还提供一套自动化的流程来验证仿真环境的可行性,并进行迭代修正。其次,大语言模型能根据不同任务生成的仿真环境构建一个高质量大模型生成的任务库,用于在构建新任务时进行检索和反馈优化。最后,根据任务搭建的流程,大语言模型可以采集大量专家数据,在现有模仿学习架构的基础上训练模仿学习策略。GenSim框架可以用于根据目标任务来搭建仿真环境并产生目标任务的数据,也可以利用大模型的能力进行探索来产生新颖的任务和数据。GenSim的不足之处是仅面向Ravens仿真器中的机械臂抓取任务。除了通过提升仿真器本身的性能外,还可以通过少量实采数据结合虚实对齐(VirtualRealityAlignment,VRA)算法来实现。 •同时,互联网也存在大量人类操作的视频,且数量庞大,参考大模型训练经验,若能合理利用,也是提升机器人智能的重要途径。需要团队具备扎实的数据清洗能力和底层数据基础设施。 小脑:小脑模型、IMU、MCU编码器、执行器末端的传感器 ➢IMU惯性测量单元:通常放在机器人腰部等位置,协调机器人的运动,保持平衡。是一系列传感器的组合,包括加速度计、陀螺仪、磁力计等,测量加速度、角速度、磁场强度等。中低端的IMU已经实现了国产替代,但是高端的还是以海外厂商为主。IMU主要难点是提升精度,因为IMU容易受到温度和机械振动的影响,解决方法是需要对传感器进行高精度的校准、以及强大的数据融合算法支持。 ➢编码器:可以实时反馈电机转子的位置、转速和运动方向(是位置or速度传感器),从而实现精准控制。原理有很多种,如光电编码器、磁编码器、电容式编码器等,其中光电式是精度更高、不受电磁干扰,是主流选择。编码器的壁垒主要是在于码盘精度、装配工艺、误差补偿技术。主要指标是精度和寿命。 资 料 来 源 : 化 工 仪 器 网 ,R e a l P a r s, 长 城 证 券 产 业 金 融 研 究 院 小脑:小脑模型、IMU、MCU编码器、执行器末端的传感器 ➢力/力矩传感器:国内一维力/力矩价格在100-1000元左右,六维力/力矩传感器价格在2000元左右(海外的在3w以上)。 ➢电阻应变片:传感器的核心技术,持续为现代工程与科研提供着关键物理量(压力、变形、应变)到电信号的可靠转换。其核心原理基于导体或半导体材料在机械形变下电阻值的规律性变化,这一现象由材料的几何尺寸(长度、截面积)与电阻率共同决定。集成于机器人关节和灵巧手的应变片,提供实时的力/力矩信息,是实现自适应抓取、人机安全协作的关键(如协作机器人关节扭矩传感器普遍采用应变电桥技术)。 资料来源:北 京 联 远 智 维 科 技 有 限 公 司 , 长 城 证 券 产 业 金 融 研 究 院 资 料 来 源 :《针对智能假肢的六维力传感器设计与标定技术研究_刘涛》,长城证券产业金融研究院 小脑:小脑模型、IMU、MCU编码器、执行器末端的传感器 ➢工艺:六维力矩传感器的核心结构通常由弹性体、应变片(或压电晶体等敏感元件)、电路部分及信号处理单元组成。弹性体作为传感器的主体,其设计直接关系到传感器的测量精度和稳定性。常见的弹性体结构包括多组弹性应变梁,这些应变梁在受到外力作用时会发生微小的形变。在每个应变梁上,会贴有一组或多组应变片,用于检测形变引起的电阻变化。此外,部分六维力矩传感器还采用压电晶体等压电材料,通过测量外力作用下产生的电荷变化来感知力和力矩。 ➢六维力矩传感器在多个领域发挥着重要作用。在机器人技术中,六维力矩传感器为机器人提供了精确的力反馈,使其能够更智能地执行各种任务,如精密装配、抓取物体等。在航空航天领域,六维力矩传感器被用于测量风洞试验、飞行器运动状态下的六维力信息,为飞行器的姿态控制和任务执行提供关键数据支持。在医疗康复领域,手术机器人通过搭载六维力矩传感器,能够提升手术的安全性和精度。 资 料 来 源 : 《 针 对 智 能 假 肢 的 六 维 力 传 感 器 设 计 与 标 定 技 术 研 究_刘 涛 》 , 触觉传感器:机器人的皮肤 根据2018年《科技日报》总编辑刘亚东梳理制约中国工业发展的35项关键技术,触觉传感器是我国重点攻坚的35项“卡脖子”技术之一。目前高端触觉传感器产品主要依靠进口,且价格昂贵,不利大面积部署,我国亟需实现国产工业级阵列式触觉传感器替代进口。 ➢触觉传感器:柔性触觉传感器能够感知外部的机械刺激(例如应变、压力、剪切和扭转),并将这些刺激转化为电信号。根据其工作机制,柔性触觉传感器可分为压阻式、电容式、压电式和摩擦电式四类。 •压阻式:当材料在机械应力作用下发生形变时,其电阻变化可被观测和测量。这种特性源于导电材料微观结构的动态重构。•压电式:压电式触觉传感器利用存在于非中心对称晶体中的压电效应。当受到机械刺激时,这类材料会因内部极化而产生电荷与电压,将机械能转化为电能。通过测量所产生的电荷与电压,可确定外力的大小与分布。•电容式:过电容变化来检测机械刺激。最基本的电容式传感器采用金属薄膜作为电极,在两个电极之间夹有弹性体介电层。这类传感器具有 高灵敏度、高分辨率、响应速度快以及功耗低等特点。•摩擦电式:摩擦电式触觉传感器的工作原理基于摩擦起电和静电感应。当两种具有不同电子亲和力的材料接触并相互滑动时,会发生静电荷转 移,在界面产生相反的电荷。当材料分离时,带电表面分开,同时静电感应在电极中形成补偿电荷,从而在电极间产生电压差。施加外力可触发摩擦电效应,产生用于检测压力、触摸和振动的电信号。 视觉传感器:机器人的眼睛 ➢3D方案:•飞行时间法(TOF):是一种通过测量激光脉冲从发射到接收的时间间隔来确定目标距离的测量方法。该方法的基本原理是利用光在传播介质 中的速度恒定这一特性,通过精确测量光脉冲的往返传播时间来计算目标距离。•激光三角测量:激光三角测量中,激光照射到被测物体表面发生反射,经接收透镜后被光敏探测器接收。当被测物体发生位移时,光敏探测器上的像点发生相应移动,基于像点移动的距离和几何三角关系即可计算出被测物体移动的距离。•结构光:基本原理为采用一个光源装置代替双目视觉中的一个摄像机,用光源装置向场景中投射已知图案,用摄像机捕获图案,根据系统几何关系和三角测量原理获得待测物体的深度信息。➢2D方案:•2D多目视觉:从一组已知相机位姿的多视角二维图像中恢复出场景的三维几何结构,尤其是精确估计每个空间点的深度信息,从而生成稠密的三维点云或过程的关键在于如何高效准确地判断“图像一致性”,即候选像素是否对应真实世界中的同一点。•RGB相机:仅能捕捉到物体表面的纹理信息,没有物体到相机的距离信息。而现实物理世界是三维的,2D成像技术虽然发展多年,但因缺乏深度数据而难以完整重现各类三维场景。 ➢视觉传感器:索尼、英飞凌等。 资料来源:亚德诺半导体,颜 色 空 间 有 限 公 司 ,长城证券产业金融研究院 灵巧手:最灵活的、最难的、最有变化的零部件 ➢常见传动方式:腱绳传动、连杆传动、齿轮传动等,其中腱绳传动、连杆传动是目前应用最广泛的方案。 ➢特斯拉第三代灵巧手:腱绳传动方案,电机置于前臂,从灵巧手进化到仿生臂。特斯拉第三代灵巧手将电机放在前臂(此前电机在手掌内),其传动方案为微型丝杠+腱绳。自由度比上一代增加了一倍,手部有22个自由度,手腕和前臂有3个自由度,类似于人类手指的腱和绳索结构,通过电机驱动的齿轮和滚珠丝杠将旋转运动转换为直线运动,螺母