您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国联证券]:机械设备行业周专题:大模型如何赋能人形机器人? - 发现报告
当前位置:首页/行业研究/报告详情/

机械设备行业周专题:大模型如何赋能人形机器人?

机械设备2024-01-01张旭国联证券徐***
机械设备行业周专题:大模型如何赋能人形机器人?

│ 机械设备行业周专题(12.25—12.31) 大模型如何赋能人形机器人? 人形机器人是实现通用人工智能最有效的途径 目前的大模型已经满足智能涌现和自主代理,即能够根据指令按照一系列的思维链完成复杂的内容输出,但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有效的路径,即人形机器人是实现通用人工智能最有效的载体。 人形机器人在逻辑上全面对标人类 人形机器人参考人类身体,可在逻辑上全面对标人类,可分为“眼鼻喉、皮肤”、“大脑”、“小脑”、“身体”,分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。我们认为机械结构和外部传感器是完成人形机器人基本操作的基础,决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。 大模型能全面赋能人形机器人“大脑”和“小脑” 我们认为在“大脑”方面,在AI大模型的加持下,人形机器人能够根据环境或人的指令,对自己的行为做出决策;同时,通过视觉SLAM、BEV鸟瞰图和Transformer模型,能够完成高精度建图和导航。我们认为在“小脑”方面,大模型可以有效帮助机器人理解任务内容,然后将任务拆解,最后编程执行,完成任务,这将使得任务级编程成为可能。 科技巨头将率先推动大模型在人形机器人领域的应用 我们认为大语言模型到达了“iPhone时刻”,能力延伸至具身智能领域。以ChatGPT为例,大模型大幅提升人机交互水平,同时可替代工程师编写或优化机器人控制代码。以googleRT-2为例,随着大模型从自然语言领域延伸至图形图像领域,我们认为多模态大模型有望开辟机器人“大脑”、“小脑”快速进化的新方法。以googleGemini为例,随着原生多模态模型的不断发展,端到端神经网络有望实现从视频输入到高精度控制输出。 投资建议 我们认为在大模型领域比较有竞争力的公司主要集中在国内外大厂,而产业链投资机会主要集中在感知输入、运动控制、算力等领域,主要包括视觉传感器、力矩传感器、触觉传感器、位置传感器、运动控制器、算力公司等。重点推荐伟创电气,视觉传感器环节建议关注奥比中光、凌云光、奥普特、海康威视;力矩传感器环节建议关注柯力传感、东华测试、八方股份;触觉传感器环节建议关注奥迪威、汉威科技、苏试试验、弘信电子;位置传感器领域建议关注奥普光电、汇川技术、禾川科技、伟创电气、雷赛智能;运动控制器领域建议关注固高科技、雷赛智能、维宏股份;算力公司建议关注寒武纪。 证券研究报告2024年01月01日 投资建议:强于大市(维持) 上次建议:强于大市 机械设备 沪深300 20% 7% -7% -20% 2023/12023/52023/82023/12 相对大盘走势 作者 分析师:张旭 执业证书编号:S0590521050001邮箱:zxu@glsc.com.cn 联系人:田伊依 邮箱:tianyy@glsc.com.cn 行业报告 行业周报 风险提示:智能化不及预期,成本下降不及预期,行业竞争加剧风险。 相关报告 1、《机械设备:科技巨头布局XR产业有望带动中 国供应链发展》2023.12.23 2、《机械设备:钛合金手机中框有望增厚刀具市场空间》2023.12.16 正文目录 1.人形机器人是AI进入现实世界的载体3 1.1人形机器人是实现通用人工智能最有效的途径3 1.2人形机器人在逻辑上全面对标人类3 2.大模型能全面赋能人形机器人“大脑”和“小脑”4 2.1AI大模型的发展使人形机器人具备了“交互&决策”能力4 2.2基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人5 2.3AI大模型将提升机器人决策、规划和导航能力6 2.4AI大模型有望赋能人形机器人运动控制6 3.科技巨头将率先推动大模型在人形机器人领域的应用7 3.1ChatGPT横空出世标志着大模型“奇点”来临7 3.2大语音模型能力延伸至具身智能领域7 3.3多模态大模型开辟机器人大小脑进化的新方法8 3.4原生机器人多模态大模型有望实现视频输入和控制输出9 4.建议关注产业链及标的10 5.风险提示10 图表目录 图表1:人形机器人是实现通用人工智能最有效的途径3 图表2:人形机器人逻辑上全面对标人类4 图表3:AI大模型的发展使人形机器人具备了“交互&决策”能力5 图表4:特斯拉的纯视觉感知方案可直接迁移至人形机器人5 图表5:特斯拉自动标注系统提升训练效率6 图表6:特斯拉使用AI解决规划问题6 图表7:大模型能力可对应智能机器人需求7 图表8:人脑与具身智能框架的关系7 图表9:大语言模型(LLM)能力延伸至具身智能领域8 图表10:机器人动作表达为文本字符串可完成视觉-语言-动作数据协同微调8 图表11:文本标记被去标记为机器人动作从而实现闭环控制9 图表12:Gemini在TEXT领域的性能略超GPT-410 图表13:Gemini在MULTMODAL领域的性能远超GPT-4V10 图表14:建议关注产业链及标的10 1.人形机器人是AI进入现实世界的载体 1.1人形机器人是实现通用人工智能最有效的途径 通用人工智能需要满足4个必备条件,分别为智能涌现、自主代理、功能可见以及现实具象的能力。智能涌现是大模型具备强大推理能力的一个基础条件,只有具备了智能涌现这样一个基础表现的现象后,继续增加模型节点数和训练数据量去训练大模型才能够成为一条可行的路径。自主代理即当接收到环境信息或外部的指令 后,能够根据环境采取不同的决策,这种自主代理的能力能够使机器更好的去适应环境和完成复杂的任务。功能可见即理解世界和环境中实物的一种能力,目前大模型只是具备了理解抽象世界的能力。现实具象性相对目前的人工智能而言的,目前大模型 是在相对抽象的代码世界里完成的,并没有和现实的传感器、执行器等紧密的结合。 目前的大模型已经满足智能涌现和自主代理,即能够根据指令按照一系列的思维链完成复杂的内容输出,但功能可见性和现实具象性是目前大模型所欠缺的。我们认为智能机器人将会是实现功能可见性和现实具象性最有效的路径。 图表1:人形机器人是实现通用人工智能最有效的途径 资料来源:国联证券研究所 1.2人形机器人在逻辑上全面对标人类 人形机器人参考人类身体,可在逻辑上全面对标人类。分为“眼鼻喉、皮肤”、 “大脑”、“小脑”、“身体”,分别完成感知输入、感知处理/交互/决策/规划、运动控制、机械执行等功能。感知输入主要由外部传感器完成,包括视觉、嗅觉、听觉、触觉传感器等;感知处理/交互/决策/规划主要由CPU/GPU/NPU/DSP、OS、AI算法、SLAM算法等完成;运控控制主要由CPU/MCU、RTOS、运动控制算法完成;机械结构主要由 线性执行器、旋转执行器、灵巧手、躯干、内部传感器完成。我们认为机械结构和外 部传感器决定了人形机器人智能化的下限,而“大脑”、“小脑”决定了智能化上限。而随着AI大模型的发展,我们认为有望全面升级人形机器人“大脑”和“小脑”。 图表2:人形机器人逻辑上全面对标人类 资料来源:国联证券研究所整理 2.大模型能全面赋能人形机器人“大脑”和“小脑” 2.1AI大模型的发展使人形机器人具备了“交互&决策”能力 AI大模型的发展使人形机器人具备了“交互&决策”能力。2022年底,ChatGPT、Midjourney、StableDiffusion等相继亮相,AI大模型展示出很大潜力,推动了人工智能在各行各业的应用,也掀起了以人形机器人为代表的“具身智能”的发展热潮。NLP大模型如ChatGPT、Gemini等,具备上下文理解、多轮对话以及文学创造等能力, 加速了人和机器人之间的自然语言交互进程;CV计算机视觉大模型的发展增强了分类、目标检测、语义分割、深度估计四大视觉核心任务的完成精确度,大大提升了机器人的环境感知能力;不同于单模态大模型的单一类型数据处理,多模态大模型可以处理文本、图像、视频或音频等多种类型的数据,使得机器人具备各感官融合决策的能力,提升了机器人的推理决策功能。我们认为在AI大模型的加持下,人形机器人 有望具备非常强大的交互和决策能力,能够根据环境或人的指令,对自己的行为做出决策。 图表3:AI大模型的发展使人形机器人具备了“交互&决策”能力 资料来源:论文《PaLM-E:AnEmbodiedMultimodalLanguageModel》,国联证券研究所 2.2基于大模型的纯视觉自动驾驶感知方案可迁移至人形机器人 基于大模型的纯视觉自动驾驶感知方案可直接迁移至人形机器人。视觉是最为经济高效的方案,视觉图片的信息密度和信息量是最大的驾驶感知途径(灯光、颜色、 图案、物质的类型、材质)(位置、距离、速度)。通过视觉SLAM算法动态构建向量空间(VectorSpace),精准到每个像素点的三维空间,生成BEV鸟瞰图,让车或者机器人在立体的空间中运动。同时在算法中引入了Transformer模型,使算法精度不 断提高。我们认为大模型的发展有望使人形机器人的感知越来越智能。 图表4:特斯拉的纯视觉感知方案可直接迁移至人形机器人 资料来源:特斯拉AIDay,国联证券研究所 2.3AI大模型将提升机器人决策、规划和导航能力 AI大模型将提升机器人决策、规划和导航能力,以特斯拉为例,大模型持续优化大幅提升FSD的安全性以及规划效率。在特斯拉投资者日披露了FSDbeta的碰撞数据,使用FSDbeta每320万英里行驶中只有1次碰撞,而美国司机平均50英里就有一次碰撞,FSD系统的安全性是美国平均驾驶安全性的5-6倍。而特斯拉自动标注系统能够快速标注海量数据来对FSD算法模型进行训练,在规划算法中引入大模 型,提升了规划路径的效率。我们认为大模型有望提升智能汽车和人形机器人的决策、规划和导航能力。 图表5:特斯拉自动标注系统提升训练效率图表6:特斯拉使用AI解决规划问题 资料来源:特斯拉AIDay,国联证券研究所资料来源:特斯拉AIDay,国联证券研究所 2.4AI大模型有望赋能人形机器人运动控制 AI大模型使任务级编程成为可能,有望赋能人形机器人运动控制。当前机器人的通用性普遍较弱,基本上只是针对一个特定的任务或需求设计、制造机器人,如零件组装机器人、扫地机器人等。主要的技术瓶颈有两个:一是机器人的硬件形态限制 了机器人的用途;但更重要的原因在于软件层面暂时无法做到任务级编程。所谓任务级编程,指的是根据人下达的指令,实时编写出完成指令对应的程序并执行,使一个机器人能够完成各种任务。我们认为大模型具备较强的自然语言处理等能力,可以有效帮助机器人首先理解任务内容,然后将任务拆解,最后编程执行,完成任务,这将使得任务级编程成为可能。 图表7:大模型能力可对应智能机器人需求图表8:人脑与具身智能框架的关系 资料来源:国联证券研究所资料来源:智元机器人发布会,国联证券研究所 3.科技巨头将率先推动大模型在人形机器人领域的应用 3.1ChatGPT横空出世标志着大模型“奇点”来临 2022年11月由微软投资的OpenAI率先推出了ChatGPT产品,ChatGPT是OpenAI开发的智能聊天平台,推出仅仅2个月,注册用户已经过亿,引发了此轮AIGC浪潮。当前ChatGPT已经实现商业化,面向公众用户提供Plus会员服务(高级版账号升级),可以提供更好的聊天体验。同时OpenAIAPI与微软面向开发者提供API调用 服务。我们认为OpenAI商业化不但可以缓解日益庞大的训练和推理所需的算力资源 的成本压力,而且是检验产品用户满意度的最好方式,同时也有利于产品不断迭代。 3.2大语音模型能力延伸至具身智能领域 我们认为大语言模型(LLM)到达了“iPhone时刻”,能力延伸至具身智能领域。大语言模型拥有较高的理解和认知能力,大幅提升人机交互水平,大语言模型同时拥有较高的编程能力,可替代工程师编写或优化机器人控制代码。 以OpenAI的ChatGPT为例,当前机器人依赖专业工程师