星海系列: 人形机器人与AI大模型之Robot+AI的Transformer之旅 2024年11月07日 从Transformer到多模态大模型的演进与应用。Transformer不仅在语言 推荐 维持评级 处理上广泛应用,还扩展至图像、视频、音频等多模态任务。诸如StableDiffusion、VideoPoet和MusicLM等模型展现了其强大的生成能力,推动了多模态大模型(MLLM)的发展。 机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen。RT-2 通过大规模的视觉-语言预训练,将视觉识别与低级机器人控制结合,实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat则基于Gato模型,展示了多任务和多具身平台上的自我迭代学习能力,能够快速适应新任务并生成跨任务策略。英伟达的MimicGen自动生成大量模仿学习数据,有效减少了人工干预,提升了机器人学习的效率。 分析师李哲 特斯拉FSD,端到端算法成为主流,数据为关键。2020年FSD引入 Transformer模型,走向了数据驱动的模型范式,2024年初FSDV12完全采用 执业证书:S0100521110006邮箱:lizhe_yj@mszq.com分析师罗松 神经网络进行车辆控制,从机器视觉到驱动决策都将由神经网络进行控制。FSD 执业证书:S0100521110010 V12能够模拟人类驾驶决策,成为自动驾驶领域全新发展路径。 邮箱:luosong@mszq.com 英伟达Robocasa:具体智能关键节点,首次论证real-sim-real。通过升 相关研究1.一周解一惑系列:轮胎模具需求稳步增长,出海空间广阔-2024/10/202.一周解一惑系列:苹果海外供应链受阻,国内有望新设产线-2024/10/133.一周解一惑:AI驱动+产业转移,PCB曝光设备受益-2024/09/304.一周解一惑系列:复盘日本拖拉机历史,大拖占比提升大势所趋-2024/09/215.扬帆系列:船舶需求分析(二):干散货船需求与测算-2024/09/18 级模拟平台并构建模拟框架,基于厨房场景和原子任务、复合任务、真实世界三个场景收集行为数据集并进行结果评估。说明模拟器的丰富多样性以及视觉和物理真实性显著改善了模拟效果,实验结果首次论证了real-sim-real可行。 后续演绎:在机器人real-sim-real可行,证明存在scalinglaw的基础 上,持续推荐可执行任务的泛化能力,迈向真正的AGI智能化:1)李飞飞Rekep:一种针对机器人操作任务的新型空间和时间约束表示方法,提供了一种三任务闭环的解决方案。通过关键点约束解构机器人行为,将操作行为分为多阶段,并构建子目标约束和路径约束,基于此提出一种三任务闭环的解决方案。同时,融入大型视觉模型和视觉-语言模型,利用VLM和GPT-4o生成Rekep约束,避免了手动指定Rekep的需要。2)1x世界模型:首证扩展定律,能通过大量学习理解周围环境。通过大量的真实数据学习和模拟,机器人能够预测复杂的物体互动,理解周围环境,并灵活应对日常任务。1x的进展首次在机器人上证明了扩展法则。3)GR-2的高效动作预测与泛化能力。由字节跳动研究团队开发的第二代机器人大模型,凭借大规模视频预训练和多模态学习技术,展示了卓越的泛化能力与多任务通用性。4)数字表亲:机器人训练法优化,以更低的成本获取更好的泛化能力。在保留数字孪生优势的基础上,数字表亲表现出了更强的适应能力和鲁棒性,成功实现了从模拟到现实的零样本迁移,为机器人学习在复杂、多变的真实环境中的应用开辟了新的可能性。 投资建议:1)关注算法训练中,需要使用的传感器公司,如视觉方案奥比 中光,力学方案安培龙;2)关注同步受益的机器人本体公司,如总成方案三花智控、拓普集团;丝杆公司北特科技、五洲新春、贝斯特、双林股份、震裕科技等;3)关注其他产业链可延伸公司。 风险提示:机器人算法迭代进步速度不及预期,人形机器人落地场景实际需 求不及预期 目录 1Transformer模型的演进:从语言翻译到多模态智能的前沿探索3 1.1开篇:Robot+AI的核心时间线与关键节点结论3 1.2Transformer网络架构的提出3 1.3语言、图片、视频大模型的出现4 1.4多模态、跨模态大模型的难点6 1.5ScalingLaw的存在6 2机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen8 2.1谷歌RT-2:具身智能学习8 2.2英伟达MimicGen:自动化数据生成系统11 2.3谷歌RoboCat:多任务具身智能15 3特斯拉FSD:端到端算法成为研究主流,数据集成为关键18 3.1FSDV12:全新的端到端自动驾驶18 3.2FSD的前世今生19 3.3FSD架构变革:Transformer模型的引入20 3.4FSD端到端:感知决策一体化21 4端到端算法成为研究主流,数据集成为关键23 4.1端到端算法:直接连接数据输入与控制指令输出23 4.2端到端算法相比传统的技术架构的优势24 4.3自动驾驶端到端算法迁移至人形机器人的优势26 4.4机器人端到端算法的关键问题27 4.5特斯拉grok模型:模拟思维链思考过程29 5英伟达Robocasa:具体智能关键节点,首次论证real-sim-real31 5.1英伟达Robocasa:基于厨房场景的模拟数据收集31 6机器人real-sim-real可行,迈向真正的AGI智能化36 6.1李飞飞团队Rekep:一种针对机器人操作任务的新型空间和时间约束表示方法,提供了三任务闭环的解决方案36 6.21x世界模型:首证扩展定律,能通过大量学习理解周围环境40 6.3字节GR-2:高效动作预测与泛化能力43 6.4数字表亲:机器人训练法优化,以更低的成本获取更好的泛化能力47 7投资建议51 8风险提示51 插图目录52 1Transformer模型的演进:从语言翻译到多模态智能的前沿探索 1.1开篇:Robot+AI的核心时间线与关键节点结论 下图是机器人和transformer模型结合的重点时间线及关键节点突破。 图1:Robot+AI的核心时间线与关键节点 资料来源:AnthonyBrohan《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》,AjayMandlekar《MimicGen:ADataGenerationSystemforScalableRobotLearningusingHumanDemonstrations》,KonstantinosBousmalis《RoboCat:ASelf-ImprovingGeneralistAgentforRoboticManipulation》,tesla,TianyuanDai《ACDC:AutomatedCreationofDigitalCousinsforRobustPolicyLearning》,JackMonas《1xworldmodel》,Chi-LamCheang《GR-2:AGenerativeVideo-Language-ActionModelwithWeb-ScaleKnowledgeforRobotManipulation》,SoroushNasiriany《RoboCasa:Large-ScaleSimulationofEverydayTasksforGeneralistRobots》,WenlongHuang,LiFei-Fei《ReKep:Spatio-TemporalReasoningofRelationalKeypointConstraintsforRoboticManipulation》,民生证券研究院 1.2Transformer网络架构的提出 2017年,Google的Brain团队发布了一篇文章“AttentionIsAllYouNeed”,这篇文章中提出了Transformer网络结构。其一开始的提出是为了解决翻译问题,仅仅依赖于注意力机制就可处理序列数据,从而摈弃了RNN或CNN。这个新的网络结构,刷爆了各大翻译任务,同时创造了多项新的记录(英-德的翻译任务,相比之前的最好记录提高了2个BLEU值)。而且,该模型的训练耗时短,并且对大数据或者有限数据集均有良好表现。 图2:Transformer核心架构 资料来源:AshishVaswani,NoamShazeer《AttentionIsAllYouNeed》,民生证券研究院 模型的核心架构的示意图如上。Transformer模型的架构就是一个seq2seq架构,由多个EncoderDecoder堆叠而成。在此示意图中,Encoder和Decoder都包含6个block。Transformer将所有的单词向量化,通过矩阵编译的方法开始翻译以及预测,在翻译上一个词的同时对后续的单词进行预测,达到语句通顺的效果。其实际上是一个编码器-解码器结构,其中编码器将原始语言的句子作为输入并生成基于注意力的表征,而解码器关注编码信息并以回归方式生成翻译的句子,和之前的RNN相同。不同的是,Transformer模型引入了注意力机制和残差链接,也就是所谓“AttentionIsAllYouNeed”,最终输出结果。 Transformer的意义体现在它的长距离依赖关系处理和并行计算,而这两点都离不开其提出的自注意力机制。首先,Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,它在处理长序列时的表现更好。而自注意力机制的另一个特点时允许模型并行计算,无需RNN一样t步骤的计算必须依赖t-1步骤的结果,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。 图3:自注意力机制示意图 资料来源:AshishVaswani,NoamShazeer《AttentionIsAllYouNeed》,民生证券研究院 1.3语言、图片、视频大模型的出现 语言,图片,视频大模型以大语言模型为基础,将强大的大语言模型作为大脑来执行多模态任务。但LLM只能理解离散文本,在处理多模态信息时不具有通用性。另一方面,大型视觉基础模型在感知方面进展迅速,但推理方面发展缓慢。这两者的优缺点形成了巧妙的互补。 由于上述不同点中的互补性,单模态LLM和视觉模型同时朝着彼此运行,结合上部分的图像、视频和音频等等模态,最终带来了MLLM的新领域。形式上,它指的是基于LLM的模型,该模型能够接收多模态信息并对其进行推理。从发展人工通用智能的角度来看,MLLM可能比LLM向前迈出一步。MLLM更加符合人类感知世界的方式,提供了更用户友好的界面(可以多模态输入),是一个更全面的任务解决者,不仅仅局限于NLP任务。 图4:MLLM的模型结构 资料来源:DuzhenZhang《MM-LLMs:RecentAdvancesinMultiModalLargeLanguageModels》,民生证券研究院 上图包含了通用多模态模型结构的五个组件部分,以及每个组件部分的常用选择。 ModalityEncoder:负责将不同模态的输入数据编码为模型可理解的表示,目前技术可以实现输入图片、视频、音频文件,对于图像而言,可能涉及到将像素数据转换成一个特征向量,该向量捕捉了图像中的重要信息; InputProjector:将不同模态的输入数据映射到共享的语义空间,这意味着无论输入数据的形式如何,它们都会被转换成一个统一的格式,以便模型可以在一个统一的框架中处理它们; LLMS:大型语言模型,用于处理文本数据,可以将不同模态的信息对齐到一个共同的语义空间中,整合由前面两个部分转换后输入的信息,融合后再生成一个统一的、丰富的语义表示,可能是相应的指导性文本或脚本,与专门的生成模型协同工作,实现