从Transformer到多模态大模型的演进与应用。Transformer不仅在语言处理上广泛应用,还扩展至图像、视频、音频等多模态任务。诸如Stable Diffusion、VideoPoet和MusicLM等模型展现了其强大的生成能力,推动了多模态大模型(MLLM)的发展。 机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen。RT-2通过大规模的视觉-语言预训练,将视觉识别与低级机器人控制结合,实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat则基于Gato模型,展示了多任务和多具身平台上的自我迭代学习能力,能够快速适应新任务并生成跨任务策略。英伟达的MimicGen自动生成大量模仿学习数据,有效减少了人工干预,提升了机器人学习的效率。 特斯拉FSD,端到端算法成为主流,数据为关键。2020年FSD引入Transformer模型,走向了数据驱动的模型范式,2024年初FSD V12完全采用神经网络进行车辆控制,从机器视觉到驱动决策都将由神经网络进行控制。FSD V12能够模拟人类驾驶决策,成为自动驾驶领域全新发展路径。 英伟达Robocasa:具体智能关键节点,首次论证real-sim-real。通过升级模拟平台并构建模拟框架,基于厨房场景和原子任务、复合任务、真实世界三个场景收集行为数据集并进行结果评估。说明模拟器的丰富多样性以及视觉和物理真实性显著改善了模拟效果,实验结果首次论证了real-sim-real可行。 后续演绎:在机器人real-sim-real可行,证明存在scaling law的基础上,持续推荐可执行任务的泛化能力,迈向真正的AGI智能化:1)李飞飞Rekep:一种针对机器人操作任务的新型空间和时间约束表示方法,提供了一种三任务闭环的解决方案。通过关键点约束解构机器人行为,将操作行为分为多阶段,并构建子目标约束和路径约束,基于此提出一种三任务闭环的解决方案。同时,融入大型视觉模型和视觉-语言模型,利用VLM和GPT-4o生成Rekep约束,避免了手动指定Rekep的需要。2)1x世界模型:首证扩展定律,能通过大量学习理解周围环境。通过大量的真实数据学习和模拟,机器人能够预测复杂的物体互动,理解周围环境,并灵活应对日常任务。1x的进展首次在机器人上证明了扩展法则。3)GR-2的高效动作预测与泛化能力。由字节跳动研究团队开发的第二代机器人大模型,凭借大规模视频预训练和多模态学习技术,展示了卓越的泛化能力与多任务通用性。4)数字表亲:机器人训练法优化,以更低的成本获取更好的泛化能力。在保留数字孪生优势的基础上,数字表亲表现出了更强的适应能力和鲁棒性,成功实现了从模拟到现实的零样本迁移,为机器人学习在复杂、多变的真实环境中的应用开辟了新的可能性。 投资建议:1)关注算法训练中,需要使用的传感器公司,如视觉方案奥比中光,力学方案安培龙;2)关注同步受益的机器人本体公司,如总成方案三花智控、拓普集团;丝杆公司北特科技、五洲新春、贝斯特、双林股份、震裕科技等;3)关注其他产业链可延伸公司。 风险提示:机器人算法迭代进步速度不及预期,人形机器人落地场景实际需求不及预期 1Transformer模型的演进:从语言翻译到多模态智能的前沿探索 1.1开篇:Robot +AI的核心时间线与关键节点结论 下图是机器人和transformer模型结合的重点时间线及关键节点突破。 图1:Robot +AI的核心时间线与关键节点 1.2Transformer网络架构的提出 2017年,Google的Brain团队发布了一篇文章“Attention Is All You Need”,这篇文章中提出了Transformer网络结构。其一开始的提出是为了解决翻译问题,仅仅依赖于注意力机制就可处理序列数据,从而摈弃了RNN或CNN。这个新的网络结构,刷爆了各大翻译任务,同时创造了多项新的记录(英-德的翻译任务,相比之前的最好记录提高了2个BLEU值)。而且,该模型的训练耗时短,并且对大数据或者有限数据集均有良好表现。 图2:Transformer核心架构 模型的核心架构的示意图如上。Transformer模型的架构就是一个seq2seq架构,由多个Encoder Decoder堆叠而成。在此示意图中,Encoder和Decoder都包含6个block。Transformer将所有的单词向量化,通过矩阵编译的方法开始翻译以及预测,在翻译上一个词的同时对后续的单词进行预测,达到语句通顺的效果。其实际上是一个编码器-解码器结构,其中编码器将原始语言的句子作为输入并生成基于注意力的表征,而解码器关注编码信息并以回归方式生成翻译的句子,和之前的RNN相同。不同的是,Transformer模型引入了注意力机制和残差链接,也就是所谓“Attention Is All You Need”,最终输出结果。 Transformer的意义体现在它的长距离依赖关系处理和并行计算,而这两点都离不开其提出的自注意力机制。首先,Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,它在处理长序列时的表现更好。而自注意力机制的另一个特点时允许模型并行计算,无需RNN一样t步骤的计算必须依赖t-1步骤的结果,因此Transformer结构让模型的计算效率更高,加速训练和推理速度。 图3:自注意力机制示意图 1.3语言、图片、视频大模型的出现 语言,图片,视频大模型以大语言模型为基础,将强大的大语言模型作为大脑来执行多模态任务。但LLM只能理解离散文本,在处理多模态信息时不具有通用性。另一方面,大型视觉基础模型在感知方面进展迅速,但推理方面发展缓慢。这两者的优缺点形成了巧妙的互补。 由于上述不同点中的互补性,单模态LLM和视觉模型同时朝着彼此运行,结合上部分的图像、视频和音频等等模态,最终带来了MLLM的新领域。形式上,它指的是基于LLM的模型,该模型能够接收多模态信息并对其进行推理。从发展人工通用智能的角度来看,MLLM可能比LLM向前迈出一步。MLLM更加符合人类感知世界的方式,提供了更用户友好的界面(可以多模态输入),是一个更全面的任务解决者,不仅仅局限于NLP任务。 图4:MLLM的模型结构 上图包含了通用多模态模型结构的五个组件部分,以及每个组件部分的常用选择。 ModalityEncoder:负责将不同模态的输入数据编码为模型可理解的表示,目前技术可以实现输入图片、视频、音频文件,对于图像而言,可能涉及到将像素数据转换成一个特征向量,该向量捕捉了图像中的重要信息; Input Projector:将不同模态的输入数据映射到共享的语义空间,这意味着无论输入数据的形式如何,它们都会被转换成一个统一的格式,以便模型可以在一个统一的框架中处理它们; LLMS:大型语言模型,用于处理文本数据,可以将不同模态的信息对齐到一个共同的语义空间中,整合由前面两个部分转换后输入的信息,融合后再生成一个统一的、丰富的语义表示,可能是相应的指导性文本或脚本,与专门的生成模型协同工作,实现高质量的图片和音频生成; Output Projector:将模型生成的输出映射回原始模态的空间,如果模型的输出是文本,那么输出投影器将确保生成的文本与输入数据的语义空间相匹配; Modality Generator:根据输入数据生成对应的输出数据,将模型的内部表示转换成最终的输出形式,如生成图像、文本或音频。 多模态理解主要是前三个部分。(模态对齐)训练期间,encoder,LLM Backbone和generator一般保持冻结。主要优化输出和输出的projector。由于Projector是轻量级的模块,MM-LLMs中可以训练的参数比例和总参数相比非常小(2%左右),模型的总体参数规模取决于LLM部分。由此,Transformer模型随着LLM的广泛应用而成为了目前多模态大模型的核心思想和目前较为先进的网络架构。 截至2024年10月,中国移动在多模态大模型领域取得了显著进展,其九天善智多模态基座大模型表现尤为突出。该模型可以处理长文本的智能化解析,全双工语音交互,拥有高质量的视频与图像处理能力,可以对结构化数据做深度洞察。 1.4多模态、跨模态大模型的难点 其一是异质化数据的处理与整合存在困难:多模态大模型中,由于输入输出的数据具有多样性,面临的主要问题包括数据的异质性导致的表示难题、不同模态间的数据转换挑战、确定模态间元素联系的对齐问题、多模态信息的有效融合难点,以及如何在不同模态间进行知识迁移的协同学习挑战。需要综合应用多元化多样化的模型对其进行处理,将各个异质性的数据再整合规划,才能真正读懂要求,输出数据. 其二是训练过程挑战重重:获取跨多个模态的充足数据可能非常困难和昂贵,且数据可能会偏向于某些模态,导致模型产生偏见,从而导致模型偏向于数据量更多或特征更强的模态,导致模型产生偏见;同时由于特定于模态的编码器通常分别训练,他们声称的表示是存在差异的,对投影/对齐模块的有效学习过于依赖。 1.5Scaling Law的存在 在这其中,值得关注的是语言模型的scaling law。大模型的Scaling Law是OpenAI在2020年提出的概念,可以概括为“预测即压缩、压缩即泛化、泛化即智能”将大语言模型用在别的领域之后,从计算理论的角度,联合压缩多模态数据理应获得比单模态更好的理论最优压缩器。 对于所有的模态来说,他们都必须要服从的scaling law是,随着数据规模的提升,模型的表现也会随之提升,如果法则正确,那么要想使得模型更好,只需要搭建好算法和框架,不断收集数据就可以了。一旦证明scaling law的存在和有效性,就可以预测模型性能与规模的关系,投入恰当规模的数据集,使得计算资源可以更高效的应用。多模态模型会变得更加可预测和可计算,其不确定性就极大的降低了。 图5:Scaling Law的效果图示 在此基础上,本文想要按时间线和核心milestone贡献,来帮助大家拆解最近1年时间,robot的transformer结合之旅是怎么演进的,从而去探讨真正前沿的,以transformer为基础的模型到底会去往何处。 2机器人现实世界至数据化的突破 :RT-2、RoboCat与MimicGen 2.1谷歌RT-2:具身智能学习 2.1.1提出的问题与研究意义 大语言模型可以实现流畅的文本生成、问题解决、创意写作以及代码生成,视觉-语言模型(VLM)则能够实现开放词汇的视觉识别。以上能力对于现实环境中的通用型机器人非常有用,然而它们如何获得这些能力还是未知。如何将大型预训练的视觉-语言模型直接集成到低级机器人控制中,以促进泛化并实现紧急语义推理,成为了机器人下一步发展的方向。 Google提出的RobotTransformer(RT)系列使用了更大规模的语言模型和更多的具身智能任务数据,在大量具身智能任务中获得较好效果。其中RT-1算法使用预训练的EfficientNet-B3网络初始化,以机器人状态和历史图片作为输入,通过EfficientNet特征提取后直接输出动作。 图6:RT-1结构概览 RT-1将机器人动作的每个维度进行均匀离散化,并将动作词元化,然后使用监督学习的损失进行训练。为了使视觉-语言模型能够控制机器人,还差对动作控制这一步。该研究采用了非常简单的方法:他们将机器人动作表示为另一种语言,即文本token,并与Web规模的视觉-语言数据集一起进行训练。 图7:机器人动作数字token化 RT-2在机器人任务上展示了更强的泛化能力,以及对超出其接触的机器人数据之外的语义和视觉的理解。RT-2在RoboticTransformer1(RT-1)的基础上进行,直接训练视觉-语言模型以实现开放词汇视觉问答和视觉对话,输出低级机器人动作,同时解决其他互联网规模的视觉语⾔任务。相较于RT-1,R