行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告

信息技术 2024-12-20 - 中移智库张兵

多模态大语言模型轻量化方法研究现状和展望

多模态大语言模型概述

定义：多模态大语言模型（MLLMs）融合了大语言模型与多模态处理能力，能理解和生成文本、图像、视频、音频等多元数据，实现跨模态任务处理，如视觉问答、视觉推理等。
轻量化必要性：尽管MLLMs性能优异，但其庞大的模型规模和高昂的训练、推理成本限制了广泛应用。例如，MiniGPT-v2训练耗时超800GPU小时，LLaVA-1.5-Vicuna-13B推理需18.2T FLOPS和41.6G内存，资源消耗巨大。此外，云端运行模式引发普及化和隐私保护担忧，高算力需求也限制了边缘设备应用。

多模态大语言模型轻量化方法研究现状

核心模块优化：
- 视觉编码器：通常沿用大规模模型中广泛采用的预训练视觉编码器（如CLIP），轻量化优化效果不如语言模型显著。
- 预训练大语言模型：采用参数少于30亿的小型轻量化模型（如phi2-2.7B、Gemma-2B）或使用模型压缩技术（量化、剪枝、知识蒸馏、紧凑架构、动态网络）对大语言模型进行轻量化。
- 视觉-语言投影器：通过基于注意力（Q-Former）、CNN（LDPv2）、Mamba（VL-Mamba）或混合结构（卷积抽象器）的轻量化设计，实现视觉特征到文本特征空间的映射。
视觉token压缩：
- 多视图输入：如LLaVA-UHD将高分辨率图像划分为小切片，LLaVA-PruMerge和MADTP通过适应性视觉token减少方法降低计算量。
- 多尺度信息融合：Mini-Gemini模型使用高低分辨率编码器结合块信息挖掘，VideoLLaVA基于LanguageBind统一视觉表示，避免计算负担。
高效的结构：
- 专家混合模型（MoE）：如MoE-LLaVA通过稀疏M框架增加参数数量而不影响计算效率。
- Mamba：Cobra将Mamba融入视觉模态，性能媲美LLaVA但参数仅用43%。
- 推理加速：SPD通过推测解码仅使用语言模型，跳过图像token处理，提高推理效率。

展望

突破多模态信息处理局限：当前轻量化MLLMs通常仅接受单一图像，未来需支持更多元模态（如长视频、长篇文档），以实现更复杂的应用。
输入输出模态扩展：未来需扩大输入模态范围（如音频、传感器数据）并增强生成能力，拓宽应用领域。
边缘部署：轻量化MLLMs将推动机器人等智能设备发展，提升环境理解准确性、任务执行效率和人机交互能力。

多模态大语言模型（MLLMs）轻量化方法研究现状和展望中国移动研究院业务研究所2024年12月摘要多模态大语言模型（MLLMs）在视觉问答、视觉理解与推理等任务中展现出卓越的性能，但多模态大语言模型庞大的模型规模和高昂的训练、推理成本限制了其在学术界和工业界的广泛应用。因此，研究高效且轻量化的多模态大语言模型，特别是在边缘计算场景中，潜力巨大。本文将全面介绍当前多模态大语言模型轻量化的方法及研究现状，并探讨其局限性及未来潜在的发展方向。一、多模态大语言模型概述（一）什么是多模态大语言模型？多模态大语言模型是一种创新性的人工智能模型，巧妙地融合了大语言模型与多模态处理能力。它能够理解和生成涵盖多种模态的数据，如文本、图像、视频、音频等，并通过多模态信息的融合实现更广泛、更复杂的任务。多模态大语言模型不仅具有强大的语言处理能力，还能通过对图像、视频或其他模态的理解，进行跨模态任务处理，比如视觉问答、视觉推理、多模态内容生成等。（二）为什么要轻量化？多模态大语言模型的成功主要得益于缩放定律（scalinglaw），即资源投入越多，性能越高。然而，高资源需求限制了其开发和部署。例如，MiniGPT-v2模型[16]的训练耗时超800GPU小时，LLaVA-1.5-Vicuna-13B[3]模型推理需18.2T FLOPS和41.6G内存，资源消耗巨大。目前，主流多模态大语言模型多由少数企业掌控，云端运行模式引发普及化和隐私保护担忧，同时，高算力需求也限制了边缘设备的应用，对公平访问和隐私保护构成挑战。鉴于此，轻量化多模态大语言模型的研究日益受到重视，旨在降低资源消耗、提高适用性，同时尽量减少性能损失。二、多模态大语言模型轻量化方法研究现状多模态大语言模型主要由三个核心模块组成：视觉编码器、预训练大语言模型、以及视觉-语言投影器，如图1所示。轻量化多模态大语言模型的优化措施主要集中在对上述三个模块的改进，并引入了视觉token压缩技术和高效的结构设计。（一）三个核心模块优化视觉编码器：负责接收和处理视觉输入。轻量化的多模态大语言模型通常选择使用预训练的视觉编码器模型（如CLIP[4]），以便更好地对齐视觉与文本输入的特征空间。由于视觉编码器在多模态大语言模型总参数中的占比较小，其轻量化优化的效果不如语言模型显著，因此大部分轻量化多模态大语言模型通常仍沿用大规模多模态大语言模型中广泛采用的视觉编码器。预训练大语言模型：大语言模型是多模态大语言模型的核心组件，用于管理多模态信号并执行推理。多模态大语言模型中获取小的大语言模型的方案一般分为两种：一是直接使用小的轻量化模型。轻量化的多模态大语言模型通常使用参数少于30亿的小型语言模型，如微软的phi2-2.7B模型[17]和谷歌的 Gemma-2B模型[2]。Phi-2模型在特殊数据集上训练后，其性能可以匹配使用常规数据集训练的25倍大模型。Phi-3-mini模型[2]可以轻松地在现代手机上本地部署，且其质量与Mixtral8x7B[18]模型和GPT-3.5等模型相当。二是使用模型压缩技术对大语言模型进行轻量化处理。一般常用的模型压缩方法包括：量化，剪枝，知识蒸馏，紧凑的架构设计，动态网络等，这些方法在传统的深度学习网络（如CNN和RNN）中已有广泛应用，而在大语言模型的优化中也有了更深入的探索。每种方法的具体实施方案和效果因任务需求和硬件约束而异，在此不再逐一详细介绍。视觉-语言投影器：是连接视觉与文本桥梁，其核心功能是将视觉特征块映射至文本特征空间。针对此模块的轻量化，包括四种：一是基于注意力。如BLIP2[7]引入了Q-Former，一个轻量级的Transformer，使用一组可学习的查询向量从冻结的视觉模型中提取视觉特征。二是基于CNN。如MobileVLMv2[8]提出的LDPv2，通过使用逐点卷积层、平均池化和带有跳跃连接的PEG模块，LDPv2减少了99.8%的参数，在效率上取得了更好的表现。三是基于Mamba。如VL-Mamba[9]在其视觉-语言投影器中实现了2D视觉选择性扫描（VSS）技术，促进了多种学习方法的融合。四是混合结构。如卷积抽象器通过使用卷积结构高效地建模局部上下文，有助于将视觉特征抽象为任意平方数的视觉token。（二）视觉token压缩视觉token压缩旨在减少由大量token引起的计算量，当前已经成为多模态大语言模型轻量化的关键。通过以下几种关键技术来实现：多视图输入:为了利用低分辨率视觉编码器处理高分辨率图像，一种常见的方法是输入高分辨率图像的低分辨率全局视图，和通过分割高分辨率图像获得局部视图。例如，LLaVA-UHD[5]提出了一种图像模块化策略，将原始分辨率图像划分为更小的可变大小切片，以实现高效且可扩展的编码。 token处理：长视觉token序列的处理技术对于高效的多模态大语言模型至关重要，其解决了保持细粒度细节和减少计算复杂度的双重挑战。例如LLaVA-PruMerge[10]和MADTP[19]提出了一种适应性视觉token减少方法，在保持相似模型性能的同时显著减少了视觉token的数量。多尺度信息融合：利用多尺度图像信息对视觉特征提取至关重要。这种方法使模型能够捕捉较小尺度中的细粒度细节和较大尺度中的广阔背景。例如Mini-Gemini模型[11]包括两个编码器，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入。它提出了块信息挖掘，通过低分辨率视觉嵌入作为查询，通过跨注意力从高分辨率候选中检索相关的视觉线索。视频特定方法：视频理解还需要处理大量帧，这可能会突破大语言模型的上下文窗口处理能力，带来巨大计算负担。例如VideoLLaVA[15]基于LanguageBind[20]构建，将视觉表示统一到语言特征空间中，推动基础大语言模型向统一的语言-视觉大模型发展，同时避免了巨大的计算负担。（三）高效的结构高效的结构是通过优化模型结构或算法设计，以更少的资源实现相近甚至更高的性能，是多模态大语言模型轻量化的关键探索方向。主要包括三个方向：专家混合模型（MoE）、Mamba和推理加速。专家混合模型：专家混合模型通过调节模型参数的总数来增强模型容量，同时保持激活参数不变，从而不会显著影响推理速度。MoE-LLaVA[12]提出了一种基于专家混合模型的稀疏M多模态大语言模型框架，能够有效增加参数数量，而不影响计算效率。 Mamba：Mamba[21]是一种新型的高效序列建模方法，专为高效处理信息密集型数据（如语言建模）而设计。Cobra[13]将Mamba语言模型融入视觉模态，并探索多模态融合方案，开发了一种高效多模态Mamba。实验显示，其性能与先进方法相当且速度更快，能克服视觉错觉和空间关系判断难题，在预测基准中性能媲美LLaVA，但参数仅用43%。推理加速：在模型推理阶段，根据不同的任务特性，调整模型架构，加快推理速度。SPD[14]提出了通过仅使用语言模型进行的推测解码，以提高推理效率，通过将语言模型作为推测性解码模型，跳过了图像token及其相关处理组件的需求。三、展望多模态大语言模型的轻量化发展仍处于初期阶段，仍有很大的改进空间。（一）突破多模态信息处理的局限是关键。轻量化的多模态大语言模型在处理多模态信息时面临挑战，通常仅能接受单一图像，这限制了能够处理更多元模态标记的复杂模型的进一步拓展。而这类复杂模型对于对于理解长视频和分析包含图像与文本混合的长篇文档等应用场景有着极为关键的价值，可以创造出更为多功能和强大的系统。（二）输入输出模态扩展是未来发展的重点。当前主要的轻量化多模态大语言模型支持的是双输入模态-图像和文本，以及单一输出模态-文本，但现实世界中的模态远不止于此。未来，通过扩大高效多模态大语言模型的输入模态范围，以适应更多样化的输入类型，并增强其生成能力，将显著增强其多功能性，并拓宽其应用领域。（三）可在边缘部署的轻量化多模态大语言模型将推动机器人等智能设备发展。轻量化的多模态大语言模型将赋予终端设备更高效、更智能且多模态的处理能力，使智能设备得以与现实世界无缝互动。特别在机器人领域，轻量化多模态大语言模型将极大提升机器人对环境理解的准确性，增强任务执行的效率，并促进人机之间更加自然流畅的交流与协作。 [参考文献] [1]Xiangxiang Chu,Limeng Qiao,Xinyang Lin,Shuang Xu,YangYang,Yiming Hu,Fei Wei,Xinyu Zhang,Bo Zhang,XiaolinWei,et al.Mobilevlm:A fast,reproducible and strongvision language assistant for mobile devices. arXiv preprintarXiv:2312.16886,2023.[2]Yizhang Jin,Jian Li,Yexin Liu,Tianjun Gu4,Kai Wu,Zhengkai Jiang,Muyang He,Bo Zhao,Xin Tan,Zhenye Gan,Yabiao Wang,Chengjie Wang and Lizhuang Ma.EfficientMultimodal Large Language Models:A Survey.arXiv preprintarXiv:2405.10739,2024 [3]Haotian Liu,Chunyuan Li,Qingyang Wu,and Yong Jae Lee. Visual instructiontuning.InNeurIPS,2023. [4]Alec Radford,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry,Amanda Askell,Pamela Mishkin,Jack Clark,et al.Learning transferablevisualmodelsfromnaturallanguagesupervision.InInternational conference on machine learning,pages 8748–8763. PMLR,2021.[5]Ruyi Xu,Yuan Yao,Zonghao Guo,Junbo Cui,Zanlin Ni,Chunjiang Ge,Tat-Seng Chua,Zhiyuan Liu,Maosong Sun,andGao Huang. Llava-uhd:an lmm perceiving any aspect ratio andhigh-resolution images,2024.[6]Mukul Gagrani,Raghavv Goel,Wonseok Jeon,Junyoung Park,Mingu Lee,and Christopher Lott. On speculative decoding formultimodal largelanguagemodels,2024.[7]Junnan Li,Dongxu Li,Silvio Savarese,and Steven Hoi. Blip-2:Bootstrapping language-image pretraining with frozen image encoders and large language models.In Internationalconference on machine learning,pages 19730–19742.PMLR,2023. [8]Xiangxiang Chu,Limeng Qia

点击免费查看完整报告

2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告

多模态大语言模型轻量化方法研究现状和展望

多模态大语言模型概述

多模态大语言模型轻量化方法研究现状

展望

你可能感兴趣

2025多模态大模型和应用发展趋势及商业化进程分析报告

2024年绿色金融专题系列报告之一：中国碳信用市场的发展现状和未来展望

【研选】《2024年能源工作指导意见》提出重点发展可再生能源制氢，分析师认为绿氢与储运是作为国家重点方针的导向，产业上游率先受益;公司拥有国内最大的影视版权库，有望与多模态大模型合作释放版权库价值

2024年大模型轻量化技术研究报告

电子产业主题研究：又是OpenAI，多模态大模型赋能机器人

AIGC系列研究：多模态大模型引领，应用端曙光初现

2025年大模型研究系列：多模态大模型洞察大模型向多模态发展深入产业端垂直场景释放技术价值

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司

业务稳健增长，推进自主多模态大模型和AIGC系统研究

2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告

你可能感兴趣

2025多模态大模型和应用发展趋势及商业化进程分析报告

2024年绿色金融专题系列报告之一：中国碳信用市场的发展现状和未来展望

【研选】《2024年能源工作指导意见》 提出重点发展可再生能源制氢，分析师认为绿氢与储运是作为国家重点方针的导向，产业上游率先受益;公司拥有国内最大的影视版权库，有望与多模态大模型合作释放版权库价值

2024年大模型轻量化技术研究报告

电子产业主题研究：又是OpenAI，多模态大模型赋能机器人

AIGC系列研究：多模态大模型引领，应用端曙光初现

2025年大模型研究系列：多模态大模型洞察 大模型向多模态发展 深入产业端垂直场景释放技术价值

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游 元梦之星 IP授权

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司

业务稳健增长，推进自主多模态大模型和AIGC系统研究

【研选】《2024年能源工作指导意见》提出重点发展可再生能源制氢，分析师认为绿氢与储运是作为国家重点方针的导向，产业上游率先受益;公司拥有国内最大的影视版权库，有望与多模态大模型合作释放版权库价值

2025年大模型研究系列：多模态大模型洞察大模型向多模态发展深入产业端垂直场景释放技术价值

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权