您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国科学技术大学]:计算机行业:多模态大语言模型领域进展分享 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业:多模态大语言模型领域进展分享

信息技术2024-12-24殷述康中国科学技术大学等***
AI智能总结
查看更多
计算机行业:多模态大语言模型领域进展分享

多模态大语言模型领域进展分享 殷述康/博士在读 DataFunSummit#2024 背景介绍 多模态大语言模型介绍多模态大语言模型演进团队相关工作介绍 未来展望 01 背景介绍 •大语言模型(LLM)是近几年来最火热的方向之一 •可以解决各种传统NLP任务,如文本分类、命名实体识别等 •可以做更高级的任务 •作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力) •做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,CoT进一步增强) •然而LLM存在固有的限制 •无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站 截图给出源代码、理解一张表情包的含义 •无法获取更多的多模态的世界知识,如名画、名人等 •多模态大语言模型(MLLM)的兴起 •就在近两年,工业和学术界都在积极转向多模态模型,比如OpenAI的 GPT-4V、GPT-4o谷歌的Gemini-Pro 在短短的两年间,已有上百个模型涌现,包括大企业的闭源模型和学术社区的开源模型探索。 背景-MLLM能做些什么 •能做传统视觉/多模态任务 Caption任务计数任务定位任务 CitedfromarXiv:2309.17421 背景-MLLM能做些什么 •能做更复杂的复合型任务,比如基于视觉的感知和理解任务; 图表推理根据图表写代码 02 多模态大语言模型介绍 介绍-MLLM的基本方面 •由于大企业的模型是闭源的,学术界正积极研究探索开源的模型。 模型架构 数据与训练方法 模型评估 •常用的架构一般包含三个部分: •编码器 •连接器 •大语言模型 介绍-MLLM的架构 •视觉编码器 •常用的是基于CLIP预训练的 ViT •对于常见的224x224分辨率图片,patch大小为14,最后共得到14x14=256个tokens CitedfromarXiv:2211.01335 •连接器 •MLP结构 •不改变视觉token的数量,使用线性层或者多层感知机做投影。 •Q-Former •压缩图片token至固定的数量,提高运算效率 •Q指query,使用一组可学习的query向量从视觉token中抽取更紧凑的表征信息 CitedfromarXiv:2304.08485 CitedfromarXiv:2305.06500 介绍-MLLM的数据和训练方法 •第一阶段:模态对齐训练 •将视觉的语义空间与文本空间对齐 •一种做法是冻结LLM,训练视觉编 码器和连接器 •通常使用大量的图文配对数据训练,如caption数据。输入图片,预测图片的文本描述 介绍-MLLM的数据和训练方法 •第二阶段:指令微调训练 •提升模型的指令遵循能力,学习泛化到各种任务 •通常使用各种任务的数据,如VQA数据、检测数据等,并改造为指令格式(多轮对话形式) •输入图片和指令,预测回答 介绍-MLLM的评测 •常规任务Benchmark •一般聚焦某个具体的特定任务,关注特定指标 •VQA任务:要求模型基于图片内容进行回答,常关注浅层元素如物体类别、 属性,有时涉及浅层推理,回答一般比较简单。 •一般使用准确率作为评估指标 介绍-MLLM的评测 •专门Benchmark •除了基本的感知能力,还关注推理等能力,任务一般更为复杂、困难 03 多模态大语言模型演进 •更高的分辨率能看见更多的信息,更准确地回答问题 演进-更高的分辨率 •如何提高视觉编码器的分辨率? •思路一:使用更大的分辨率进行微调(Qwen-VL:224->448,arXiv:2308.12966) •如何提高视觉编码器的分辨率? •思路二:将大分辨率的图片切成多块,每块依然是原来的分辨率 •一般保留一张低分辨率的完整图片作为全局特征 CitedfromarXiv:2311.07575 CitedfromarXiv:2406.12742 演进-更丰富的输入形式 •从只支持单图输入到支持多图、视频输入 演进-更丰富的输入形式 •从只支持单图输入到支持多图、视频输入 •输出更多的模态?如图片、音频、视频… •输出图文交错的内容,给文字配上图,使内容更生动 CitedfromarXiv:2401.16420 演进-更丰富的I/O模态支持 •输出更多的模态?如图片、音频、视频… •基于基础的MLLM框架,后接各种生成模型如扩散模型,生成除文本外其他模态的信息。 •输出更多的模态? •统一的多模态模型—扩充语言模型的词表,将连续信号离散化 •加入Tokenizer,训练时将图片转化为离散token进行预测 •推理时统一预测多模态token,图片token经过De-tokenizer转化为图片输出 •天然支持图文交错的训练数据 CitedfromarXiv:2405.09818 04 团队相关工作介绍 •背景:在开源模型探索的早期,幻觉问题还比较严重 •幻觉:大模型在描述对象属性、对象数量等方面不准确的现象。样例如下图所示。 •减少模型输出的幻觉,提升准确性和用户体验:Woodpecker Yin,Shukang,etal."Woodpecker:Hallucinationcorrectionformultimodallargelanguagemodels."arXiv:2310.16045 •能否集成专家模型缓解幻觉? •利用外部反馈获取更准确的认知,从而增强模型,减少幻觉 •基础的感知能力:object类别与数量、object的属性信息(颜色、位置等) •实现:使用传统视觉模型提升感知能力 •视觉基础模型具有强大的感知能力。因此,我们利用预训练的视觉基础模型从图片中提取可靠的视觉信息。这些视觉信息为幻觉修正提供了参考。 •使用目标检测模型从图片中提取目标的数量信息,使用VQA(视觉问答)模型提取目标的属性信息。 •实现:利用视觉信息辅助大语言模型做幻觉修正 •大语言模型具有强大的推理能力与丰富的语言学知识。因此,大语言模型能够基于已知信息进行推理,对幻觉做修正,同时保持语义连贯性、完整性 •使用设计好的Prompt(提示)模板将原描述、视觉知识组织起来,送入大语言模型中。大语言模型基于视觉知识、文本语义进行推理,将描述中带有幻觉的部分进行修正。 •实现:利用视觉信息辅助大语言模型做幻觉修正 •大语言模型具有强大的推理能力与丰富的语言学知识。因此,大语言模型能够基于已知信息进行推理,对幻觉做修正,同时保持语义连贯性、完整性 •使用设计好的Prompt(提示)模板将原描述、视觉知识组织起来,送入大语言模型中。大语言模型基于视觉知识、文本语义进行推理,将描述中带有幻觉的部分进行修正。 •实验结果:利用纠正框架可以显著减少幻觉 •受益于基础视觉模型的知识提取,几个典型的多模态大模型在感知能力上均有提升 •为了构建更强大的系统,使用外置专家模块作为信息补充仍然是有效的手段 上表为开源多模态大模型在MME的存在、计数、位置和颜色子集上的测评结果,w/Ours表示是否加入我们提出的修正框架 平均时长较短 多模态信息不够丰富 Fu,Chaoyou,etal."Video-MME:TheFirst-EverComprehensiveEvaluationBenchmarkofMulti-modalLLMsinVideoAnalysis."arXiv:2405.21075 •背景:现存测试集无法充分评估多模态大模型在理解长视频全局性内容的能力 •【长视频理解】绝大多数现存评测基准平均时长不超过1分钟 •【通用模态理解】现存评测所提供的模态信息(如文本、音频)均不丰富 •【全局信息利用】现存评测只利用局部信息即可得到答案,难以评估上下文理解、整合能力 •人工采集三种长度的视频各300条,每条人工标注3个问答对,提供字幕以及音频 •问题设计均考虑视觉相关性,并且具有足够高的有效时长(38%) •需要更充分地利用前后视频信息,对视频建立更深入的全局理解 选项在视频中均出现 模型做出正确选择需对问题和视频有全局理解 视频中,那个戴着绷带、拿着信封的男人是如何受伤的? A.他在放烟花时,一只手被烟花击中了。 B.他在试图扑灭一栋着火的房子时,手臂受伤了。 C.他在追赶Wayne的摩托车时,从地上摔下来,手受伤了。 D.他在侮辱Wayne的父亲时,被Wayne用食物引诱的狗拖下了一只胳膊。 被狗拖下 [选项D] 戴着绷带的男人拿着一个信封 追赶Wayne的摩托车 [选项C] 一栋着火的房子 [选项B] 被烟花击中 [选项A] •视频类别、视频时长、问题类型的多样性 视频时长覆盖广 中、长视频 分布均匀 视频涵盖各个领域 问题类别多 短、中视频注重感知 长视频注重推理 字幕对多模态大模型的视频理解具有正向作用 开源模型最优结果<闭源模型最差结果开源模型仍具有较大提升空间 •对现存的开源与商业大模型进行了综合评测 模型在12种任务类型上的表现雷达图 物体识别 动作识别属性感知 光学字符识别 空间感知 上表中为多模态大模型在Video-MME中短、中、长三种视频上的表现其中w/subs代表使用字幕信息,w/osubs代表不使用字幕信息 •图片大模型:QwenVL系列、InternVL-Chat-V1.5 计数问题 时间推理 空间推理 时间感知 信息概要 物体推理 •视频大模型:Video-LLaVA、Video-Chat2等,GPT4V/4o以及Gemini1.5Pro 动作推理 实体感知问题仍是现存多模态大模型的共同瓶颈 •背景:GPT-4o的发布展现了多模态实时对话交互体验的新可能 •可以随时打断模型的输出,而不需要等待输出完再进行下一轮交互/提问 •实时响应速度,模型及时回复,而不需要等待几秒钟的延迟 •模型能够捕捉人类情绪(如说话人是失落/兴奋的),也能够以不同的情绪(比如激昂、戏剧化 的)、风格(模仿机器人、歌唱式的)回答 相关工作-多模态交互体验提升 •背景:探索提升对话交互体验的开源方案:VITA •不需要专门的唤醒机制来激活语音助手,如唤醒词“Hi!Siri” •支持打断语音输出,插入新用户请求,而不需要等候输出完成再输入新的用户请求 •屏蔽环境噪声,提升模型对话感知的准确性 Fu,Chaoyou,etal."VITA:TowardsOpen-SourceInteractiveOmniMultimodalLLM."arXiv2408.05211 •实现:两大核心设计 •屏蔽背景声中的噪音:LLM词表中加入特殊的状态token,让模型判别输入的音频是有效 query还是背景噪音,实时监听的同时又不会受噪音干扰。 •打断输出后快速响应新query:双工机制。同时运行两个模型—生成和监听模型,分别用于输出回答和音频监听。当生成模型被新音频query打断时切换另一个模型响应新请求,两个模型身份互换。 05 未来展望 未来展望 •未来需要什么? •支持更长的context/有效的压缩视觉token •输入的视觉token越来越多,多图、高分辨率、长视频理解... •长上下文理解能力,如电影级别的视频理解 •多模态Agent •如智能手机助手,自动完成某项操作,如将手机亮度调整至夜间模式 •轻量化的部署 •统一多模态生成和理解 •统一的训练范式,统一的推理流程 •直接生成任意图文交错的内容 THANKS DataFunSummit#2024