热门搜索：

书生万象大模型的技术演进与应用探索

信息技术2024-10-28王文海全球人工智能开发与应用大会M***

AI智能总结

书生·万象多模态大模型的技术演进与应用探索

多模态大模型研究背景

背景：随着深度学习理论突破、大规模数据集的积累及模型参数规模的增大，大语言模型和多模态大模型逐渐成为研究热点。
关键技术：
- 判别式预训练：如AlexNet、ResNet。
- 对比式预训练：如CLIP、ALIGN。
- 大规模数据集：如ImageNet、Switchboard。

大规模视觉语言模型对齐

目标：通过扩大视觉基础模型并进行对齐，实现通用视觉语言任务。
方法：
- 设计1：扩大视觉模型至6B参数，通过搜索模型深度、宽度和MLP比率等参数，找到最优模型。
- 设计2：采用渐进式图像-文本对齐策略，分为三阶段：海量带噪声的图文数据对比学习预训练、过滤后高质量图文数据对比学习和生成式联合训练、高质量Caption/VQA/多轮对话数据SFT训练。
效果：在多种通用视觉语言任务上取得了最佳性能，包括图像/视频分类、语义分割、图像/视频-文本检索、零样本图像分类等。

强多模态模型构建

关键技术：
- 视觉编码器：如InternViT-6B，实现与ViT-22B相当的性能。
- 多语言适配：通过Language Adapter实现多语言内容生成，支持多种语言的混合输入，无需额外训练即可兼容社区模型。
应用场景：
- 多模态对话：增强图文多模态对话能力，支持多轮对话、文档理解、OCR等任务。
- 图像处理：提高图像分类、语义分割、图像检索等视觉任务的性能。
- 多语言生成：实现多语言内容生成，支持多种语言的混合输入。

不止于语言输出：通专融合

应用场景：
- 开放检测与分割：适用于不同领域的开放检测与分割任务。
- 图像生成：生成高质量图像，支持文生图、图像编辑等功能。
- 姿态估计：实现不同领域的姿态估计任务。

实验结果与对比

性能对比：与头部商用模型如GPT-4V、Claude-3等相比，InternVL系列模型在多个任务上表现优异，特别是在多模态对话、图像处理、多语言生成等方面。
成本效益：通过渐进式训练策略，仅需原有算力的1/5即可达到同等效果，显著降低了训练成本。
开源模型：InternVL系列提供了多个版本的开源模型权重，支持在3090 GPU上运行。

总结

技术进展：通过扩大视觉基础模型、采用渐进式训练策略，InternVL系列模型在多模态任务上取得了显著进步，展现了强大的通用性和适应性。
应用前景：随着技术的不断优化，多模态大模型将在更多领域发挥重要作用，推动AI生产力革命。

书生·万象多模态大模型的技术演进与应用探索演讲人：王文海 https://github.com/OpenGVLab/InternVL 目录 1多模态大模型研究背景 2大规模视觉语言模型对齐 3强多模态模型构建 4不止于语言输出：通专融合历史:“特定任务+大数据”取得巨大成功 AlphaGo4:1李世乭围棋比赛 1000类，100万数据 ImageNet竞赛深度置信网络深度学习理论突破 AlphaFold 一个模型解决一个问题未来:“通用性”一个模型多种任务多种模态蛋白质结构预测准确率新高 20062012 2016 2021 研究背景：大语言模型&多模态大模型首次在多人复杂对局中超越人类德州扑克大规模语音识别 201120142019 人脸识别 LFW识别率99%,超过人类 Switchboard错误降低9% 以视觉为核心的多模态大模型有望在众多领域带来AI生产力革命 https://github.com/OpenGVLab/InternVL enc-only dec-only enc-dec 研究背景：大语言模型&多模态大模型 Ǫwen DeepSeek InternLM Baichuan ChatGLM InternVL MiniCPM CogVLM 1.ǪFormer[1] 2.MLP[2] 3.MoE[3] [1]LiJ,LiD,SavareseS,etal.Blip-2:Bootstrappinglanguage-imagepre-trainingwithfrozenimageencodersandlargelanguagemodels[C]//Internationalconferenceonmachinelearning.PMLR,2023:19730-19742. [2]LiuH,LiC,WuǪ,etal.Visualinstructiontuning[J].Advancesinneuralinformationprocessingsystems,2024,36. [3]WangW,LvǪ,YuW,etal.Cogvlm:Visualexpertforpretrainedlanguagemodels[J].arXiv 目录 1多模态大模型研究背景 2大规模视觉语言模型对齐 3强多模态模型构建 4不止于语言输出：通专融合传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展，亟需新的范式来推动其发展 20122021 vision encoder classescontrastive vision encoder text encoder image 判别式预训练 AlexNet、ResNet imagetext 对比式预训练 CLIP、ALIGN •与LLM参数量差距过大 •与LLM表征不一致 •训练数据单一、数据量小传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展，亟需新的范式来推动其发展 201220212023 大模型时代 vision encoder classes contrastive generative vision encoder text encoder featurealigning large scalingup visionencoder to6B#params language model <10B language model >100B image 判别式预训练 AlexNet、ResNet imagetext 对比式预训练 CLIP、ALIGN imagetext 渐进式对齐训练书生图文大模型-InternVL prompt •与LLM参数量差距过大 •与LLM表征不一致 •训练数据单一、数据量小 •60亿参数视觉模型+1000亿参数语言模型 •渐进式对齐视觉基础模型和语言模型表征 •大规模、多来源图文多模态训练数据核心思想：扩大视觉基础模型并为通用视觉语言任务进行对齐设计1：扩大视觉模型至6B参数步骤1：固定60亿参数，网格搜索模型宽度、深度、MLPRatio和AttentionHead维度步骤2：使用CLIP作为代理任务，找到在速度、准确性和稳定性之间取得平衡的模型设计1：扩大视觉模型至6B参数基于原始ViT结构，通过搜索模型深度[32,48,64,80]，注意力头维度[64,128]，以及 MLP比率[4,8]，将视觉模型扩大至6B参数，找到速度、精度、稳定性平衡的模型设计2：渐进式的图像-文本对齐策略阶段1：利用海量带噪声的图文数据进行对比学习预训练（~5B图像）设计2：渐进式的图像-文本对齐策略阶段1：利用海量带噪声的图文数据进行对比学习预训练（~5B图像）阶段2：利用过滤后的高质量图文数据进行对比学习和生成式联合训练（~1B图像）设计2：渐进式的图像-文本对齐策略阶段1：利用海量带噪声的图文数据进行对比学习预训练（~5B图像）阶段2：利用过滤后的高质量图文数据进行对比学习和生成式联合训练（~1B图像）筛选指标：CLIP相似度,水印概率,unsafe概率,美学指标,图片分辨率,caption长度等核心思想：扩大视觉基础模型并为通用视觉语言任务进行对齐设计2：渐进式的图像-文本对齐策略阶段1：利用海量带噪声的图文数据进行对比学习预训练（~5B图像）阶段2：利用过滤后的高质量图文数据进行对比学习和生成式联合训练（~1B图像）阶段3：利用高质量Caption/VQA/多轮对话数据进行SFT训练（~4M图像）多模态对话数据收集包含图像描述、物体检测、OCR、科学、图表、数学、常识、文档、多轮对话、文本对话... 从适配视觉感知任务，到适配通用视觉语言任务，极大地扩宽了模型的适用范围 ImageClassification SemanticSegmentation ImageClassification SemanticSegmentation ImageClassification LikeViT-22B ImageClassification ObjectDetection Image-TextRetrieval ObjectDetection Image-TextRetrieval InstanceSegmentation Text-ImageRetrieval InstanceSegmentation Zero-ShotImageCLS. SemanticSegmentation ImageCaptioning SemanticSegmentation ImageCaptioning … VisualQuestionAnswering VisualPerceptionTasks … … VisualQuestionAnswering MultimodalDialogue Multi-RoundDialogue LikeCLIP LikeGPT-4V … GenericVision-LanguageTasks 在多种通用视觉语言任务上的取得了最好的性能，包括： 1）视觉任务：图像/视频分类，语义分割； 2）视觉-语言任务：图像/视频-文本检索，零样本图像分类； 3）通用视觉问答：图像描述，视觉问答，多轮对话 InternViT- 6B Image �∈𝑅𝐻×𝑊×3 �∈𝑅14×14×� �� 对于视觉任务,InternVL的视觉编码器，即InternViT-6B，可以直接用作视觉主干网络 Image-LevelTasks 仅用不到不到三分之一参数量，实现了与 Pixel-LevelTasks ViT-22B相当的性能 InternVL：大规模视觉语言模型对齐对于视觉语言任务,有两种变体： InternVL-CandInternVL-G -C-G 多语言的零样本图文检索评测 hthttptps:/s://g/githuithub.b.cocom/Opm/OpenenGVGVLaLab/b/InInteternVrnVLL 检索性能优于CLIP、OpenCLIP、CoCa等模型 InternVL：大规模视觉语言模型对齐零样本图像分类能力评测零样本视频分类能力评测强零样本图像、视频分类能力 TextEncoder/s InternVLTextEncoder Language Adapter NoisyLatent DenoisingModel (UNet,Transformer) (1)OverallArchitecture Output•即插即用的为现有扩散模型增加多语言能力 •只需要英文数据训练，即可泛化到其他语言 •支持多种语言的混合输入，甚至是emoji •无需额外训练，即可兼容社区模型，如ControlNet，LCM，LoRA等 https://github.com/mulanai/MuLan 只需要英文数据，即可支持超多语言 https://github.com/mulanai/MuLan 繁体中文土耳其语乌克兰语希腊语匈牙利语荷兰语 Emoji 波斯语英文简体中文日语阿拉伯语阿塞拜疆语德语韩语中英混合印尼语法语斯洛伐克语加泰罗尼亚语捷克语阿尔巴尼亚语越南语俄语即插即用，无需对DiffusionModel做额外训练 DreamshaperRealisticVisionCartoonmix3DAnimationLoRA(Lego) ControlNetLCMSDXLTurboSDXLLightning MVDream AnimateDiff https://github.com/mulanai/MuLan 目录 1多模态大模型研究背景 2大规模视觉语言模型对齐 3强多模态模型构建 4不止于语言输出：通专融合增强图文多模态对话能力 3个关键点主体（强基础模型）：更大的视觉模型可以包含更广的视觉domain，抽取更强的视觉表征，更强的语言模型有更强的语言能力、世界知识和推理能力动态分辨率（火箭头）：模型需要根据任务调整不同的分辨率。对于一些图像细节的理解任务，如：文档理解，高分辨率非常重要。但是对于一些常见的问答任务又不需要大分辨率。燃料（高质量数据集）：多语言、多来源、精细标注和头部商用模型对比 Benchmark InternVL1.5 Grok-1.5V GPT-4V Claude-3Opus GeminiPro1.5 MMMUMulti-discipline 45.2% 53.6% 56.8% 59.4% 58.5% MathVistaMath 53.5% 52.8% 49.9% 50.5% 52.1% AI2DDiagrams 80.7% 88.3% 78.2% 88.1% 80.3% TextVQATextreading 80.6% 78.1% 78.0% - 73.5% ChartQACharts 83.8% 76.1% 78.5% 80.8% 81.3% DocVQADocuments 90.9% 85.6% 88.4% 89.3% 86.5% RealWorldQAReal-worldunderstanding 66.0% 68.7% 61.4% 49.8% 67.5% 分辨率对性能的影响渐进式对齐训练，通过模型"从小到大"、数据"从粗到精"的渐进式的训练策略，以较低的成本完成了大模型的训练，在有限资源下展现出卓越的性能表现海量带噪数据筛选数据扩大模型千亿参数模型在MMMU，MMBench等评测上比肩GPT-4o 和GeminiPro1.5 损失函数型据大模型+小数据高效对齐百亿参数模型高质量精选数据小模 + 大数高效加速ScalingLaw曲线，仅需原有的1/5的算力即可取得同等的效果算力预训练仅需20%算力

点击免费查看完整报告