您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球人工智能开发与应用大会]:书生万象大模型的技术演进与应用探索 - 发现报告
当前位置:首页/行业研究/报告详情/

书生万象大模型的技术演进与应用探索

书生万象大模型的技术演进与应用探索

书生·万象多模态大模型的技术演进与应用探索 演讲人:王文海 https://github.com/OpenGVLab/InternVL 目录 1多模态大模型研究背景 2大规模视觉语言模型对齐 3强多模态模型构建 4不止于语言输出:通专融合 历史:“特定任务+大数据”取得巨大成功 AlphaGo4:1李世乭 围棋比赛 1000类,100万数据 ImageNet竞赛 深度置信网络 深度学习理论突破 AlphaFold 一个模型解决一个问题 未来:“通用性”一个模型多种任务多种模态 蛋白质结构预测准确率新高 20062012 2016 2021 研究背景:大语言模型&多模态大模型 首次在多人复杂对局中超越人类 德州扑克 大规模语音识别 201120142019 人脸识别 LFW识别率99%,超过人类 Switchboard错误降低9% 以视觉为核心的多模态大模型有望在众多领域带来AI生产力革命 https://github.com/OpenGVLab/InternVL enc-only dec-only enc-dec 研究背景:大语言模型&多模态大模型 Ǫwen DeepSeek InternLM Baichuan ChatGLM InternVL MiniCPM CogVLM 1.ǪFormer[1] 2.MLP[2] 3.MoE[3] [1]LiJ,LiD,SavareseS,etal.Blip-2:Bootstrappinglanguage-imagepre-trainingwithfrozenimageencodersandlargelanguagemodels[C]//Internationalconferenceonmachinelearning.PMLR,2023:19730-19742. [2]LiuH,LiC,WuǪ,etal.Visualinstructiontuning[J].Advancesinneuralinformationprocessingsystems,2024,36. [3]WangW,LvǪ,YuW,etal.Cogvlm:Visualexpertforpretrainedlanguagemodels[J].arXiv 目录 1多模态大模型研究背景 2大规模视觉语言模型对齐 3强多模态模型构建 4不止于语言输出:通专融合 传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展 20122021 vision encoder classescontrastive vision encoder text encoder image 判别式预训练 AlexNet、ResNet imagetext 对比式预训练 CLIP、ALIGN •与LLM参数量差距过大 •与LLM表征不一致 •训练数据单一、数据量小 传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展 201220212023 大模型时代 vision encoder classes contrastive generative vision encoder text encoder featurealigning large scalingup visionencoder to6B#params language model <10B language model >100B image 判别式预训练 AlexNet、ResNet imagetext 对比式预训练 CLIP、ALIGN imagetext 渐进式对齐训练 书生图文大模型-InternVL prompt •与LLM参数量差距过大 •与LLM表征不一致 •训练数据单一、数据量小 •60亿参数视觉模型+1000亿参数语言模型 •渐进式对齐视觉基础模型和语言模型表征 •大规模、多来源图文多模态训练数据 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐 设计1:扩大视觉模型至6B参数 步骤1:固定60亿参数,网格搜索模型宽度、深度 、MLPRatio和AttentionHead维度 步骤2:使用CLIP作为代理任务,找到在速度、准确性和稳定性之间取得平衡的模型 设计1:扩大视觉模型至6B参数 基于原始ViT结构,通过搜索模型深度[32,48,64,80],注意力头维度[64,128],以及 MLP比率[4,8],将视觉模型扩大至6B参数,找到速度、精度、稳定性平衡的模型 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像) 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像) 阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像) 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像) 阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像) 筛选指标:CLIP相似度,水印概率,unsafe概率,美学指标,图片分辨率,caption长度等 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐 设计2:渐进式的图像-文本对齐策略 阶段1:利用海量带噪声的图文数据进行对比学习预训练(~5B图像) 阶段2:利用过滤后的高质量图文数据进行对比学习和生成式联合训练(~1B图像) 阶段3:利用高质量Caption/VQA/多轮对话数据进行SFT训练(~4M图像) 多模态对话数据收集 包含图像描述、物体检测、OCR、科学、图表、数学、常识、文档、多轮对话、文本对话... 从适配视觉感知任务,到适配通用视觉语言任务,极大地扩宽了模型的适用范围 ImageClassification SemanticSegmentation ImageClassification SemanticSegmentation ImageClassification LikeViT-22B ImageClassification ObjectDetection Image-TextRetrieval ObjectDetection Image-TextRetrieval InstanceSegmentation Text-ImageRetrieval InstanceSegmentation Zero-ShotImageCLS. SemanticSegmentation ImageCaptioning SemanticSegmentation ImageCaptioning … VisualQuestionAnswering VisualPerceptionTasks … … VisualQuestionAnswering MultimodalDialogue Multi-RoundDialogue LikeCLIP LikeGPT-4V … GenericVision-LanguageTasks 在多种通用视觉语言任务上的取得了最好的性能,包括: 1)视觉任务:图像/视频分类,语义分割; 2)视觉-语言任务:图像/视频-文本检索,零样本图像分类; 3)通用视觉问答:图像描述,视觉问答,多轮对话 InternViT- 6B Image �∈𝑅𝐻×𝑊×3 �∈𝑅14×14×� �� 对于视觉任务,InternVL的视觉编码器,即InternViT-6B,可以直接用作视觉主干网络 Image-LevelTasks 仅用不到不到三分之一参数量,实现了与 Pixel-LevelTasks ViT-22B相当的性能 InternVL:大规模视觉语言模型对齐 对于视觉语言任务,有两种变体: InternVL-CandInternVL-G -C-G 多语言的零样本图文检索评测 hthttptps:/s://g/githuithub.b.cocom/Opm/OpenenGVGVLaLab/b/InInteternVrnVLL 检索性能优于CLIP、OpenCLIP、CoCa等模型 InternVL:大规模视觉语言模型对齐 零样本图像分类能力评测 零样本视频分类能力评测 强零样本图像、视频分类能力 TextEncoder/s InternVLTextEncoder Language Adapter NoisyLatent DenoisingModel (UNet,Transformer) (1)OverallArchitecture Output•即插即用的为现有扩散模型增加多语言能力 •只需要英文数据训练,即可泛化到其他语言 •支持多种语言的混合输入,甚至是emoji •无需额外训练,即可兼容社区模型,如ControlNet,LCM,LoRA等 https://github.com/mulanai/MuLan 只需要英文数据,即可支持超多语言 https://github.com/mulanai/MuLan 繁体中文 土耳其语 乌克兰语 希腊语 匈牙利语 荷兰语 Emoji 波斯语 英文 简体中文 日语 阿拉伯语 阿塞拜疆语 德语 韩语 中英混合 印尼语 法语 斯洛伐克语 加泰罗尼亚语 捷克语 阿尔巴尼亚语 越南语 俄语 即插即用,无需对DiffusionModel做额外训练 DreamshaperRealisticVisionCartoonmix3DAnimationLoRA(Lego) ControlNetLCMSDXLTurboSDXLLightning MVDream AnimateDiff https://github.com/mulanai/MuLan 目录 1多模态大模型研究背景 2大规模视觉语言模型对齐 3强多模态模型构建 4不止于语言输出:通专融合 增强图文多模态对话能力 3个关键点 主体(强基础模型):更大的视觉模型可以包含更广的视觉domain,抽取更强的视觉表征,更强的语言模型有更强的语言能力、世界知识和推理能力 动态分辨率(火箭头):模型需要根据任务调整不同的分辨率。对于一些图像细节的理解任务,如:文档理解,高分辨率非常重要。但是对于一些常见的问答任务又不需要大分辨率。 燃料(高质量数据集):多语言、多来源、精细标注 和头部商用模型对比 Benchmark InternVL1.5 Grok-1.5V GPT-4V Claude-3Opus GeminiPro1.5 MMMUMulti-discipline 45.2% 53.6% 56.8% 59.4% 58.5% MathVistaMath 53.5% 52.8% 49.9% 50.5% 52.1% AI2DDiagrams 80.7% 88.3% 78.2% 88.1% 80.3% TextVQATextreading 80.6% 78.1% 78.0% - 73.5% ChartQACharts 83.8% 76.1% 78.5% 80.8% 81.3% DocVQADocuments 90.9% 85.6% 88.4% 89.3% 86.5% RealWorldQAReal-worldunderstanding 66.0% 68.7% 61.4% 49.8% 67.5% 分辨率对性能的影响 渐进式对齐训练,通过模型"从小到大"、数据"从粗到精"的渐进式的训练策略,以较低的成本完 成了大模型的训练,在有限资源下展现出卓越的性能表现 海量带噪数据 筛选数据 扩大模型 千亿参数模型 在MMMU,MMBench等评测上比肩GPT-4o 和GeminiPro1.5 损失函数型 据 大模型+小数据 高效对齐 百亿参数模型高质量精选数据 小模 + 大数 高效 加速ScalingLaw曲线,仅需原有的1/5的算力 即可取得同等的效果 算力 预训练仅需20%算力