大语言模型在计算机视觉领域的应用 演讲人:冯佳时 目录 01 背景介绍 02 基于LLM的图像理解 03 基于LLM的视频生成 04 总结展望 背0景介绍 物体识别 猫 物体检测 物体分割 草地,猫,树,天空 图像生成 大脑乘着火箭飞向月球 视频生成 大象戴着生日帽海底漫步 3D生成 黏土做的火车引擎 图像和视频来自GoogleImagen 输入文本 大语言模型 (例如ChatGPT) 生成翻译问答情感分析 是否可基于LLM搭一个生成理解统一的视觉基础模型? “在草地上奔跑的小猫” 图像理解 基础模型 图像生成 “在草地上奔跑的小猫” 基0于2LLM的图像理解 “左边是一只羊驼,右边是一只美洲驼” LLM图像理解与文字描述生成 映射层 “图片中的动物是什么?” 图像编码器 映射层:将图像的特征对齐到大语言模型的特征 图像编码器:抽 取图像的特征 缺少细节理解 •只是对图像内容全局的描 述。 •缺少图像内容像素级别的理解,例如分割、检测等。 •限制了模型与实际物理环 境交互的能力。 幻觉 •语言模型缺少对图像内容 的参考,容易虚构不存在 的内容。 •从语言模型的训练语料中,构造出常见的内容,例如 “红色的”。 “左边是一只羊驼, 右边是一只红色的美洲驼” 图片来源:Wangetal.GRUtopia:DreamGeneralRobotsinaCityatScale 拓展LLM的输🎧:文字描述-->文字+相关物体图像中的定位 •提供更明确的答案 •和真实世界建立对应 LLM 相关物体的分割结果 图片来源:LISA:ReasoningSegmentationviaLargeLanguageModel 现有模型的局限 •需要借助一个大规模的分 割模型(例如meta的 SAM),严重拖慢响应速度。 •只能定位和分割一个物体,无法应用于需要输出多个物体的场景。 高效性 •使用SAM增加了模型的计 算成本。 •将分割模型SAM替换成轻 量的MLP,提高响应速度。 多物体 •之前的工作只能检测分割 出单个物体。 •引入多个token,模型能够完成多个物体的分割。 图像编码器 大语言模型 2轻量级的物体 分割 1代表多个物体的分割码本 •目标物体可能有不同的尺寸大小(如右图所示) •利用OpenAI的CLIP模型作为图像编码器,并且提取多个尺度的图像特征,方便识别分割不同尺寸的物体。 只定位分割�一个尺寸的物体 OpenAICLIP:LearningTransferableVisualModelsFromNaturalLanguageSupervision •分割词表包含多个token组,每一个对应图像的一个尺度的CLIP特征。 •每个token组包含多个tokens,一起捕捉目标物体的语意特征。 •将多个token组的解码结果融合,可以得到多个物体的分割结果。 第一组 分割tokens 分割tokens 第二组 •高效的分割解码器 •包含多个注意力模块,每个对应一个特征尺度 •前一个生成的分割结果,会指导后面分割的生成 模型预测的分割tokens 多尺度的图像特征 训练的损失函数: •帮助模型分辨和学习分割不同的目标物体 •将分割的预测记为M1,…,Mk 分割的训练损失函数: 整体模型的训练损失函数: 物体分割的损失函数 输�文本的损失函数 不带L_ref的PixelLMvs.完整PIxelLM 已有数据集的局限 •细节不够丰富 •缺少带有文字问答的标注 一个新的数据集–MUSE •910K高质量的实例分割标注(选自LVIS*) •平均超过100tokens的实例文字描述 •246k问答对,每个回答平均带3.7个物体 •超过1000个物体类别 通过LLM构造训练数据 PROMPT回答 *LVIS是一个涵盖1000多个日常物体的实例分割数据集。 •和之前的模型LISA相比,计算量减少一半。 •分割精度显著提升(9.6 ->37.7) •PixelLM是一个新的LMM模型,可以进行像素级别的图像理解和推理。 •为了促进后续的研究工作,构建了MUSE数据集。 •未来的扩展:具身智能对物理世界的理解上。 基0于3LLM的图像视频生成 OpenAIsora 文生视频模型 “一个男孩儿骑 着自行车…” 图像扩散模型 扩展到时间维度 视频扩散模型 Yuetal.Make-A-Video:Text-to-VideoGenerationwithoutText-VideoData.2023 一致性 •长时间保持一致性对目前的视频生成模型是很大的挑战。 •人物一致 •环境一致 创作界面与可控性 •长视频的内容需要复杂的文字描述。视频创作过程对用户不友好。 •文字描述很难对视频内容精细控制。 视频的表现力 •在动作、表情的丰 富度上有局限。 角色定义 剧本,分镜创作 角色一致的关键片段 完整视频 LLM/图像生成模型 LLM StoryDiffusion •更友好的交互方式:指定角色和剧本,提高对视频内容的控制。 •提高一致性:StoryDiffusion模型中的一致性模块 •提高表现力:StoryDiffusion模型中的运动生成模块 角色定义 剧本生成 Story Diffusion YanLeCun YanLeCun 登月探险 LLM •对剧本中的多段文字,同时生成对应的多张图像。 •在多张图像的生成过程中,引入相似的图像特征,保证角色的一致性。 多个文字prompt,以及生成的对应图像。图像生成模型中引入一致性注意力机制。 •在关键画面之间,生成过渡运动。 •在特征空间中进行画面的差值,生成平滑运动。 •运动表现力强,一致性好。 内容一致性比较 IP-Adapter StoryDiffusion 图文相似度 0.61 0.66 角色相似度 0.88 0.89 视频生成质量比较 SEINE SparseCtrl StoryDiffusion LPIPS(↓) 0.43 0.49 0.37 CLIPSIM(↑) 0.92 0.90 0.96 总0结4展望 总结展望 LLM在图像理解与视频生成上的初步探索 基于LLM的统一的视觉理解生成模型 交互式的多模态的LLM模型–能与物理世界交互的AI THANKS 智能未来,探索AI无限可能 IntelligentFuture,Exploringthe BoundlessPossibilitiesofAI