演讲人:冯佳时 目 录 02基于LLM的图像理解 01 03基于LLM的视频生成 04总结展望 背景介绍01 计算机视觉的基本问题 物体识别 物体分割 草地,猫,树,天空 计算机视觉的基本问题 图像生成 视频生成 3D生成 大象戴着生日帽海底漫步 LLM统一模型 视觉基础模型–生成与理解的统一 是否可基于LLM搭一个生成理解统一的视觉基础模型? 基于LLM的图像理解02 LLM在图像理解中的应用 一些问题 缺少细节理解 幻觉 •只是对图像内容全局的描述。•缺少图像内容像素级别的理解,例如分割、检测等。•限制了模型与实际物理环境交互的能力。 •语言模型缺少对图像内容的参考,容易虚构不存在的内容。•从语言模型的训练语料中,构造出常见的内容,例如“红色的”。 “左边是一只羊驼,右边是一只红色的美洲驼” 带定位能力的LLM 相关工作 •提供更明确的答案•和真实世界建立对应 我们的方案:PixelLM 多物体 高效性 现有模型的局限 •之前的工作只能检测分割出单个物体。•引入多个token,模型能够完成多个物体的分割。 •需要借助一个大规模的分割模型(例如meta的SAM),严重拖慢响应速度。•只能定位和分割一个物体,无法应用于需要输出多个物体的场景。 •使用SAM增加了模型的计算成本。•将分割模型SAM替换成轻量的MLP,提高响应速度。 PixelLM模型细节–图像特征提取 •目标物体可能有不同的尺寸大小(如右图所示)•利用OpenAI的CLIP模型作为图像编码器,并且提取多个尺度的图像特征,方便识别分割不同尺寸的物体。 PixelLM模型细节–分割词表的设计 •分割词表包含多个token组,每一个对应图像的一个尺度的CLIP特征。 第一组分割tokens •每个token组包含多个tokens,一起捕捉目标物体的语意特征。 第二组分割tokens •将多个token组的解码结果融合,可以得到多个物体的分割结果。 PixelLM模型 •高效的分割解码器•包含多个注意力模块,每个对应一个特征尺度•前一个生成的分割结果,会指导后面分割的生成 PixelLM训练方法 训练的损失函数:•帮助模型分辨和学习分割不同的目标物体 •将分割的预测记为M1, …, Mk 分割的训练损失函数: 整体模型的训练损失函数: 物体分割的损失函数 PixelLM训练数据构造 通过LLM构造训练数据 已有数据集的局限•细节不够丰富 •缺少带有文字问答的标注 一个新的数据集–MUSE•910K高质量的实例分割标注(选自LVIS*) •平均超过100tokens的实例文字描述•246k问答对,每个回答平均带3.7个物体•超过1000个物体类别 PROMPT 回答 PixelLM的表现 •和之前的模型LISA相比,计算量减少一半。•分割精度显著提升(9.6-> 37.7) 应用实例 总结 •PixelLM是一个新的LMM模型,可以进行像素级别的图像理解和推理。•为了促进后续的研究工作,构建了MUSE数据集。•未来的扩展:具身智能对物理世界的理解上。 基于LLM的图像视频生成03 目前的视频生成模型 目前的视频生成方案–文字描述到视频 目前的视频生成方案–扩散模型 视频生成模型面临的挑战 一致性 创作界面与可控性 视频的表现力 •长视频的内容需要复杂的文字描述。视频创作过程对用户不友好。•文字描述很难对视频内容精细控制。 •在动作、表情的丰富度上有局限。 •长时间保持一致性对目前的视频生成模型是很大的挑战。•人物一致•环境一致 新的视频创作流程 •更友好的交互方式:指定角色和剧本,提高对视频内容的控制。•提高一致性:StoryDiffusion模型中的一致性模块•提高表现力:StoryDiffusion模型中的运动生成模块 StoryDiffusion的效果 StoryDiffusion的关键模块:一致性注意力 •对剧本中的多段文字,同时生成对应的多张图像。•在多张图像的生成过程中,引入相似的图像特征,保证角色的一致性。 图像生成模型中引入一致性注意力机制。 多个文字prompt,以及生成的对应图像。 StoryDiffusion的关键模块:运动生成 •在关键画面之间,生成过渡运动。•在特征空间中进行画面的差值,生成平滑运动。 StoryDiffusion的运动生成效果 •运动表现力强,一致性好。 与已有的方法比较 即梦AI故事模式 总结展望04 总结展望 LLM在图像理解与视频生成上的初步探索 基于LLM的统一的视觉理解生成模型 交互式的多模态的LLM模型–能与物理世界交互的AI THANKS 智能未来,探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI