行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

大语言模型在计算机视觉领域的应用

信息技术2024-10-27冯佳时AiCon张***

AI智能总结

大语言模型在计算机视觉领域的应用

背景介绍

计算机视觉的基本问题包括物体识别、物体检测、物体分割、图像生成、视频生成和3D生成等。大语言模型（如ChatGPT）具备情感分析、问答和翻译等功能。视觉基础模型旨在实现生成与理解的统一，但当前仍面临缺乏细节理解、幻觉等问题。

基于LLM的图像理解

大语言模型在图像理解中的应用主要通过映射层和图像编码器实现。然而，这些模型在细节理解、幻觉等方面存在不足。为解决这些问题，提出了带定位能力的LLM方案，通过引入多个token来提供更明确的答案，并结合MUSE数据集进行训练，显著提升了分割精度。

关键数据

计算量: PixelLM相比LISA减少了50%。
分割精度: 提升了9.6至37.7。

基于LLM的视频生成

现有的视频生成模型包括文字描述到视频生成模型和扩散模型。这些模型面临创作界面复杂、可控性差、一致性难以保持等问题。为此，提出了StoryDiffusion方案，通过角色定义、剧本创作、一致性注意力和运动生成等模块，提高了视频生成的可控性和表现力。

关键指标

图文相似度: StoryDiffusion达到0.66。
角色相似度: 达到0.89。
内容一致性: 在LPIPS和CLIPSIM指标上均优于其他方法。

总结展望

大语言模型在图像理解和视频生成领域进行了初步探索，展示了其在统一视觉理解生成模型方面的潜力。未来的研究方向将集中在交互式多模态的LLM模型上，以实现与物理世界的更好交互。

未来展望

统一的视觉理解生成模型。
交互式的多模态LLM模型。
与物理世界的更好交互。

THANKS智能未来，探索AI无限可能。

演讲人：冯佳时目录 02基于LLM的图像理解 01 03基于LLM的视频生成 04总结展望背景介绍01 计算机视觉的基本问题物体识别物体分割草地,猫,树,天空计算机视觉的基本问题图像生成视频生成 3D生成大象戴着生日帽海底漫步 LLM统一模型视觉基础模型–生成与理解的统一是否可基于LLM搭一个生成理解统一的视觉基础模型？基于LLM的图像理解02 LLM在图像理解中的应用一些问题缺少细节理解幻觉 •只是对图像内容全局的描述。•缺少图像内容像素级别的理解，例如分割、检测等。•限制了模型与实际物理环境交互的能力。 •语言模型缺少对图像内容的参考，容易虚构不存在的内容。•从语言模型的训练语料中，构造出常见的内容，例如“红色的”。 “左边是一只羊驼，右边是一只红色的美洲驼” 带定位能力的LLM 相关工作 •提供更明确的答案•和真实世界建立对应我们的方案：PixelLM 多物体高效性现有模型的局限 •之前的工作只能检测分割出单个物体。•引入多个token，模型能够完成多个物体的分割。 •需要借助一个大规模的分割模型(例如meta的SAM),严重拖慢响应速度。•只能定位和分割一个物体，无法应用于需要输出多个物体的场景。 •使用SAM增加了模型的计算成本。•将分割模型SAM替换成轻量的MLP，提高响应速度。 PixelLM模型细节–图像特征提取 •目标物体可能有不同的尺寸大小（如右图所示）•利用OpenAI的CLIP模型作为图像编码器，并且提取多个尺度的图像特征，方便识别分割不同尺寸的物体。 PixelLM模型细节–分割词表的设计 •分割词表包含多个token组,每一个对应图像的一个尺度的CLIP特征。第一组分割tokens •每个token组包含多个tokens，一起捕捉目标物体的语意特征。第二组分割tokens •将多个token组的解码结果融合，可以得到多个物体的分割结果。 PixelLM模型 •高效的分割解码器•包含多个注意力模块，每个对应一个特征尺度•前一个生成的分割结果，会指导后面分割的生成 PixelLM训练方法训练的损失函数：•帮助模型分辨和学习分割不同的目标物体 •将分割的预测记为M1, …, Mk 分割的训练损失函数：整体模型的训练损失函数：物体分割的损失函数 PixelLM训练数据构造通过LLM构造训练数据已有数据集的局限•细节不够丰富 •缺少带有文字问答的标注一个新的数据集–MUSE•910K高质量的实例分割标注（选自LVIS*) •平均超过100tokens的实例文字描述•246k问答对，每个回答平均带3.7个物体•超过1000个物体类别 PROMPT 回答 PixelLM的表现 •和之前的模型LISA相比，计算量减少一半。•分割精度显著提升（9.6-> 37.7) 应用实例总结 •PixelLM是一个新的LMM模型，可以进行像素级别的图像理解和推理。•为了促进后续的研究工作，构建了MUSE数据集。•未来的扩展：具身智能对物理世界的理解上。基于LLM的图像视频生成03 目前的视频生成模型目前的视频生成方案–文字描述到视频目前的视频生成方案–扩散模型视频生成模型面临的挑战一致性创作界面与可控性视频的表现力 •长视频的内容需要复杂的文字描述。视频创作过程对用户不友好。•文字描述很难对视频内容精细控制。 •在动作、表情的丰富度上有局限。 •长时间保持一致性对目前的视频生成模型是很大的挑战。•人物一致•环境一致新的视频创作流程 •更友好的交互方式：指定角色和剧本，提高对视频内容的控制。•提高一致性：StoryDiffusion模型中的一致性模块•提高表现力：StoryDiffusion模型中的运动生成模块 StoryDiffusion的效果 StoryDiffusion的关键模块：一致性注意力 •对剧本中的多段文字，同时生成对应的多张图像。•在多张图像的生成过程中，引入相似的图像特征，保证角色的一致性。图像生成模型中引入一致性注意力机制。多个文字prompt，以及生成的对应图像。 StoryDiffusion的关键模块：运动生成 •在关键画面之间，生成过渡运动。•在特征空间中进行画面的差值，生成平滑运动。 StoryDiffusion的运动生成效果 •运动表现力强，一致性好。与已有的方法比较即梦AI故事模式总结展望04 总结展望 LLM在图像理解与视频生成上的初步探索基于LLM的统一的视觉理解生成模型交互式的多模态的LLM模型–能与物理世界交互的AI THANKS 智能未来，探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI

点击免费查看完整报告