CoDi-2:上下文中,交错和交互的任何到任何一代 子能唐1,4*杨子怡2*MahmoudKhademi3杨柳2朱晨光3ACTMohitBansal4† 1UC伯克利2MicrosoftAzureAI3缩放4UNC教堂ft https://codi-2.github.io arXiv:2311.18775v1[cs.CV]2023年11月30日 Abstract 我们提出了CoDi-2,一种多功能和交互式的多模态大型语言模型(MLLM),可以遵循复杂的多模态交错指令,进行上下文学习(ICL),推理,聊天,编辑等。,在任何对任何输入-输出模式范式中。通过将模态与语言对齐以进行编码和生成,CoDi-2使大型语言模型(LLM)不仅能够理解复杂的模态交错指令和上下文示例,而且还可以自回归地生成连续特征空间中的接地和相干多模态输出。为了训练CoDi-2,我们构建了一个大规模的生成数据集,包括跨文本、视觉和音频的上下文多模态指令。CoD-2演示了用于多模式生成的广泛的零镜头功能,例如上下文学习,推理和通过多轮交互式对话实现的任何到任何模式生成的组合性。CoDi2在诸如主题驱动图像生成 、视觉转换和音频编辑等任务上超越了以前的特定领域模型。 CoDi-2标志着在开发全面的多模态基础模型方面的实质性突破 ,该模型擅长解释上下文语言视觉音频交错指令并产生多模态输出。 1.Introduction 近年来,多模态发电取得了显著进展。Procedre,根据用户提供的提示生成高保真的图像、视频、音频和音乐样本。AI生成内容(AIGC)的最新进展突出了上下文生成[19,31],概念学习[23],编辑[2]和细粒度控制[38]。反过来,唐等人。[26]提出了CoDi,这是有史以来的第一个模型。 *在Microsoft实习和UNC期间完成的工作。 †通讯:ziyiyang@microsoft.com,mbansal@cs.un.edu ‡在微软期间完成的工作。 可以从输入的任何组合中生成任何形式的组合。在这个基础工作的基础上,[33]的后续研究通过提出一个可以促进对话能力和扩展到额外形式的模型来进一步推进CoDi。 尽管在多模态生成方面取得了显着进展,但仍然存在一些关键挑战:(1)多模态生成的零射细粒度和复杂的用户控制是不可行的:当前的多模态生成模型(MGM)无法生成复杂的上下文生成示例,而无需对子任务进行微调,例如通过“类比”设置或主题驱动的生成复制或转移编辑效果,如提示中所描述的(如表3的“示例学习”和“主题驱动”行)。此外,米高梅的推理能力相当有限。Procedre,输入提示通常是描述性的,其中生成不需要诸如逻辑,组成和分析智能之类的功能。 (2)用户和模型的交互通常被限制在单轮,或者对于当前的模型来说,遵循多轮指令同时确保各轮响应的一致性和真实性是具有挑战性的,如图1所示。(3)先前MGM中的输入大多仅包含一种或两种模态。理解模态交错输入(诸如语言指令与上下文视觉和听觉输入的混合)的能力对于构建基本多模态模型是关键的。因此,总体而言,强烈需要一种通用的任意对任意MGM ,它可以遵循交错的上下文多模式指令和交互式多轮聊天。 为此,我们提出了CoDi-2,一种多功能的多模态大型语言模型(MLLM),可以进行任意生成,上下文和模态交错的指导,以及多轮多模态聊天,以实现编辑,推理和组合任务等。在多模态生成中启用上下文学习和遵循交错的多模态指令是一项挑战。在以前的多模态生成模型中,后-。 组成和概念学习 在中学习主 题 .用它生成所代表的概念 Human 在的氛围中编辑此图像 (下雨的声音) Human 多模态编辑 示例性学习 CoDi-2 之间的编辑是什 么 and ?将其应用于图像 ,并告诉我们效果是什么。 Human CoDi-2 我改变了场景的季节。 CoDi -2 图1.人类和CoDi-2之间的多轮对话,为图像编辑提供上下文中多模式指令。 骨骼主要是扩散模型(DMs),它们擅长生成,但本质上缺乏执行上下文理解的能力[32]。因此,我们建议利用大型语言模型(LLM)作为“大脑”来理解模态交错的人类指令,执行上下文学习并集成多模态输入信号,因为LLM具有强大的语言推理能力。语言领域的复杂指令。通过将所有模态映射到语言空间(如CoDi[26]中提出的),并通过编码器和同步解码器将这些模态连接到LLM,CoDi-2可以通过将图像或音频特征与语言模型输入空间对齐来处理其上下文中的多模态输入,并理解零射或少射生成的精细模态交织结构。通过这种方式,我们的系统可以利用和固有的上下文学习(ICL),推理,聊天,零射学习,大型语言模型(LLM)的指令跟随功能,通过对齐多模式(e。Procedre、视觉和音频)对输入和输出空间的特性。对于生成,我们建议训练MLLM以自动预测输出模态的特征。然后将预测的特征输入到(同步的)扩散模型。这种端到端任何对任何生成框架使CoDi-2能够进行详细的推理以理解并生成多种模态,因此允许执行各种任务,例如模仿,编辑,构图创建等。在训练CoDi-2时,从扩散模型获得的梯度。 生成损失也直接反向传播到LLM,这可以增强对包括图像或音频在内的输入的感知忠诚度。 用于训练这样的模型的对准数据的开发也是具有挑战性的,受到诸如多模态推理或上下文学习的专用数据的稀缺性的阻碍 。首先,我们全面收集视觉,音频和语言中最新的教学生成数据集。然后,我们建议将这些教学数据集转换为上下文生成数据集,以便在提示符(例如。Procedre,表1)的行“示例学习”和更多行可以在表1至表3中引用。为了进一步使上下文学习数据集多样化,我们提出了一种新颖的方法来构建用于多模式上下文学习的纯文本数据集。由于语言和其他模态(视觉和音频)通过对齐的编码器映射到相同的空间,我们可以灵活地构建多模态数据集,只有语言,其中多模态组件由它们各自的文本描述表示(e。Procedre,使用图像标题而不是像素来表示图像)。 对我们的多模式生成任务的经验评估,包括各种复杂且相互交织的指令,产生了显着的结果。这些任务包括音频融合和编辑,具有复杂构图的图像生成,上下文中示例的使用以及复杂的推理,以及理解和生成视频。这些广泛的任务在零射和少射提示设置中都显示出强大的可控制性,展示了我们系统的适应性和强大的性能。 CoDi-2标志着多模态生成领域的重要一步,实现了突破性的上下文内、内部和交互式任意生成。 2.相关工作 2.1.多模态大型语言模型 多模态大型语言模型 近年来见证了LLM的快速发展,在自然语言理解和生成方面开创了新的先例[18,28,29]。MltimodalLLMextedLLMtomltimodallearig[34,37],eabletheprocig-cessigofdiverseiptforms,otjstlimitedtotextbtalsoicorporatigvisaladothersesigdata[5,13,14,16,35,36].在这个领域的创新导致模型,不仅能够理解多模式输入,而且善于产生多方面的输出。 鉴于艺术风格 文本嵌入 文本Image 嵌入编码器 ,生成主题代表在 音频编码器 (鸟的声音) 鸟,花,艺术 图像解码器 ThereaspushingtheboundariesofcreativeandcontextAI-generatedcontent[26,33].AnothernotablelineofworkisusingLLMtogroundimagegeneration[10,25]. 2.2.多模态上下文 多模式上下文中有时需要交错上下文中理解多模式输入,例如图像和文本,例如Wiipedia(带有图像),文档,带有叙述或QA的视频等。这个领域已经扩大,但面临着一系列挑战。Whilethereisaplethorraofresearchfocsedothederstadigaspectofmlti-timodaldata[13,40],thegeeratioofrawsesoryperceptiosschasimagesoradioremaisacomplexhral-dle.将图像视为外语的概念开辟了新的途径,特别是在上下文图像生成中[20]。但是,这些开创性技术仍处于起步阶段,通常受到其培训制度的限制 ,并且缺乏真正的上下文学习能力,这限制了其性能和适应性 。 2.3.多模态发电 近年来,图像编辑和操作研究取得了显着增长,可以分为图像编辑[2,17],图像生成示例学习[31],图像合成[11, 20,23]和概念学习[9]从图像。 图像编辑[17]使用引导控制和编辑图像的属性。为了使指南 与人工指令对齐,IstrctPix2Pix[2]会接受教学图像编辑提示以直接转换图像。图像合成的领域是将一个或多个图像合成为单个图像并要求输入图像的高保真度的任务,这带来了独特的挑战 。参与主题驱动图像生成的技术[23]已经显示。 图2.模型架构:CoDi-2包括多模态大型语言模型,其包括用于音频和视觉输入的编码器和解码器,以及大型语言模型。该架构有助于使用扩散模型对图像或音频输入进行解码。在训练阶段,我们的方法包括从扩散模型中获得的像素损失以及令牌损失,坚持标准的因果生成损失。 承诺将主题转变为新场景。然而,他们通常需要特定于任务或特定于主题的调整。这种专业化通常将模型限制在其训练数据的边界内,阻碍了它们超越学习任务或主题的能力。Kosmos-G[20]进一步努力零镜头图像生成与上下文交错的图像和文本 。但其努力仅限于图像构图。最后,学习视觉概念并将其应用于图像生成也是一个不断发展的方向[9,11]。例如,文本到图像生成的多概念定制[11]需要模型提取视觉概念,如月亮门或某个主题,并将它们应用于图像生成。开发具有上下文中多模态推理能力的模型以超越这些限制的愿望激发了我们的通用框架,该框架采用任务说明并执行上下文中的零镜头生成。 3.模型体系结构 CoDi-2旨在处理上下文多模式输入,包括文本、图像和音频 ,利用特定的结构来促进上下文学习并生成相应的文本、图像或音频输出。该模型的特点在于以下小节中介绍的几个关键特征。 3.1.多模态LLM作为基础引擎 构建这样的任意基础模型,该模型可以最大程度地交错输入模态,理解和响应复杂的指令(例如,多轮对话,上下文示例),并与多模态扩散器进行交互,需要强大的基础“引擎” 。我们建议为该引擎利用MLLM,该引擎是通过为具有多模态感知的纯文本LLM授权而构建的- 。 ofDMcanbeusedtotrainMLLM.TofurtherprovideastrongeranddirectersupervisionsignalforMLLM,andtoretaintheperceptualcharacteristicsinherentlyintheoriginalinput,weexplicitlyinducedthatc=Cx(x),即MLLM被训练为生成Cx(x)andDMisexpectedtofunctionasanautoencoderinthiscase1.Themeansquarederrorbe-tweenMLLMoutputfeaturecMLLMandCx(x),与LDM,和文本令牌预测损失Lt是最后 利用LLM的动机是直观的-的L 观察到LLM在仅语言领域表现出卓越的能力,例如聊天,零射学习,遵循指令等[39]。通过杠杆老化来自对齐的多模态编码器的投影(例如Procedre,[26]),我们可以无缝地授权LLM感知模态交错输入序列。具体地,在处理多模态输入序列时,我们 培训损失:=αMSEcMLLM,Cx(x) 由权重控制α. 4.构建不同的多模态上下文生成数据 4.1.数据集构造 +LDM+Lt 首先使用多模态编码器将多模态数据投影到特征序列中。特殊标记被