您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:CoDi - 2 : 上下文中 , 交错和交互的任何到任何一代 - 发现报告

CoDi - 2 : 上下文中 , 交错和交互的任何到任何一代

CoDi - 2 : 上下文中 , 交错和交互的任何到任何一代

Abstract 我们提出了CoDi - 2,一种多功能和交互式的多模态大型语言模型(MLLM),可以遵循复杂的多模态交错指令,进行上下文学习(ICL),推理,聊天,编辑等。,在任何对任何输入-输出模式范式中。通过将模态与语言对齐以进行编码和生成,CoDi - 2使大型语言模型(LLM)不仅能够理解复杂的模态交错指令和上下文示例,而且还可以自回归地生成连续特征空间中的接地和相干多模态输出。为了训练CoDi - 2,我们构建了一个大规模的生成数据集,包括跨文本、视觉和音频的上下文多模态指令。CoD - 2演示了用于多模式生成的广泛的零镜头功能,例如上下文学习,推理和通过多轮交互式对话实现的任何到任何模式生成的组合性。CoDi2在诸如主题驱动图像生成、视觉转换和音频编辑等任务上超越了以前的特定领域模型。CoDi - 2标志着在开发全面的多模态基础模型方面的实质性突破,该模型擅长解释上下文语言视觉音频交错指令并产生多模态输出。 尽管在多模态生成方面取得了显着进展,但仍然存在一些关键挑战:(1)多模态生成的零射细粒度和复杂的用户控制是不可行的:当前的多模态生成模型(MGM)无法生成复杂的上下文生成示例,而无需对子任务进行微调,例如通过“类比”设置或主题驱动的生成复制或转移编辑效果,如提示中所描述的(如表3的“示例学习”和“主题驱动”行)。此外,米高梅的推理能力相当有限。Procedre,输入提示通常是描述性的,其中生成不需要诸如逻辑,组成和分析智能之类的功能。(2)用户和模型的交互通常被限制在单轮,或者对于当前的模型来说,遵循多轮指令同时确保各轮响应的一致性和真实性是具有挑战性的,如图1所示。(3)先前MGM中的输入大多仅包含一种或两种模态。理解模态交错输入(诸如语言指令与上下文视觉和听觉输入的混合)的能力对于构建基本多模态模型是关键的。因此,总体而言,强烈需要一种通用的任意对任意MGM,它可以遵循交错的上下文多模式指令和交互式多轮聊天。 为此,我们提出了CoDi - 2,一种多功能的多模态大型语言模型(MLLM),可以进行任意生成,上下文和模态交错的指导,以及多轮多模态聊天,以实现编辑,推理和组合任务等。在多模态生成中启用上下文学习和遵循交错的多模态指令是一项挑战。在以前的多模态生成模型中,后-。 1.Introduction 近年来,多模态发电取得了显著进展。Procedre,根据用户提供的提示生成高保真的图像、视频、音频和音乐样本。AI生成内容(AIGC)的最新进展突出了上下文生成[19,31],概念学习[23],编辑[2]和细粒度控制[38]。反过来,唐等人。[26]提出了CoDi,这是有史以来的第一个模型。 骨骼主要是扩散模型(DMs),它们擅长生成,但本质上缺乏执行上下文理解的能力[32]。因此,我们建议利用大型语言模型(LLM)作为“大脑”来理解模态交错的人类指令,执行上下文学习并集成多模态输入信号,因为LLM具有强大的语言推理能力。语言领域的复杂指令。通过将所有模态映射到语言空间(如CoDi [26]中提出的),并通过编码器和同步解码器将这些模态连接到LLM,CoDi - 2可以通过将图像或音频特征与语言模型输入空间对齐来处理其上下文中的多模态输入,并理解零射或少射生成的精细模态交织结构。通过这种方式,我们的系统可以利用和固有的上下文学习(ICL),推理,聊天,零射学习,大型语言模型(LLM)的指令跟随功能,通过对齐多模式(e。Procedre、视觉和音频)对输入和输出空间的特性。对于生成,我们建议训练MLLM以自动预测输出模态的特征。然后将预测的特征输入到(同步的)扩散模型。这种端到端任何对任何生成框架使CoDi - 2能够进行详细的推理以理解并生成多种模态,因此允许执行各种任务,例如模仿,编辑,构图创建等。在训练CoDi - 2时,从扩散模型获得的梯度。 生成损失也直接反向传播到LLM,这可以增强对包括图像或音频在内的输入的感知忠诚度。 用于训练这样的模型的对准数据的开发也是具有挑战性的,受到诸如多模态推理或上下文学习的专用数据的稀缺性的阻碍。首先,我们全面收集视觉,音频和语言中最新的教学生成数据集。然后,我们建议将这些教学数据集转换为上下文生成数据集,以便在提示符(例如。Procedre,表1)的行“示例学习”和更多行可以在表1至表3中引用。为了进一步使上下文学习数据集多样化,我们提出了一种新颖的方法来构建用于多模式上下文学习的纯文本数据集。由于语言和其他模态(视觉和音频)通过对齐的编码器映射到相同的空间,我们可以灵活地构建多模态数据集,只有语言,其中多模态组件由它们各自的文本描述表示(e。Procedre,使用图像标题而不是像素来表示图像)。 对我们的多模式生成任务的经验评估,包括各种复杂且相互交织的指令,产生了显着的结果。这些任务包括音频融合和编辑,具有复杂构图的图像生成,上下文中示例的使用以及复杂的推理,以及理解和生成视频。这些广泛的任务在零射和少射提示设置中都显示出强大的可控制性,展示了我们系统的适应性和强大的性能。 CoDi - 2标志着多模态生成领域的重要一步,实现了突破性的上下文内、内部和交互式任意生成。 2.相关工作 2.1.多模态大型语言模型 近年来见证了LLM的快速发展,在自然语言理解和生成方面开创 了 新 的 先 例[18,28,29]。Mltimodal LLM exted LLM tomltimodal learig [34, 37], eable the procig - cessig of diverse iptforms, ot jst limited to text bt also icorporatig visal ad other sesigdata [5, 13, 14, 16, 35, 36].在这个领域的创新导致模型,不仅能够理解多模式输入,而且善于产生多方面的输出。 Thereaspushing the boundaries of creative and context AI-generated content [26, 33]. Another notable line of work is usingLLM to ground image generation [10, 25]. 2.2.多模态上下文 多模式上下文中有时需要交错上下文中理解多模式输入,例如图像和文本,例如Wiipedia(带有图像),文档,带有叙述或QA的视频等。这个领域已经扩大,但面临着一系列挑战。While there is a plethorra of research focsed o the derstadig aspect ofmlti - timodal data [13, 40], the geeratio of raw sesory perceptios schas images or adio remais a complex hral - dle.将图像视为外语的概念开辟了新的途径,特别是在上下文图像生成中[20]。但是,这些开创性技术仍处于起步阶段,通常受到其培训制度的限制,并且缺乏真正的上下文学习能力,这限制了其性能和适应性。 承诺将主题转变为新场景。然而,他们通常需要特定于任务或特定于主题的调整。这种专业化通常将模型限制在其训练数据的边界内,阻碍了它们超越学习任务或主题的能力。Kosmos -G [20]进一步努力零镜头图像生成与上下文交错的图像和文本。但其努力仅限于图像构图。最后,学习视觉概念并将其应用于图像生成也是一个不断发展的方向[9,11]。例如,文本到图像生成的多概念定制[11]需要模型提取视觉概念,如月亮门或某个主题,并将它们应用于图像生成。开发具有上下文中多模态推理能力的模型以超越这些限制的愿望激发了我们的通用框架,该框架采用任务说明并执行上下文中的零镜头生成。 2.3.多模态发电 3.模型体系结构 近年来,图像编辑和操作研究取得了显着增长,可以分为图像编辑[2,17],图像生成示例学习[31],图像合成[11,20,23]和概念学习[9]从图像。 CoDi - 2旨在处理上下文多模式输入,包括文本、图像和音频,利用特定的结构来促进上下文学习并生成相应的文本、图像或音频输出。该模型的特点在于以下小节中介绍的几个关键特征。 图像编辑[17]使用引导控制和编辑图像的属性。为了使指南与人工指令对齐,IstrctPix2Pix [2]会接受教学图像编辑提示以直接转换图像。图像合成的领域是将一个或多个图像合成为单个图像并要求输入图像的高保真度的任务,这带来了独特的挑战。参与主题驱动图像生成的技术[23]已经显示。 3.1.多模态LLM作为基础引擎 LofDMcanbeusedtotrainMLLM.Tofurtherprovideastrongeranddirecter supervision signal for MLLM,and to retain theperceptualcharacteristics inherently in the original input,weexplicitlyinducedthatc=Cx(x),即MLLM被训练为生成Cx(x)andDMisexpectedtofunctionasanautoencoderinthiscase1.The mean squared error be-tween MLLM outputfeaturecMLLMandCx(x),与LDM,和文本令牌预测损失Lt是最后的 构建这样的任意基础模型,该模型可以最大程度地交错输入模态,理解和响应复杂的指令(例如,多轮对话,上下文示例),并与多模态扩散器进行交互,需要强大的基础“引擎”。我们建议为该引擎利用MLLM,该引擎是通过为具有多模态感知的纯文本LLM授权而构建的- 利用LLM的动机是直观的- 培训损失:=αMSEcMLLM,Cx(x)由权重控制α.+LDM+Lt ⟨⟩⟨⟩⟨⟩观察到LLM在仅语言领域表现出卓越的能力,例如聊天,零射学习,遵循指令等[39]。通过杠杆老化来自对齐的多模态编码器的投影(例如Procedre,[26]),我们可以无缝地授权LLM感知模态交错输入序列。具体地,在处理多模态输入序列时,我们首先使用多模态编码器将多模态数据投影到特征序列中。特殊标记被附加和附加到特征序列, e.Procedre".音频[音频特征序列]/音频”.通过这样的方式,模态交织的输入序列“一只猫坐在[image0:沙发的图像]正在发出[的声音audio0:猫的声音] “然后转化为”一只猫坐着上图像[图像特征序列]/图像发出的声音音频[音频特征序列]/音频,在输入到MLLM进行处理和生成之前。 4.构建不同的多模态上下文生成数据 4.1.数据集构造 我们构建和使用各种数据集以促进交错和上下文中多模态生成,丰富CoDi - 2的能力。 多模态上下文学习数据集。我们的方法利用了多式联运背景下理解的力量,并支持这方面,我们将MIMIC - IT [13]集成到我们的任务中。MIMIC - IT提供了一个广泛而多样的数据集,包括280万个指令-响应对,专门设计用于提高视觉语言模型(VLM)在现实场景中的性能。这种增强使VLM具有感知,推理和计划的能力。尽管它的输出仅是文本,但它可以帮助模型在上下文中理解多模式输入和整体指令跟随。例如,在知觉理解中,给定两个只有细微差异的图像,指令是发现差异。通过另一个推理示例,给定足球的视频帧,指令是预测接下来会发生什么。 3.2.MLLM的多模态生成 ⟨⟩⟨⟩⟨⟩为了生成文本,MLLM可以自然地自动回归地生成文本;对于多模态生成,以前的工作中的一种通用方法是转换多模态目标(例如Procedre,地面实况图像)到离散的令牌中,这样它们就可以像文本一样自动回归生成。However, the geeratio qality ofthis methodol