文本到图像合成:十年调查 唐农海张浩∗ Abstract—当人类阅读特定的文字时,往往会想象相应的图像,我们希望计算机也能做到这一点。文本到图像合成(Text-to-ImageSynthesis,T2I),专注于从文本描述生成高质量的图像,已成为人工智能生成内容(AIGC)的重要组成部分,并且是人工智能研究的一个变革性方向。基础模型在T2I中扮演着关键角色。在本综述中,我们回顾了超过440篇近期关于T2I的研究工作。我们首先简要介绍了如何使用生成对抗网络(GANs)、自回➴模型和扩散模型进行图像生成。在此基础上,我们讨论了这些模型在T2I中的发展,重点在于它们在条件下的生成能力和多样性。我们还探讨了T2I各个方面的前沿研究,包括性能、可控性、个性化生成、安全问题以及内容和空间关系的一致性。此外,我们总结了常用于T2I研究的数据集和评估指标。最后,我们讨论了T2I在AIGC中的潜在应用,以及该领域面临的挑战和未来的研究机会。 索引术语-文本到图像合成(T2I),人工智能生成内容(AIGC),基础模型,生成对抗网络(GAN),自回➴模型(AR),扩散模型(DM),调查 ✦ 1介绍 文本和图像是记录客观世界的基本手段。正如谚语所说,“一幅图胜过千言万语”。当我们阅读纯文本时,我们的大脑往往会创建相应的图像来帮助我们更好地理解内容。在计 算领域,文本到图像生成(T2I)[1],[2],[3],[4],[5] ,[6],[7],[8],[9],[10],[11],[12],[13],[1 4],[15]结合了自然语言处理(NLP)的领域[16],[17] ,[18]和计算机视觉(CV)[19],[20],[21],指的是 使用特定模型从文本描述中生成现实图像的过程。由于其在各个领域革命性内容创作方面的潜力,T2I(Text-to-Image)已受到广泛关注。通过将文本描述转换为视觉内容,这项技术在语言与图像之间架起了桥梁,为艺术、设计和多媒体应用开启了新的可能性。此外,T2I在AI生成内容(AIGC)中扮演着关键角色[22]代表了迈向通用人工智能道路上的重要里程碑[23],[24],[25].图1展示了一系列T2I领域的代表性作品。 在某些情况下,生成的图像仍然需要改进。 生成对抗网络(GAN)的引入[50]为T2I带来了重大进展 。受条件GAN(cGAN)的启发[51],Reed等人设计了GAN-CLS和GNA-INT模型[2],whichwere首先应用生成对抗网络(GAN)于文本到图像(T2I)任务,展示了GAN在生成高质量、细节丰富图像方面的优势。这一阶段标志着GAN在T2I领域应用的重要里程碑[3],[4],[34] . 使用Transformer体系结构[17]从NLP,Ope-nAI引入了DALL-E模型[7]这一模型是首个采用自回➴(AR )方法进行图像生成的模型,利用大规模数据集生成多样化的图像。尽管自回➴方法展示了高质量的生成能力[9],[35],[45],其可观的计算成本限制了其在某些应用场景中的实用性。 随着深度学习的发展[48],T2I模型现已能够生成更加精细的图像,这些图像与文本描述高度匹配。回顾T2I模型的发展历程,AlignDRAW[1由ElmanMansimov团队提出的这项工作被视作该领域的开创性研究。该模型通过引入注意力机制,有效地展示了生成图像与文本描述之间的关系[49],虽然质量 近年来,扩散模型(DM)[52],[53],受非平衡热力学的启发,已逐渐成为T2I领域最先进的方法。GLIDE[8是首次将扩散模型应用于T2I任务,通过在像素空间中操作展 示了出色的生成能力。引入了潜扩散模型(LDM)[33]强调了潜在空间在扩散模型中的重要性,显著提高了生成图像的质量。随着研究的进展,扩散模型展现了无与伦比的有效性。[12],[13],[15],使其成为T2I中最受欢迎的研究方向之一。 arXiv:2411.16164v1[cs.CV]2024年11月25日 • 张农海在软件与微电子学院任职, 北京大学,北京102600。北京100871。znh@stu.pku.edu.cn • 唐浩在北京大学计算机学院工作, 北京100871,中国。电子邮件:haotang@pku.edu.cn *通讯作者:郝唐。 T2I技术的不断进步引发了社区内的热烈讨论[54].各研究团队持续发布新论文,技术更新的快速步伐给新进入者带来了巨大的挑战,使其难以入门并保持最新。当前的研究已经探讨了从T2I视角下生成对抗网络(GANs)的发展情况[55],[56],DM的进展 ¨NUW[3A7] 制作场景[36]CogView2[11] Parti[35] DF-GAN[34] 稳定扩散3 [47] DALLE-2[10] 稳定扩散[33] CogView3[15] 稳定扩散XL [14] 文本条件GAN [2] AttnGAN [4] CPGAN[28] 意象[12]VQ-扩散[32]VQGAN-CLIP[31] PixArt-α[46]MARS[45]GILL[44] 20162017 2018 2019 2020 2021 2022 20232024 StackGAN[3]StackGAN++[26] DM-GAN[5] MirrorGAN[27] DALL-E[7]CogView[9]VQ-GAN[29]DAE-GAN[30]GLIDE[8] GALIP[38] GigaGAN[39] Emu[40] CM3Leon[41] DALLE-3[42] Dreambooth[43] ControlNet[13] 图1:展示了随着时间推移在文本到图像合成任务中的一些代表性工作。基于生成对抗网络(GAN)的方法、自回➴方法和基于扩散的过程方法被突出显示。橙色,blue,andred,分别。 模型[57],以及可控发电模块的相关工作[58然而,关于T2I最新发展方向的全面回顾仍然有限。为了帮助研究人员了解T2I的最新进展,本文将介绍GAN、AR和DM模型的基本原理,并详细回顾其进展情况。此外,本文还将对T2I领域的前沿研究方向进行全面调研,旨在为研究人员提供一个清晰的研究路线图和有价值的参考资料,以供进一步探索。 生成器负责创建样本,而判别器的作用是区分真实样本和生成器生成的样本。具体而言,生成器从噪声(即随机值 )中创建样本,而GAN的优化问题被形式化为一个极小极大问题,其目标函数如下所示: G 公式(1)。给定生成器,最优解 DV(D) 因为鉴别器是最大化. minmaxV(D,G)=[logD(x)] 本文的结构如下。节2介绍GAN、AR模型和扩散模型 的数学原理和模型结构。部分3讨论了这三种模型的发展 Ex∼p(x) GDdata +[log(1−D(G(z)))]. (1) 历史,突出不同时期的代表性作品,并提供解释以阐明其技术演变。章节4探索T2I领域的最新研究方向,包括详细的控制、可控的T2I生成、个性化图像生成、一致性问题以及与安全和版权保护相关的问题。章节 5描述了当前在T2I研究中使用的数据集和评估指标,并比较了这些指标下各种模型的有效性。章节6介绍了T2I的最新应用,强调了其对AIGC的意义和潜在影响。最后,第7总结了T2I的研究成果,回顾了以往的挑战,并讨论了未来的发展方向及进一步研究的建议。 在ET2zI∼任p务(z中),GAN工作机制更加复杂和精密[2],[3 8]z,[62],[63]。如图2,生成器通过将文本描述转换为潜在向量来生成相应的图像[64]。此过程通常涉及条件GAN(cGAN)技术[51wheretheDiscriminator不仅评估生成图像的质量,还考虑相关的文本信息。Discriminator提供的反馈帮助Generator不断优化其生成策略,从而使生成的图像越来越真实且一致。 2个基本模型的T2I 当前认可的主要基础模型包括生成对抗网络(GANs)、自回➴模型和扩散模型。在本节中,我们将探讨这些模型的数学原理和工作机制,以了解它们为何有效,并理解它们作为T2I研究基础的原因。 2.2自回➴模型(AR) 自回➴模型最初用于NLP任务[65],并且随着Transformer架构的引入,它们的功能得到了进一步扩展[17] 。图像生成预训练转换器(iGPT)[66]是一项重要的工作 ,将Transformer引入了图像生成领域,展示了其在该领域的潜在能力。方程(Equation()2)显示了模型在生成每个像素或特征时如何依赖先前生成的部分以及输入的文字提示。 T Y P(XX,T). (2) 2.1生成对抗网络(GAN) GAN于2014年推出[50]并已广泛应用于CV的各个领域[59],[60]和NLP[61]领域,取得了显着的成果 。GAN由两个主要组件组成:生成器和鉴别器。 灵感来自iGPTP,(DAXL|TL-)E=[|7]和CogView[9这些模型是首批将Trants<tfotr=m1er应用于Text-to-Image(T2I)任务的模型之一。通过逐步生成序列,这些模型能够有效地捕捉文本和图像之间的复杂语义关系,实现了与最先进的GAN模型相当的结果。[4],[5],[34]oftheirtime.Asillustrated p(t) 图2:文本条件卷积GAN架构[2].文本编码它既用于生成器也用于判别器。它将✲降低到较低维度,并与图像特征图进行深度连接,以供后续卷积处理阶段使用。 图3:DALL-E✁培训[7它✲划分为两个阶段。第一个阶段训练VQ-VAE✁码本,而第二个阶段训练Transformer,对应于图中所示✁阶段一和阶段二。 在图中3,DALL-E使用两阶段变换器架构,将文本和图像特征映射到共享✁潜在空间,并逐步生成图像✁每个像素 。在第一阶段,DALL-E使用离散变分自编码器(dVAE)[6 7]来压缩图像。在第二阶段,它连接按字节对编码✁256个文本令牌 × 使用基于1024个图像令牌(32x32)✁子词编码(BPE)来训练一个自回➴Transformer,该Transformer模型文本和图像令牌✁联合分布。对于生成✁一系列图像,DALL-E利 2.3扩散模型(DM) 基于扩散模型✁基本概念[52],去噪扩散概率模型(DDPM)[53]在2020年引入,标志着该领域✁一项重大里程碑。在前向扩散过程中,DDPM逐步向数据中添加噪声,最终导致高斯分布。 xx 噪声分布。数据✁转换0intotat t √ 每个时间步长可以√x用方=程(3). 用一个预训练✁CLIP模型[68以评估生成✁图像与文本描述✁一致性,并据此对它们进行评分和排序。 αx+1−αϵ. t0tt (3) 在去噪扩散过程中t,模型学会从噪声中恢复原始数据。生 如图所示4CogView结合文本描述与图像生成,采用自回 ➴✁方法逐步生成图像。首先,文本和图像通过SentencePiece转换为tokens[69]用于文本和离散自动编码器,类似于VQ-VAE✁阶段1[70],用于图像。然后将文本和图像令牌连接并输入到单向GPT[65用于学习图像生成✁模型。在从文本到图像(T2I)生成过程中,训练好 ✁模型使用CLIP对生成✁图像进行排名,通过计算CaptionScore完成这一过程。71],最终选择与输入文本最匹配 ✁图像。 成过程由方程式(描述。4): p(x|x)=N(x;µ(x,t),Σ(x,t)),θt−1tt−1θt(θ4)t µΣ whereθandθ是模型学习✁均值和方差参数。 在T2I中,生成过程也以文本提示为条件,可以用方程(5) : T 其中是输入文本提示,模型通过条件扩散生成与文本相关 ✁图像。 Z p(x|T)=p(x|x)p(x|T)dx. θ0θ01θ11 (5) 图4:CogView[9]✁框架。[ROI1],[BASE1]等,是分离令牌。 图5:DDP