缩放整流流量变压器以实现高分辨率图像合成 帕特里克·埃塞尔* ¡ 苏米斯·库拉尔安德烈亚斯·布拉特曼拉希姆·恩特扎里乔纳斯·穆勒哈里·赛尼亚姆·莱维 多米尼克·洛伦茨阿克塞尔·绍尔弗雷德里克·博塞尔达斯汀·波德尔蒂姆·多克霍恩锡安英语 凯尔·莱西亚历克斯·古德温扬尼克·马雷克罗宾·隆巴赫* 稳定性人工智能 图1.来自我们的8B整流流模型的高分辨率样本,展示了其排版、精确提示跟随方面的功能和空间推理、对细节的关注以及各种风格的高图像质量。 抽象的 扩散模型通过将数据的前向路径反转为噪声来创建数据。 已经成为一种强大的生成模型 高维感知数据技术 例如图像和视频。整流流是一种最新的生成模型公式,它将 数据和噪声成一条直线。尽管它更好 理论特性和概念简单性,它 尚未被明确确立为标准实践。在这项工作中,我们改进了现有的噪声采样技术,通过将修正流模型偏向于感知相关的模型来训练它们 秤。通过大规模研究,我们证明 *ȁ等贡献。<first.last>@stability.ai。 阐述该方法的优越性能 与已建立的扩散配方相比 用于高分辨率文本到图像的合成。此外,我们提出了一种新颖的基于变压器的 用于文本到图像生成的架构,使用 两种模式的权重分开,并实现信息之间的双向流动 图像和文本标记,提高文本理解、排版和人类偏好评级。 我们证明该架构遵循可预测的缩放趋势,并将较低的验证损失与改进的文本到图像合成相关联,如下所示 通过各种指标和人类评估来衡量。我们最大的模型优于最先进的模型,我们将进行实验 数据、代码和模型权重公开。 一、简介 缩放整流流量变压器以实现高分辨率图像合成 到模型中(例如,通过交叉注意力(Vaswani等人,2017;Rombach等人,2022))并不理想,并且提出了一种新的架构,该架构结合了图像和文本标记的可学习 扩散模型从噪声中创建数据(Song等人,2020)。 它们被训练将数据的前向路径反转为随机噪声,因此,结合神经网络的近似和泛化特性,可以用来生成训练数据中不存在但遵循训练分布的新数据点数据(Sohl‑Dickstein等人,2015年;Song和Ermon,2020年)。 流,这使得它们之间的双向信息流。我们将其与我们的 改进了整流流公式并研究了其可扩展性。我们展示了验证损失的可预测缩放趋势,并表明较低的验证损失与改进的自动和人工评估密切相关。 这种生成建模技术已被证明对于对图像等高维感知数据进行建模非常有效(Hoetal.,2020)。近年来,扩散模型已成为从自然语言输入生成高分辨率图像和视频的事实上的方法,具有令人印象深刻的泛化能力(Saharia等人,2022b;Ramesh等 人,2022;Rombach等人,2022);Podell等人,2023;Dai等人,2023;Esser等人,2023;Blattmann等人,2023b;Betker等人,2023;Blattmann等人,2023a;Singer等人,2022)。由于其迭代性质和相关的计算成本,以及推理过程中的较长采样时间,对这些模型进行更有效训练和/或更快速采样的公式的研究有所增加(Karras等人,2023年;Liu等人,2023年)。,2022)。 我们最大的模型优于最先进的开放模型,例如SDXL(Podell等人,2023)、SDXL‑Turbo(Sauer等人,2023)、Pixart‑α(Chen等人,2023)和封闭模型‑源模型,例如DALL‑E3(Betkeretal.,2023),均用于即时理解和人类偏好评级的定量评估(Ghoshetal.,2023)。 我们工作的核心贡献是:(i)我们对不同的扩散模型和整流流公式进行了大规模、系统的研究,以确定最佳设置。 虽然指定从数据到噪声的前向路径可以实现高效的训练,但它也提出了选择哪条路径的问题。这种选择可能对采样产生重要影响。例如,无法消除数据中所有噪声的前向过程可能会导致训练和测试分布的差异,并导致诸如灰度图像样本之类的伪影(Lin等人,2024)。重要的是,前向过程的选择也会影响学习到的后向过程,从而影响采样效率。虽然弯曲路径需要许多积分步骤来模拟该过程,但直线路径可以用单个步骤进行模拟,并且不易出现误差累积。由于每个步骤都对应于神经网络的评估,因此这对采样速度有直接影响。 为此,我们为整流流模型引入了新的噪声采样器,与之前已知的采样器相比,其性能得到了提高。(ii)我们设计了一种新颖的、可扩展的文本到图像合成架构,允许网络内文本和图像令牌流之间的双向混合。我们展示了它与UViT(Hoogeboometal.,2023)和DiT(Peebles&Xie,2023)等已建立的骨Ȁ网相比的优势。最后,我们(iii)对我们的模型进行缩放研究,并证明它遵循可预测的缩放趋势。我们表明,较低的验证损失与通过T2I‑CompBench(Huang等人,2023)、GenEval(Ghosh等人,2023)和人类评分等指标评估的文本到图像性能的 提高密切相关。我们公开结果、代码和模型权重。 2.流程的无模拟训练 我们考虑使用常微分方程(ODE)定义噪声分布p1的样本x1到数据分布p0的样本x0之间的映射的生成模型, 前向路径的一个特殊选择是所谓的整流流(Liuetal.,2022;Albergo&Vanden‑Eijnden,2022;Lipmanetal.,2023),它将数据和噪声连接在一条直线上。尽管该模型类具有更好的理论特性,但尚未在实践中得到决定性的确立。到目前为止,一些优势已经在中小型实验中得到了实证证明(Maetal.,2024),但这些大多局限于类条件模型。在这项工作中,我们通过在修正流模型中引入噪声尺度的重新加权来改变这一点,类似于噪声预测扩散模型(Hoet dyt=vθ(yt,t)dt, (1) al.,2020)。通过大规模研究,我们将新配方与现有扩散配方进行比较并证明其优点。 其中速度v由神经网络的权重θ参数化。Chen等人之前的工作。(2018)建议通过可 微ODE求解器直接求解方程(1)。然而,这个过程的计算成本很高,特别是对于参数化vθ(yt,t)的大型网络架构。更有效的替代方法是直接回归向量场ut,生成p0和p1之间的概率路径。为了构建这样的ut,我们定义一个前向过程,对应于p0和p1=N(0,1)之间的概率路径pt,如下 我们展示了广泛使用的文本到图像合成方法,其中直接输入固定的文本表示 zt=atx0+bt其中N(0,I)。 (2) 缩放整流流量变压器以实现高分辨率图像合成 对于a0=1、b0=0、a1=0和b1=1,边际, pt(zt)=EN(0,I)pt(zt|),与数据和噪声分布一致。 将zt、x0与duceψt和ut之间的关系表示为 (3) ,我们介绍‑ 人们可以推导出各种加权损失函数,这些函数为所需的解决方案提供信号,但可能会影响优化轨迹。为了对不同方法(包括经典的扩散公式)进行统一分析,我们可以将目标写成以下形式(遵循Kingma&Gao(2023)): ψt(·|):x0→atx0+bt (4) Lw(x0)=- 12 2EtU(t),N(0,I)wtλtθ(zt,t)-, t t 2 ut(z|):=ψ -1 t(ψt(z|)|) (5) 其中wt=‑ 1λ乙2对应于LCFM。 zt可以写为初始值z0=x0的ODEz的解,因此ut(·|)生成t=ut(zt|),由于pt(·|)。值得注意的是,我们可以使用条件向量场ut(·|)构造一个边缘向量场ut,它生成边缘概率路径pt(Lipmanetal.,2023)(参见B.1): 3.流动轨迹 在这项工作中,我们考虑了上述形式主义的不同变体,我们将在下面简要描述。 ut(z)=EN(0,I)ut(z|)pt(z) pt(z|) (6) 整流流整流流(RFs)(Liuetal.,2022;Albergo&Vanden‑Eijnden,2022;Lipmanetal.,2023)将前向过程定义为数据分布和标准正态分布之间的直线路径,即 使用流量匹配目标回归ut时 LFM=Et,pt(z)||vθ(z,t)-ut(z)||22。 由于方程6中的边缘化,条件流匹配(参见B.1),直接处理是很棘手的, (7) zt=(1-t)x0+t, 并使用LCFM,然后对应于w网络输出直接参数化速度vθ。 射频= t (13) t1-t。 LCFM=Et,pt(z|),p()||vθ(z,t)-ut(z|)||22, 利用条件向量场ut(z|)提供了一个等效但易于处理的目标。 (8) EDMEDM(Karrasetal.,2022)使用以下形式的前向过程 zt=x0+bt (14) 为了将损失转换为显式形式,我们将z-btψ和ψ插入到(5)中 (x0|)=atx0+b -1 (z|)= s Gau,2023)bt=expF)-1其中FN是正态分布的分位数函数。注意这个选择 -1 N(t|Pm,P2其中(Kingma&s tt zt=ut(zt|)= t 在 zt-bt( 在 在‑乙t )。 在BT (9) 化与均值Pm和方差P结果2 现在,考虑信噪比λt:=log 2 b 2 at。和 t λtN(-2Pm,(2Ps) 2 )对于tU(0,1) (15) 在 λ=2(‑乙t),我们可以将方程(9)重写为 t在BT ut(zt|)= at zt-在 bt 2λt (10) 网络通过F预测进行参数化(Kingma&Gao,2023;Karras等人,2022),并且损失可以写为LwEDM: t 电火花加 工重 =N(λt|-2Pm,(2Ps) 2 )(e -λt+0.52) (16) 接下来,我们使用方程(10)重新参数化方程(8)作为噪声预测量 目标: LCFM=Et,pt(z|),p()||vθ(z,t)- atbt λz+2at t||22 (11) Cosine(Nichol&Dhariwal,2021)提出了以下形式的前向过程 =Et,pt(z|),p()-λ2 2 BT t||θ(z,t)-||22(12) zt=cosπtx0+sinπt。 22 (17) 我们定义θ:= -2λ (vθ‑ tBT 在 z)。 在 与参数化和损失相结合,这对应于权重wt=sech(λt/2)。当与v预测损失相结合时(Kingma &Gao,2023),-λt/2权重由下式给出:wt=e 请注意,当引入时间相关加权时,上述目标的最优值不会改变。 因此,。 缩放整流流量变压器以实现高分辨率图像合成 d-1 (LDM‑)线性LDM(Rombach等人,2022)使用DDPM时间表的修改(Ho等 dtf模式(t)。 如图11所示,尺度参数控制采样过程中中点(正s)或端点(负 并去 人,2020)。两者都是方差保留计划,即bt=1-离散时间步长t=0的细s)的优先程度。该公式还包括s=0时的均匀加权πmode(t;s=0)=U(t),该公式 化,...。。。,扩散系数βt为at=(ts=0(1-βs)) 2 t, T-1表示 已在之前的整流流工作中广泛使用(Liuetal.,2022;Maetal.,2024))。 对于给定的边界值β0和βT‑1,βt=β0+ t T-1(βT-1-β0)且LDM使用βt= 2 DDPM用途 12。 β0+ t T-1(βT-1-β0)。 CosMap最后,我们还考虑RF设置中第3节的余弦时间表(Nichol&Dhariwal,2021)。 3.1.适用于RF模型的定制SNR采样器 RF损失在[0,1]中的所有时间步上均匀地训练速度vθ。然而,直观上,对于[0,1]中间的t,所 特别是,我们正在寻找映射f:u→f(u)=t,u∈[0,1],使得log‑snr与余弦cos(πu)时间表相匹配:2logf(你)。求解f,我们u) 得到的速度预测目标-x0更困难,因为对于t