您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[字节跳动]:豆包大模型团队:2025年Seedream 3.0 文生图模型技术报告 - 发现报告

豆包大模型团队:2025年Seedream 3.0 文生图模型技术报告

2025-04-20-字节跳动邵***
AI智能总结
查看更多
豆包大模型团队:2025年Seedream 3.0 文生图模型技术报告

字节跳动种子轮 摘要 我们推出了Seedream 3.0,这是一个高性能的中文-英文双语图像生成基础模型。我们针对Seedream 2.0中存在的挑战,开发了几项技术改进,包括与复杂提示的匹配、细粒度字体生成、次优的视觉效果和真实度以及有限的图像分辨率。具体来说,Seedream 3.0的进步源于整个流程的改进,从数据构建到模型部署。在数据层,我们使用缺陷感知训练范式和双轴协作数据采样框架将数据集翻倍。此外,在预训练阶段,我们采用了混合分辨率训练、跨模态RoPE、表示对齐损失和分辨率感知时间步采样等有效技术。在训练后阶段,我们利用多样化的审美标题进行强化学习,并采用基于VLM的奖励模型以及缩放,从而实现与人类偏好高度一致的结果。此外,Seedream 3.0开创了一种新颖的加速范式。通过采用一致的噪声期望和重要性感知时间步采样,我们在保持图像质量的同时实现了4到8倍的速度提升。Seedream 3.0与Seedream 2.0相比取得了显著改进:它增强了整体能力,特别是在复杂汉字的文本渲染方面,这对于专业字体生成非常重要。此外,它提供原生高分辨率输出(高达2K),使其能够生成具有高视觉质量的图像。 目录 1 简介 ................................................ 4 2.1 数据.................................................. 52.2 模型预训练.......................................... 52.2.1 模型架构..................................... 52.2.2 模型训练细节................................... 62.3 模型训练后......................................... 72.3.1 美学标题...................................... 72.3.2 模型训练详情................................... 72.3.3 奖励模型扩展.................................... 72.4 模型加速.......................................... 7 3 模型性能 3.1 人工分析领域....................................... 83.2 综合评估...................................... 93.2.1 人工评估...................................... 93.2.2 自动评估.................................... 103.3 文本渲染............................................ 123.4 真实感肖像........................................ 143.5 与 GPT-4o 的比较...................................... 163.5.1 密集文本渲染.................................... 163.5.2 图片编辑......................................... 163.5.3 生成质量...................................... 18 A.1 核心贡献者.......................................... 22A.2 贡献者............................................. 22 1 引言 近期在扩散模型方面的进展【3,8,10,18,21我已经重塑了图像生成的格局,将生成能力推向前所未有的高度。最近,Seedream 2.0 的推出标志着双语文本到图像生成的一个重大里程碑,展示了在捕捉中文语言细微差别和文化语义方面的卓越性能。然而,我们的全面评估确定了几个可能阻碍其广泛商业应用的关键挑战。 •与复杂的提示相一致。可以进一步优化提示信息,尤其是在数值精度和多目标空间关系方面。 •精细的字体生成Seedream 2.0 在生成高保真小型文本字符、多行上下文组合以及复杂的排版细节方面仍有限制。 •子优的视觉美观度和忠实度捕捉细腻的美学品质,如电影场景的美丽和肖像的质感,依然具有挑战性。 •有限的图像分辨率基础模型限制原生输出到小分辨率(例如,512)×512像素,需要依赖后处理超分辨率管道。 我们的方法引入了四个关键的技术改进。首先,在数据层,我们通过使用一种基于两个正交轴(图像聚类分布和文本语义一致性)的新动态采样机制,在提高数据质量的同时,大约将数据集的大小翻了一番。其次,在预训练阶段,我们纳入了多种高效的训练方法,包括:i)混合分辨率训练,ii)跨模态RoPE,iii)表示对齐损失,iv)分辨率感知的时间步长采样。这有助于提高可扩展性和泛化能力,从而实现更好的视觉-语言对齐。第三,在训练后,我们利用SFT中的多样化美学标题和基于VLM的奖励模型来进一步提高模型的整体性能。最后,在模型加速方面,我们通过一致的噪声期望鼓励稳定采样,有效减少了推理过程中的函数评估次数(NFE)。 与Seedream 2.0相比,Seedream 3.0在多个维度上显示出显著的进步: •全面能力提升。展现了强烈的用户偏好以及在关键能力方面的显著进步,包括文本图像对齐、组成结构、审美质量和文本渲染。 •增强的文本渲染性能实现显著提升的文本渲染性能,尤其在生成中英文小号字体和具有高美感的长文本布局方面表现出色。Seedream 3.0代表了针对小文本生成和美观长文本编排挑战的先锋解决方案,在图形设计输出方面超越了Canva等平台的人设计模板。 •美学改进图像美学质量显著提升,在电影场景中表现出卓越的性能,并在人像生成中增强了现实感。 •原生高分辨率输出提供对2K分辨率输出的原生支持,消除了后期处理的需求。此外,兼容更高分辨率,并适应不同的纵横比。 •高效推理成本使用多种模型加速技术,Seedream 3.0 可以显著降低其推理成本,并且仅用 3.0 秒(不使用 PE)即可生成 1K 分辨率的图像,这比其他商业模型快得多。 Seedream 3.0于2025年4月初集成到多个平台,包括Doubao1并且 Jimeng 2我们衷心希望Seedream 3.0能成为提高工作和日常生活的各方面生产力的实用工具。 2 技术细节 2.1 数据 在Seedream 2.0中,我们采用了一种严格的数据过滤策略,系统地排除了显示轻微瑕疵的图像数据,包括水印、叠加文本、字幕和马赛克图案。这种严格的过滤协议显著限制了用于训练的数据量,特别是考虑到受影响的样本构成了原始数据集的相当一部分(约占总收藏量的35%)。为了解决这一限制,Seedream 3.0引入了一种创新的缺陷感知训练范式。该范式包括一个专门针对15,000个由主动学习引擎选择的、手动标注的样本进行训练的缺陷检测器。检测器通过边界框预测精确地定位缺陷区域。当检测到的缺陷总面积小于图像空间的20%(一个可配置的阈值)时,我们保留这些之前排除的样本,同时实施掩码潜在空间优化。具体来说,在潜在表示空间中的扩散损失计算过程中,我们采用空间注意力掩码机制来排除来自识别的缺陷区域的特征梯度。这种创新方法将有效训练数据集扩大了21.7%,同时保持了模型稳定性。 为了优化数据分布,我们提出了一种双轴协作数据采样框架,从视觉形态和语义分布的维度进行联合优化。在视觉模态中,我们继续使用分层聚类方法以确保不同视觉模式的平衡表示。在文本语义层面,我们通过词频和逆文档频率(TF-IDF)[19]), 有效解决描述性文本的长尾分布问题。为进一步增强数据生态系统的协调性,我们开发了一个跨模态检索系统,该系统为图像-文本对建立了一个联合嵌入空间。该系统在所有基准测试中均实现了最先进的性能。检索增强框架通过以下方法动态优化数据集:(1)通过目标概念检索注入专家知识;(2)通过相似度加权采样进行分布校准;(3)利用检索到的邻近对进行跨模态增强。 2.2 模型预训练 2.2.1 模型架构 我们的核心架构设计继承自Seedream 2.0 [4],采用了一种MMDiT[3] 处理图像和文本标记并捕捉两种模态之间的关系。我们已经增加了基础模型中的总参数,并在Seedream 3.0中引入了多项改进,从而提高了可扩展性、泛化能力和视觉-语言对齐。 混合分辨率训练。变压器[23原文本翻译如下:2在Seedream 3.0中,我们采用混合分辨率训练,在每个训练阶段将不同纵横比和分辨率的图像打包在一 起。具体来说,我们首先以256的平均分辨率对模型进行预训练。2(具有各种宽高比)然后在高分辨率图像上微调(来自5122到2048年2). 我们还采用尺寸嵌入作为额外条件,使模型能够意识到目标分辨率。混合分辨率训练显著增加了数据多样性,并提高了我们模型在未见分辨率上的泛化能力。 跨模态RoPE。在Seedream 2.0中,我们引入了Scaling RoPE技术,使我们的模型能够更好地泛化到未训练的宽高比和分辨率。在Seedream 3.0中,我们将这一技术扩展到跨模态RoPE,这进一步增强了视觉-文本标记的对齐。我们将文本标记视为具有形状[1 的二维标记。,L] 和应用一个二维 RoPE [22对于文本标记的列位置ID在对应的图像标记之后按顺序分配。Cross-modality RoPE有效地建模了内模态和外模态关系,这对于提高视觉-文本对齐和文本渲染精度至关重要。 图3 不同阶段的效应比较。 2.2.2 模型训练细节 培训目标。在Seedream 3.0中,我们采用流匹配[12,13] 训练目标,以及表示对齐损失(REPA [25]): 在何处我们使用线性插值。x= (1负号“−”和字母“t”)x+tϵ,ϵ∼ N(0,我)t0遵循常规做法[3,13]. 表示对齐损失被计算为我们的MMDiT中间特征与预训练视觉编码器DINOv2-L=−t+λL,E(x,C)∼D,t∼p(t;D),x∼ |θ t 特征之间的余弦距离[16], 与损失重量λ= 0.我们发现,引入表示对齐目标可以加速大规模文本到图像生成的收敛。REPAp(x x)0t t t 0dt2 时间步长采样感知解如方程( 所示:1), 时间步长是从一个分布中采样的p(t;D)适应数据集的D类似[3], 我们首先从对数正态分布中采样,然后根据训练分辨率进行时间 步长偏移。一般来说,在更高分辨率上训练时,我们将分布偏移以增加在较低信噪比下的采样概率。在训练过程中,我们计算数据集的平均分辨率D为了确定时间步长分布的偏移。在推理过程中,我们根据所需的分辨率和宽高比计算偏移因子。 卡通风格的营销海报,标题为“夏日欢乐季”。画面展示了一对卡通人物坐在湖边椅子上,背景是蓝天白云和湖面,右侧有一个装饰有灯串的帐篷,旁边摆放着饮料、零食和购物袋等物品,营造出轻松愉快的夏日氛围。配色以蓝色、绿色为主,搭配黄色点缀,整体色调明亮清新,氛围轻松愉悦。标题位于画面上方中央,使用白色手写体,搭配黄色线条装饰。标题上方是黄色手写体书写的英文标题,下方白底黄字写着宣传语“抽一分钱,夏日快乐大礼包”,画面顶部中央有主办方标志,画面底部写着活动信息、宣传语“出门过夏天超值好物省心选和电商标识。 2.3 模型训练后 与Seedream 2.0 相似 [4], 我们的后训练过程包括以下阶段:持续训练(CT)、监督微调(SFT)、人类反馈对齐(RLHF)和提示工