您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Meta]:如何生成更好的视频图 ? Meta & MIT 更新《流配配(流匹配 , FM) 》 - 发现报告

如何生成更好的视频图 ? Meta & MIT 更新《流配配(流匹配 , FM) 》

文化传媒2024-11-09-MetaJ***
AI智能总结
查看更多
如何生成更好的视频图 ? Meta & MIT 更新《流配配(流匹配 , FM) 》

Yaron Lipman1,Marton Havasi1,彼得 · 霍尔德里斯2,Neta Shaul3,马特 · 勒1,布莱恩 · 卡雷尔1, Ricky T. Q. Chen1,大卫 · 洛佩兹 - 帕兹1,Heli Ben - Hamu3,Itai Gat11在 Meta 的公平 ,2 MIT CSAIL,3魏茨曼科学研究所 流匹配(Flow Matching, FM)是一种近期提出的生成模型框架,在图像、视频、音频、语音以及生物结构等多个领域取得了最先进的性能。本指南提供了对FM的全面且自包含的回顾,涵盖了其数学基础、设计选择及其扩展。此外,还提供了包含相关示例的PyTorch包()。e.g., 图像和文本生成),本研究旨在为既 novice 又 experienced 的研究人员提供资源,帮助他们理解、应用并进一步发展 FM(假设此处 FM 代表相应的领域术语)。 日期 : 2024 年 12 月 10 日 代码 : flow _ matching 库 , 位于 https: / / github. com / facebookresearch / flow _ matching Contents 1 Introduction 2 快速游览和关键概念 4 3 流动模型 3.1 随机向量............................................83.2 条件密度和期望值...............................83.3 异形和推进图..............................93.4 作为生成模型的流动..................................... 103.5 概率路径和连续性方程.......................... 133.6 变量的瞬时变化................................. 143.7 带仿真的训练流模型................................ 15 4 流量匹配 arXiv: 2412.06264 v1 [cs. LG] 2024 年 12 月 9 日4.1 Data.................................................. 164.2 构建概率路径...................................... 164.3 产生速度场的推导................................. 174.4 一般条件和边际化技巧........................ 184.5 流量匹配损失.......................................... 194.6 用条件流求解条件生成....................... 214.7 最优运输和线性条件流........................... 254.8 仿射条件流........................................ 264.9 数据耦合............................................ 314.10 条件生成和指导................................ 33 5 非欧几里得流匹配 35 5.1 黎曼流形........................................ 355.2 流形上的概率、流量和速度.......................... 355.3 流形上的概率路径................................... 365.4 流形的边际化技巧.............................. 365.5 黎曼流匹配损失................................... 375.6 通过预度量的条件流................................ 37 6 连续时间马尔可夫链模型 406.1 离散状态空间和随机变量............................ 406.2 CTMC 生成模型.................................... 406.3 概率路径与 Kolmogorov 方程............................ 41 7 离散流匹配 42 7.1 数据和耦合.......................................... 427.2 离散概率路径...................................... 427.3 边际化把戏...................................... 427.4 离散流匹配损失..................................... 437.5 因子化路径和速度................................... 44 8 连续时间马尔可夫过程模型 52 8.1 一般状态空间和随机变量............................. 528.2 CTMP 生成模型.................................... 528.3 概率路径与 Kolmogorov 方程............................ 578.4 通用表示定理.................................. 61 9 发电机匹配 62 9.1 数据与耦合.......................................... 629.2 一般概率路径...................................... 629.3 通过神经网络对生成器进行参数化......................... 629.4 边际生成器和条件生成器................................ 649.5 发电机匹配损耗....................................... 659.6 寻找条件生成器作为 KFE 的解决方案...................... 669.7 组合模型.......................................... 689.8 多模态模型.......................................... 70 10 与扩散和其他去噪模型的关系 10.1 时间约定........................................... 7110.2 正向过程与概率路径............................... 7110.3 训练扩散模型...................................... 7210.4 采样............................................... 7310.5 时间逆转的作用和向后过程........................ 7410.6 与其他去噪模型的关系................................. 75 一个额外的证明 A.1 离散质量守恒..................................... 81A.2 流形边际化把戏................................... 82A.3 KFE 的规律性假设.................................. 82 t00≤t≤11 一个连续状态空间,连续状态空间中的扩散过程,连续状态空间中的跳跃过程(密度通过等高线可视化),以及离散状态空间中的跳跃过程(状态表示为圆盘,概率通过颜色可视化)。 1 Introduction 流量匹配 (FM) (Lipman 等人。,2022;Albergo 和 Vanden - Eijnden,2022;Liu et al.,2022生成模型框架的一个基本框架,它在多个领域和大规模应用中推动了最先进的技术,包括图像生成。Esser等人。,2024) 、视频 (Polyak 等人。,2024) 、演讲 (Le et al.,2024) 、音频 (Vyas 等人。,2023) 、蛋白质 (Huguet 等人。,2024) 和机器人 (布莱克等人。,2024). 本文档及其附带的代码库有两个主要目标。首先,作为Flow Matching的全面且自包含参考,详细说明其设计选择以及研究社区开发的各种扩展。其次,帮助新手快速采用并在此基础上构建Flow Matching以应用于自己的场景。 流动匹配框架基于学习一个速度场(也称为向量场)。每个速度场定义了一个flowψ通过在称为模拟的过程中求解常微分方程(ODE) 。 At 流是确定性的、时间连续的双射变换d- 维欧几里得空间 ,d. The流匹配的 R 目标是构建一个转换样本的流X ∼p从源分布中提取0 模型被引入机器学习社区 (Chen et al.,2018;Grathwohl 等人。,2018) 作为连续归一化流 (CNF)。最初 , 通过最大化似然性来训练流p(X)1 训练实例X, 导致在训练过程中需要模拟及其差异化。由于1 由此产生的计算负担 , 后来的作品试图在没有模拟的情况下学习 CNF (Rozen 等人。,2021;Ben - Hamu 等人。,2022) , 演变成现代的流量匹配算法 (Lipman 等人。,2022;Liu et al., 2022;Albergo 和 Vanden - Eijnden,2022;Neklyudov 等人。,2023;海茨等人。,2023;Tonget al.,2023). 生成的框架是一个包含两个步骤的配方 (Lipman 等人。,2022), see图 2: 首先 ,选择概率路径p源之间的插值p和目标q分布。第二 , 训练速度t定义流转换的字段(神经网络)ψ实施p.ttFM 的原理可以扩展到状态空间S除了d甚至是进化过程R 不流动。最近 ,离散流匹配(坎贝尔等人。,2024;Gat 等人。,2024针对离散状态空间上的时间连续马尔科夫过程(也称为连续时间马尔科夫链CTMC),本文开发了一种流匹配算法,详细信息见图 1c.这一进展为在离散生成任务如语言建模中使用Flow Matching开启了令人兴奋的可能性。黎曼流匹配(陈和利普曼, 2024) 将流量匹配扩展到黎曼流形上的流量S=M那是现在化学领域中机器学习应用(如蛋白质折叠) 的各类先进模型的标准方法。Yim 等人。,2023;Bose 等人。,2023) 。更普遍的是 ,发电机匹配(Holderrieth et al.,2024) 表明流匹配框架 适用于任何模态和一般连续时间马尔可夫过程 (CTMP) 包括 , 如图 1,流量,扩散, and跳跃过程在连续空间中,除了离散空间中的CTMC之外。值得注意的是,对于任何这样的CTMP,Flow Matching的方法保持不变,即:首先,选择一条路径p插值源p和目标q在相关状态空间上S第二,t 火车 a发电机, 它与流的速度起着类似的作用 , 并定义了实现 CTMP 流程p。流匹配的这种概括使我们能够以统一的方式看到许多现有的生成模型t 并使用选择的生成马尔可夫过程为任何模态开发新的生成模型。 按时间顺序,扩散模型是第一个开发 CTMP 过程的无模拟训练 , 即扩散过程 ,图 1b。扩散模型最初是作为离散时间高斯过程 (Sohl - Dickstein 等人。,