您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:MetaMovieGen的论文告诉我们什么? - 发现报告
当前位置:首页/行业研究/报告详情/

MetaMovieGen的论文告诉我们什么?

信息技术2024-10-19杨烨、李宇轩财通证券郭***
AI智能总结
查看更多
MetaMovieGen的论文告诉我们什么?

Movie Gen:音视频两手抓,模型效果亮眼。2024年10月4日,Meta团队发布论文《Movie Gen: A Cast of MediaFoundation Models》,介绍了一系列基础模型Movie Gen,该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着Meta正式进入视频生成赛道,与Sora、Pika、Runway等进行竞争。Meta通过扩大训练数据、计算资源和模型参数,使用Flow Matching(流匹配)方法训练的Transformer模型,打造Movie Gen的2种基础模型:Movie Gen Video(300亿参数)和Movie Gen Audio(130亿参数),生成高质量的视频或音频。基于Movie Gen Video基础模型进一步训练与微调后,得到可以生成可个性化视频的Personalized Movie Gen Video模型和可精确编辑视频的Movie Gen Edit。 多模态大模型架构与训练方法持续创新,向实现应用落地大幅迈进。 Movie Gen系列模型打开创意生成与创意编辑市场AI应用落地的新的想象空间,“文本控制生成”的方式将逐步融入创意工作流,“文本+UI”并存的模式将长期持续;模型架构创新尚无止境,“流匹配+最优传输+纯Transformer”生成效率、质量均优于DiT;对于多模态大模型预训练或是微调,高质量的数据及处理起到决定性作用;未来在模型训练方面,获得更多的算力基础依然是必不可少的,而架构等技术创新有望持续提升训练效率和生成质量,两者并不矛盾。 投资建议:Scaling Law持续发挥效力,建议关注:英伟达、AMD、博通、Vertiv、美光、Oracle、微软、海光信息、协创数据、中科曙光、浪潮信息、英维克、神州数码等;音视频创意类赛道依然大有可为,建议关注Adobe、万兴科技、美图公司等。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险 1Movie Gen:音视频两手抓,模型效果亮眼 2024年10月4日,Meta团队发布论文《Movie Gen: A Cast of MediaFoundation Models》,介绍了一系列基础模型Movie Gen,该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着Meta正式进入视频生成赛道,与Sora、Pika、Runway等进行竞争。Meta通过扩大训练数据、计算资源和模型参数,使用Flow Matching(流匹配)方法训练的Transformer模型,打造Movie Gen的2种基础模型:Movie Gen Video(300亿参数)和Movie Gen Audio(130亿参数),生成高质量的视频或音频。基于Movie Gen Video基础模型进一步训练与微调后,得到可以生成可个性化视频的Personalized Movie Gen Video模型和可精确编辑视频的Movie Gen Edit。 Movie GenVideo(视频生成模型):基础文生视频功能 这是一个300亿参数的基础模型,用于联合文本到图像、文本到视频的生成,输入prompt可以生成长达16秒(每秒16帧)且符合文本提示的高质量视频。它基于Transformer架构,采用了LLaMa3的骨干结构,并进行了一些适应性调整。该模型在约1亿个视频和10亿张图像上进行预训练,预训练模型可以推理物体运动、主体-客体交互、几何、相机运动和物理学,并学习各种概念的合理运动,自然地生成多种宽高比、可变分辨率、不同时长的高质量图像和视频。 图1.Text-to-Video功能示例 Movie Gen Audio(音频生成模型):生成匹配视频环境的音频 这是一个130亿参数的基础模型,用于视频和文本到音频的生成,遵循输入的文本提示,可以生成48kHz高质量的电影音效并实现和视频画面同步的音乐。它采用了扩散Transformer(DiT)架构,并基于Flow Matching(流匹配)进行训练。 该模型在约100万小时的音频上预训练,通过音频延伸技术可以为长达几分钟的视频生成连贯的长音频。它不仅学习了物理关联,还学习了视觉和音频世界之间的心理关联,可以生成与视觉场景匹配的环境音,以及与视觉动作同步的声音效果。 图2.Video-to-Audio功能示例 Video Personalization(个性化视频):演你所想,人人都是主角 视频个性化根据文本和用户的形象生成以用户为主角的视频。生成的个性化视频保持了用户的身份,同时遵循文本提示。模型训练使用包含人类的视频子集,自动构建图像与文本输入和视频输出对。训练过程包括预训练和后训练阶段,预训练在原始的Movie Gen Video模型基础上进行,后训练则针对个性化视频生成进行优化。 图3.Video Personalization and Consistency功能示例 Instruction-Guided Precise Video Editing(指令引导下的精确视频编辑):视频版PS时代到来 视频精准编辑功能允许用户使用文本指令对原视频或生成视频进行精确编辑,包括风格和细节。由于在视频编辑方面缺乏大规模监督数据,Movie Gen团队采用多阶段的训练方法,将视频生成与先进的图像编辑功能结合起来,既能进行局部编辑也能全局更改,比如添加、移除或替换元素,以及背景或风格修改。传统编辑工具对使用者要求较高,且生成结果缺乏精度,而Movie Gen在进行局部或全局更改时,能够保留原始内容,仅针对相关像素进行操作。 图4.Instruction-Guided Precise Editing功能示例 2Meta四个模型的原理与训练方法 2.1视频生成模型:创新模型架构实现高效训练 Movie Gen Video训练过程分为三个主要步骤: 低分辨率T2I(Text to Image文本到图像)预训练:在低分辨率(256px)图像数据集上进行预训练,让模型学会基本的文本到图像的生成能力,并形成对基础视觉元素的理解。 联合低分辨率图像和视频预训练:通过同时训练文本到图像和文本到视频的任务,模型可以在相同的框架中生成图像和视频,从而共享视觉和时间建模能力,有助于模型在处理时间维度时,更好地捕获视频的运动特征。 高分辨率微调:模型在高质量的视频数据集上进行微调,以提高视频生成的质量。模型逐步提高视频的空间分辨率(从256px提升到768px),并进行针对性的优化,有助于提高生成视频的细节水平和视觉质量,使生成的视频更加逼真、连贯。 图5.Movie Gen Video的训练方法 创新模型训练架构,TAE+Flow Matching+Transformer提升训练和推理效率。 Meta训练了一个单一的时间自动编码器模型(TAE,Temporal Autoencoder)来将图像和视频映射到时空压缩的潜在空间(spatiotemporallycompressed latent space)中,使用预训练的文本编码器对输入文本进行编码,以获得文本提示嵌入。Meta使用流匹配(FM,Flow Matching)训练方法,以采样噪声和用户文本作为输入,最终通过TAE解码器将其映射回像素空间并生成图像或视频。过去的主干网络以DiT(扩散Transformer)为主,而Meta使用了LLaMa3(Transformer)结构。训练过程对文本提示的处理分为三个部分: UL2(统一语言学习范式,Unifying Language Learning Paradigms):可构建一种独立于模型架构以及下游任务类型的预训练策略(自监督目标),可以灵活地适配不同类型的下游任务。使用大量纯文本数据进行训练,提供了强大的文本推理能力。 Long-prompt MetaCLIP:通过对较长文本标题的MetaCLIP文本编码器进行微调,将输入文本token长度从77增加到256。提供了与视觉对齐的文本表示,有利于跨模态生成。 ByT5(Byte-to-byteText-to-Text Transfer Transformer):基于T5架构的预训练字节级Transformer(不再处理token,而直接作用于文本字节或字符),对噪声的鲁棒性更强,对拼写和发音敏感的任务上表现更好。 图6.联合图像与视频的生成流程 硬件与基础设施:使用多达6144个H100 GPU来训练多模态模型,每个GPU都运行在700W TDP,配备80GB HBM3,使用Meta的Grand Teton AI服务器平台进行训练。每个服务器内有8个GPU,通过NVSwitches均匀连接。 服务器之间的GPU通过400Gbps RoCE RDMA NICs连接。训练任务由Meta的全球规模训练调度程序MAST进行调度。 与大语言模型的比较:与大型语言模型(LLM)使用结构化因果注意力掩码来强制token的因果性不同,Movie Gen Video使用的全双向注意力(full bi-directional attention),其核心优势在于其能够双向交互,增强模型对上下文的理解深度。这种机制不仅允许模型在编码器和解码器之间双向流动,而且还能够更精确地聚焦于问题相关的文段部分,从而显著提升了机器理解自然语言的能力。此外,LLaMa3使用分组查询注意力(GQA)代替多头注意力(MHA),这减少了K-头和V-头的数量,从而减少了键(Key)和值(Value)投影的总维度。这不仅减少了FLOPs和张量内存大小,还提高了内存带宽利用率。 模型并行方法:LLaMa3训练分为不同上下文长度的阶段。由于模型规模大、上下文长度极长,需要使用多种并行性来实现高效训练。Meta采用3D并行性来支持模型在参数量、输入token和数据集大小三个维度上的扩展,同时允许水平扩展到更多的GPU。Meta利用了完全分片的数据并行性、张量并行性、序列并行性和上下文并行性。 图7.Movie Gen Video Transformer模型骨干和模型并行应用 TAE用于将RGB像素空间的视频和图像编码,进入时空压缩的潜在空间中学习,通过优化目标函数,提高生成质量和效率。TAE基于变分自动编码器(VAE,采用变分推断的用于降维、数据压缩和生成的神经网络),通过在2D空间卷积后加入1D时间卷积,使得模型能够更好地处理视频的时间维度。TAE将输入的各个时空维度(T时间、H高度、W宽度)压缩8倍,从而减少Transformer核心网络的整体序列长度,使其能够生成长时间和高分辨率的视频。TAE的目标函数在标准的重建损失之外增加了一个惩罚项,用于对远离均值的潜在值进行惩罚,从而限制模型生成高范数潜在点(high-norm latent dots),防止模型过度依赖局部高范数(范数用于衡量矩阵的“距离”、“长度”或者“大小”)信息而影响全局的学习,以解决生成视频时出现的“斑点”伪影问题。这种设计使得生成的视频在视觉上更加自然和一致,从而显著提高了重建质量和生成效果。 图8.使用TAE模型编码和解码不同长度的视频 原始视频和通过TAE编解码后的重构样本对比,发现TAE可以在保留视觉细节的情况下重建视频帧。对于图像和视频帧中的高频空间细节,以及视频中的快速运动,TAE的重建质量会下降。将经过8倍时间压缩的TAE模型与未经过时间压缩的帧自动编码器(Frame-wiseAutoEncoder)比较,视频数据在结构相似度(SSIM)、峰值信噪比(PSNR)、初始距离(FID)表现相当,图像数据方面TAE优于帧自动编码器。 图9.真实视频(左)和TAE重建视频(右),以及TAE重建指标对比 Movie Gen采用流匹配(FlowMatching)作为训练目标,避免了传统扩散模型中的逐步去噪过程,而是通过找到生成空间中从