您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:MetaMovieGen的论文告诉我们什么? - 发现报告
当前位置:首页/行业研究/报告详情/

MetaMovieGen的论文告诉我们什么?

信息技术2024-10-20杨烨、李宇轩财通证券郭***
AI智能总结
查看更多
MetaMovieGen的论文告诉我们什么?

投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 上证指数 20% 10% -1% -12% -23% -34% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 分析师李宇轩 SAC证书编号:S0160524080001 liyx02@ctsec.com 相关报告 1.《智驾月报:补贴政策见效,网联化推进》2024-10-17 2.《十大不容忽视的数据要素新政细节》2024-10-16 3.《特斯拉发布Cybercab,预期三年内量产》2024-10-13 MovieGen:音视频两手抓,模型效果亮眼。2024年10月4日,Meta团队发布论文《MovieGen:ACastofMediaFoundationModels》,介绍了一系列基础模型MovieGen,该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着Meta正式进入视频生成赛道,与Sora、Pika、Runway等进行竞争。Meta通过扩大训练数据、计算资源和模型参数,使用FlowMatching(流匹配)方法训练的Transformer模型,打造MovieGen的2种基础模型:MovieGenVideo(300亿参数)和MovieGenAudio(130亿参数),生成高质量的视频或音频。基于MovieGenVideo基础模型进一步训练与微调后,得到可以生成可个性化视频的PersonalizedMovieGenVideo模型和可精确编辑视频的MovieGenEdit。 多模态大模型架构与训练方法持续创新,向实现应用落地大幅迈进。MovieGen系列模型打开创意生成与创意编辑市场AI应用落地的新的想象空间,“文本控制生成”的方式将逐步融入创意工作流,“文本+UI”并存的模式将长期持续;模型架构创新尚无止境,“流匹配+最优传输+纯Transformer”生成效率、质量均优于DiT;对于多模态大模型预训练或是微调,高质量的数据及处理起到决定性作用;未来在模型训练方面,获得更多的算力基础依然是必不可少的,而架构等技术创新有望持续提升训练效率和生成质量,两者并不矛盾。 投资建议:ScalingLaw持续发挥效力,建议关注:英伟达、AMD、博通、Vertiv、美光、Oracle、微软、海光信息、协创数据、中科曙光、浪潮信息、英维克、神州数码等;音视频创意类赛道依然大有可为,建议关注Adobe、万兴科技、美图公司等。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险 计算机/行业专题报告/2024.10.20 MetaMovieGen的论文告诉我们什么? 请阅读最后一页的重要声明! 内容目录 1MovieGen:音视频两手抓,模型效果亮眼4 2Meta四个模型的原理与训练方法6 2.1视频生成模型:创新模型架构实现高效训练6 2.2音频生成模型:生成与画面和情绪匹配的动效声、环境声12 2.3个性化视频模型:用于生成特定人像的微调模型15 2.4可编辑视频模型:无需大量监督视频数据实现模型训练17 3Meta论文发布带来的四点启示19 4投资建议21 5风险提示21 图表目录 图1.Text-to-Video功能示例4 图2.Video-to-Audio功能示例5 图3.VideoPersonalizationandConsistency功能示例5 图4.Instruction-GuidedPreciseEditing功能示例6 图5.MovieGenVideo的训练方法7 图6.联合图像与视频的生成流程8 图7.MovieGenVideoTransformer模型骨干和模型并行应用9 图8.使用TAE模型编码和解码不同长度的视频9 图9.真实视频(左)和TAE重建视频(右),以及TAE重建指标对比10 图10.流匹配+最优传输方法的训练效果更好11 图11.流匹配+最优传输方法可获得最低的求解误差与最高的样本质量11 图12.MovieGenVideo中的关键设计决策11 图13.MovieGenVideo效果与其他模型对比12 图14.相同Prompt下,MovieGenVideo与其他模型生成视频对比12 图15.MovieGenAudio展开示意图13 图16.MovieGenAudio模型示意图14 图17.生成声音效果模型对比15 图18.个性化MovieGenVideo的架构与推理流程16 图19.PT2V模型与ID-Animator、T2V的对比16 图20.将文本到视频模型扩展到视频编辑17 图21.第二阶段:多帧编辑示例18 图22.第三阶段:基于反向翻译的视频编辑18 图23.与TGVE+和MovieGenEditBench基准上的视频编辑模型的比较19 1MovieGen:音视频两手抓,模型效果亮眼 2024年10月4日,Meta团队发布论文《MovieGen:ACastofMediaFoundationModels》,介绍了一系列基础模型MovieGen,该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着Meta正式进入视频生成赛道,与Sora、Pika、Runway等进行竞争。Meta通过扩大训练数据、计算资源和模型参数,使用FlowMatching(流匹配)方法训练的Transformer模型,打造MovieGen的2种基础模型:MovieGenVideo(300亿参数)和MovieGenAudio(130亿参数),生成高质量的视频或音频。基于MovieGenVideo基础模型进一步训练与微调后,得到可以生成可个性化视频的PersonalizedMovieGenVideo模型和可精确编辑视频的MovieGenEdit。 MovieGenVideo(视频生成模型):基础文生视频功能 这是一个300亿参数的基础模型,用于联合文本到图像、文本到视频的生成,输入 prompt可以生成长达16秒(每秒16帧)且符合文本提示的高质量视频。它基于Transformer架构,采用了LLaMa3的骨干结构,并进行了一些适应性调整。该模型在约1亿个视频和10亿张图像上进行预训练,预训练模型可以推理物体运动、主体-客体交互、几何、相机运动和物理学,并学习各种概念的合理运动,自然地生成多种宽高比、可变分辨率、不同时长的高质量图像和视频。 图1.Text-to-Video功能示例 注:分别输入文本提示“一只穿着芭蕾舞裙的豪猪,在舞台上跳芭蕾舞”、“骑手疾驰在洛杉矶的街头。摄像机追踪镜头”、“消防员穿越燃烧的森林” 数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,财通证券研究所 MovieGenAudio(音频生成模型):生成匹配视频环境的音频 这是一个130亿参数的基础模型,用于视频和文本到音频的生成,遵循输入的文本提示,可以生成48kHz高质量的电影音效并实现和视频画面同步的音乐。它采用了扩散Transformer(DiT)架构,并基于FlowMatching(流匹配)进行训练。该模型在约100万小时的音频上预训练,通过音频延伸技术可以为长达几分钟的视频生成连贯的长音频。它不仅学习了物理关联,还学习了视觉和音频世界之间的心理关联,可以生成与视觉场景匹配的环境音,以及与视觉动作同步的声音效果。 图2.Video-to-Audio功能示例 注:分别输入文本提示“当人撞击水面时,水花声和巨大的砰击声”;“巨大的雷声,背景音乐暗黑且紧张” 数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,财通证券研究所 VideoPersonalization(个性化视频):演你所想,人人都是主角 视频个性化根据文本和用户的形象生成以用户为主角的视频。生成的个性化视频保持了用户的身份,同时遵循文本提示。模型训练使用包含人类的视频子集,自动构建图像与文本输入和视频输出对。训练过程包括预训练和后训练阶段,预训练在原始的MovieGenVideo模型基础上进行,后训练则针对个性化视频生成进行优化。 图3.VideoPersonalizationandConsistency功能示例 注:提供一个人的图像;分别输入文本提示“一个科学家拿着试管做实验”、“一个人放飞灯笼”“一个人在动物园喂羊驼” 数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,财通证券研究所 Instruction-GuidedPreciseVideoEditing(指令引导下的精确视频编辑):视频版PS时代到来 视频精准编辑功能允许用户使用文本指令对原视频或生成视频进行精确编辑,包括风格和细节。由于在视频编辑方面缺乏大规模监督数据,MovieGen团队采用多阶段的训练方法,将视频生成与先进的图像编辑功能结合起来,既能进行局部编辑也能全局更改,比如添加、移除或替换元素,以及背景或风格修改。传统编辑工具对使用者要求较高,且生成结果缺乏精度,而MovieGen在进行局部或全局更改时,能够保留原始内容,仅针对相关像素进行操作。 图4.Instruction-GuidedPreciseEditing功能示例 注:在原视频的基础上,输入文本提示:在灯笼底部添加彩带、将灯笼变成一个上升的泡泡、将背景更改为带有湖泊的城市公园 数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,财通证券研究所 2Meta四个模型的原理与训练方法 2.1视频生成模型:创新模型架构实现高效训练 MovieGenVideo训练过程分为三个主要步骤: 低分辨率T2I(TexttoImage文本到图像)预训练:在低分辨率(256px)图像数据集上进行预训练,让模型学会基本的文本到图像的生成能力,并形成对基础视觉元素的理解。 联合低分辨率图像和视频预训练:通过同时训练文本到图像和文本到视频的任务,模型可以在相同的框架中生成图像和视频,从而共享视觉和时间建模能力,有助于模型在处理时间维度时,更好地捕获视频的运动特征。 高分辨率微调:模型在高质量的视频数据集上进行微调,以提高视频生成的质量。模型逐步提高视频的空间分辨率(从256px提升到768px),并进行针对性的优化,有助于提高生成视频的细节水平和视觉质量,使生成的视频更加逼真、连贯。 图5.MovieGenVideo的训练方法 数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,财通证券研究所 创新模型训练架构,TAE+FlowMatching+Transformer提升训练和推理效率。Meta训练了一个单一的时间自动编码器模型(TAE,TemporalAutoencoder)来将图像和视频映射到时空压缩的潜在空间(spatiotemporallycompressedlatentspace)中,使用预训练的文本编码器对输入文本进行编码,以获得文本提示嵌入。Meta使用流匹配(FM,FlowMatching)训练方法,以采样噪声和用户文本作为输入,最终通过TAE解码器将其映射回像素空间并生成图像或视频。过去的主干网络以DiT(扩散Transformer)为主,而Meta使用了LLaMa3(Transformer)结构。训练过程对文本提示的处理分为三个部分: UL2(统一语言学习范式,UnifyingLanguageLearningParadigms):可构建一种独立于模型架构以及下游任务类型的预训练策略(自监督目标),可以灵活地适配不同类型的下游任务。使用大量纯