行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

传媒Sora发布有望加速AI视频技术迭代进程，持续关注AI应用的商业化落地

文化传媒 2024-03-11 德邦证券申明华

本报告对传媒互联网行业进行了分析，主要关注了Sora视频模型的发布和应用。Sora在一致性方面取得了突破，可以生成摄像机动态运动的视频，并且能够模拟短距离和长距离依赖关系。此外，Sora还能够模拟一些基本交互的物理现象。技术层面，Sora在Diffusion基础上，以Transformer替代传统U-Net架构或进一步提升效果。Transformer的优势在于可以保留原生视频尺寸，生成的视频可以兼容不同的设备类型。高质量数据也是Sora性能提升的关键因素，包括引入re-captioning技术和大量生成合成数据作为训练集。最后，本报告指出，Sora的发布有望加速AI视频技术迭代进程，持续关注AI应用的商业化落地。

从Sora效果来看，“一致性”迎来突破，“真实性”有望增强。2023年，基于Diffusion的视频生成模型密集发布，例如Gen-2、Pika、SVD等，但主要的瓶颈在于一致性，生成的人物和场景无法在每一帧中保持一致，因此应用落地有限。同时，模型单次生成的视频时长最长为18秒，虽然支持通过预测延长视频，但延长后的视频通常缺乏一致性和逻辑性。根据Sora发布的Demo，模型在一致性方面获得巨大突破。1）3D一致性：Sora可以生成摄像机动态运动的视频，随着摄像机的移动和旋转，人物和场景元素在3D空间中的移动会保持一致。2）长期连续性：Sora经常（并非总是）能够有效地模拟短距离和长距离依赖关系。例如，即使人、动物和物体被遮挡或离开画面，也能保持它们的存在。3）对象永恒性：Sora能在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。真实性方面，当与物理世界产生互动，Sora有时可以模拟一些影响世界状态的简单动作。例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续；或者一个人在吃一个汉堡时，留下咬痕。虽然目前Sora的模拟尚有局限，不能准确地模拟许多基本交互的物理现象，但我们认为未来有望不断趋近真实场景。技术层面，在Diffusion基础上，以Transformer替代传统U-Net架构或进一步提升效果。我们认为，Transformer的核心优势在于：1）训练数据兼容性提升。传统的U-Net架构对于视频的尺寸有限制，所有视频规格需统一，换言之，不可避免裁剪带来的信息丢失；而Transformer对于视频尺寸的兼容性更好，Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及两者之间的所有类型。优势在于，一是训练层面，保留原生视频尺寸，可以保持自然和连贯的视觉叙事，获得更好的效果；二是输出层面，生成的视频可以兼容不同的设备类型。为了将所有类型的视觉数据转换为统一的表示，Sora使用patches作为其表示方式，类似于LLM中的tokens。2）符合Scaling Law。Scaling Law的含义为，随着模型大小、数据集大小和用于训练的计算浮点数的增加，模型的性能会提高。在LLM的研究中，OpenAI已经论证过Transformer符合Scaling Law，因此将Transformer迁移到LVM中，视频模型亦可“大力出奇迹”。高质量数据是Sora性能提升的另一关键因素。一方面，OpenAI将DALL·E 3引入的re-captioning技术应用到视频中。一是训练一个高度描述性的标题模型，然后使用它为训练集中的所有视频生成文本标题，以此提高文本的准确性以及视频的整体质量。二是利用GPT将用户的简短Prompt转换为更详细的长标题，然后将其发送给视频模型，因此Sora可以准确地遵循用户的提示。另一方面，根据英伟达科学家Jim Fan推测，可能通过UE5等大量生成了合成数据作为训练集，以此获得模拟物理世界的能力。影视应用落地开启，国内AI动画已率先落地。2月26日晚间，国内首部文生视频AI动画片《千秋诗颂》在央视综合频道开播，从美术设计到动效生成，再到后期成片，该片均为AIGC辅助制作。技术方面，依托总台海量视听数据以及上海人工智能实验室的多项AI技术，包括视频生成大模型-书生·筑梦、文生视频框架-AnimateDiff及多项可控图像生成、图像驱动等技术。AI赋能后，制作效率提升3倍。根据团队描述，在同等预算条件下，按照传统动画制作流程计算，类似《千秋诗颂》这样的动画片，一个月只能做一集；现在一个月可以做三集。海外方面，AI生成作品已登陆银幕，应用工具逐步优化。3月6日，《终结者2》团队由50位AI领域艺术家组成，利用Midjourney、Runway、Pika、Kaiber、Eleven Labs、ComfyUi、Adobe等多个AIGC工具进行创作，不使用原电影中的任何镜头、对话或音乐，确保《Our T2 Remake》所有内容均为原创。以色列初创公司Lightricks发布了一款AI驱动的电影生成和剪辑软件——LTX Studio，通过文字就能直接生成复杂的剧情，包含语音、音效、视频画面。LTX Studio重新定义了视频制作的工作流，其中包括自动编写脚本工具、调整多镜头的场景控制工具、保证角色一致性的工具、摄像机控制、一键编辑等。公司将在3月27日正式上线该平台。我们认为，伴随技术层面模型的迭代和应用层面工作流的优化，AI在影视领域的可用性提升。然而，在当前技术节点，由于一致性问题尚未完全解决，对重要人物和场景事先建模或为中间阶段的最优解。同时，从专业影视角度，另一难点在于可控性，特别是针对镜头画面，例如镜头轨迹等。后续一致性、可控性的提升或是技术优化迭代的关键。建议关注相关受益标的：我们认为，1）AI生成视频领域进程加速，技术有望从“预览级”升级为“成品级”。建议关注AI视频技术与工具及落地应用场景相关公司：【万兴科技，昆仑万维，美图公司，汤姆猫，风语筑等】等。2）动画领域应用已落地，降本增效显著。我们认为AI时代动画领域的主要壁垒在于动画数据积累以及IP价值。建议关注IP类及动漫动画影视类素材和创意内容产出公司：【中文在线，汤姆猫，上海电影，光线传媒，奥飞娱乐，华策影视，果麦文化，荣信文化】等。3）广告营销电商素材等应用场景类受益公司，【因赛集团，蓝色光标，浙文互联，天龙集团，龙韵股份，青木股份，思美传媒等】。4）央国企持续投入AI传媒等，且有海量的视频内容素材和国有的媒体传播渠道。建议关注：【中视传媒，上海电影，芒果超媒，中广天择，国脉文化，中国电影，浙文影业】等。风险提示：行业竞争加剧；技术发展不及预期，应用落地不及预期等。

点击免费查看完整报告

传媒Sora发布有望加速AI视频技术迭代进程，持续关注AI应用的商业化落地

你可能感兴趣

传媒互联网行业2月报：Sora横空出世加速技术迭代，关注AI多模态技术迭代与应用落地

【风口研报·公司】跻身AI视频浪潮加速商业化落地，这家公司“多媒体大模型”能力曝光具备一键成片、AI美术设计、文生音乐等核心能力，有望跟随Adobe以“数据模型应用”AI技术栈构筑核心壁垒

传媒行业：AI生成3D技术加速迭代，关注国内应用映射及落地

传媒互联网行业11月报：Pika1.0内测效果惊艳，“AI+视频”或开启加速迭代，关注应用落地

通信行业周报：生成式视频应用Sora强势推出，AIGC落地进程加速

传媒行业周观察：OpenAI发布Sora2和Sora APP，AI视频模型迎里程碑进展；看好AI应用方向

传媒行业分析报告：OpenAI发布Sora，AI视频技术巨大突破

【财联社早知道】全球首个影视行业大模型！PixVerse C1正式发布，机构称AI视频及图像生成技术规模化商用落地进程显著提速，这家公司基于自己的大模型打造了一站式AI视频创作工作台-20260409

传媒行业点评报告：AGI里程碑：OPENAI发布视频生成模型SORA，多模态有望加速

【盘中宝】专家预计20年内聚变能将走进千家万户，机构称随着技术持续突破+政策不断落地+国内招投标加速，核聚变商业化进程有望加快，这家企业与知名院所合作