您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成 - 发现报告
当前位置:首页/行业研究/报告详情/

生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成

文化传媒2024-07-28冯翠婷信达证券E***
AI智能总结
查看更多
生成式AI+视频行业深度报告:AI+视频的星辰大海远不止于创意视频的生成

生成式AI+视频行业深度报告: AI+视频的星辰大海远不止于创意视频的生成 证券研究报告 行业研究 行业专题研究(深度) AI行业 投资评级 看好 上次评级 看好 冯翠婷传媒互联网及海外首席分析师 执业编号:S1500522010001 联系电话:17317141123 邮箱:fengcuiting@cindasc.com 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区宣武门西大街甲127号金隅大厦B座邮编:100053 AI+视频的星辰大海远不止于创意视频的生成 2024年07月28日 本期内容提要: 站在当下,本报告研究AI+视频的意义:技术和产品迭代升级较快导致目前市场大多数报告无时效性,且往往缺少对产品的实际测试以及对相同提示词的比较分析,而AI视频生成正成为当前AI产业发展的关键节点。视频杂糅了文本、语音、图像等多维度内容,其训练的难点 也往往在于视频数据对数量和质量的不足、算法架构需要优化、物理规律性较差等等,但随着AI+视频的技术和产品升级迭代,众多行业有望受益,诸如电影、广告、视频剪辑、视频流媒体平台、UGC创作平台、短视频综合平台等,而目前正处在AI+视频发展的关键性时刻。 市场主流的AI视频生成技术迭代路径经历了早期的GAN+VAE、Transformer、DiffusionModel以及Sora采用的DiT架构 (Transformer+Diffusion),技术迭代升级带来视频处理质量上的飞跃性提升。VAE引入了隐变量推断,GAN生成的图像真实清晰, VAE+GAN的串联融合可以实现数据的自动生成+高质量图像生成;Transformer在并处处理、长时间序列数据处理、多注意力处理上有着强大的优势,通过预训练和微调可提高模型性能;扩散模型可解释性强,可生成高质量图像和视频;李飞飞联合谷歌研发的WALT视频大模型将图像和视频编码到共享潜在空间中。Sora采用的DiT架构有效进行结合,利用Transformer处理潜在空间中的图像数据块,模拟数据的扩散过程以生成时长更长、质量更高的图像和视频。 我们认为,国内AI+视频产品单条价格低于海外产品,其中RunwayGen-3Alpha和快手可灵为目前AI视频生成的全球第一梯队,在视频分辨率、生成速度、物体符合物理规律、提示词理解、视频时长等诸多维度上表现均较为优秀。核心梳理国内和海外市场AI视频生成的核 心参与者,如海外LumaAI(DreamMachine)、Runway(Gen1-2&Gen-3Alpha)、Pika、Sora,国内快手可灵、美图、PixVerse、剪映即梦、清华Vidu、七火山Etna等,集中梳理了众多产品的融资历程、产品迭代、核心功能、实测效果比较等多方面。经过我们测算,目前AI+视频主流产品的单条视频生成价格分别为:LumaAI0.16美元 (1.17rmb)、Pika0.05美元(0.364rmb)、Runway0.48美元 (3.49rmb)、快手可灵0.5rmb、字节剪映即梦0.04rmb、爱诗科技PixverseV2为0.02美元(0.174rmb)、美图WHEE为0.32rmb,国内AI+视频产品单条价格较低,质量不差。 不止于视频生成,从AI生成到AI工作流,一站式AI视频生成+剪辑 +故事创作有望成为产业核心发展方向。目前,AI+视频大多数用于创意内容生成,直接用于ToB商业化较少。追溯原因,首先生成视频的人物一致性、所需时长、画面质量尚且不满足立即商业化水准。其次,我们发现目前主流AI视频工具还处在视频生成竞争的阶段,且大多数为单一功能产品。在视频生成之后,诸如准确的提示词生成、修改视 频片段、添加字幕、脚本生成、转场衔接、背景音乐添加等众多细节功能暂未集成,因此现今阶段还需要多种不同的视频创作工具串联使用才能达到直接输出可商业化视频的效果,环节繁琐、多工具之间的格式也可能存在不兼容的可能性,给用户带来使用上的不便。因此我们认为,后续需要持续关注能够一站式提供视频生成+编辑等功能的企业,了解用户痛点,打磨产品细节,才能真正将技术用于生产工作、娱乐等众多环节,带来商业化变现的潜在空间。一站式AI视频生成& 剪辑&UGC创作有望解决市场一直在质疑的“AI+视频没有实质作用问题”。 AI+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)AI+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪辑类公司,如快手;4)广告营销类公司,如易点天下、蓝色光标、因赛集团、利欧股份;5)UGC社区类公司,如Bilibili;6)视频数据类公司,如捷成股份、华策影视、视觉中国、中广天择;7)IP类公司,如上海电影、阅文集团、汤姆猫、中文在线、果麦文化;8)探索AI视频工作流及其他创作方向类公司,如博纳影业、超讯通信、柠萌影视。9)其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。 风险因素:AI底层大模型发展不及预期、AI视频技术迭代不及预期、 AI视频产品付费渗透率提升不及预期。 目录 一、生成式AI发展进程,文生视频正成为当前AI行业关键发展节点6 二、目前市场主流的海外生成式视频参与者15 三、目前市场主流的国内生成式视频参与者28 四、从AI生成到AI剪辑,一站式AI视频生成+编辑有望成为另一核心方向34 �、AI+视频发展方向展望37 六、风险因素39 表目录 表1:Transformer、Diffusion、DiT模型的产品梳理12 表2:Runway历年融资轮次、融资金额及对应估值18 表3:LumaAI、Pika、RunwayGen-3Alpha、Sora相同提示词生成视频的效果多维度比较.27 表4:海内外视频生成产品单视频所需成本比较(1美元=7.28人民币)28 表5:Adobe数字媒体业务和数字体验业务预估市占率42 表6:快影和剪映产品相关数据46 表7:相关公司提供视频数据用于训练多模态大模型48 表8:IP类公司可基于AI+视频开发更多IP衍生品49 表9:部分公司对AI短剧/AI短片方向上的探索49 表10:相关上市公司估值表(截至2024.07.24)50 图目录 图1:生成式AI发展进程6 图2:AI应用地图梳理6 图3:主流文生视频技术的演进路径7 图4:AIGC视频生成的技术演进路径8 图5:GAN生成对抗网络运作原理8 图6:Diffusion扩散模型运作原理10 图7:WALT视频生成模型搭建原理示意图11 图8:Sora基于DiT模型生成图像视频12 图9:2023年生成式AI+视频时间表15 图10:LumaAIDreamMachine官网宣传文生视频功能16 图11:LumaAIDreamMachine官网宣传前后帧输入图片生成连贯视频功能17 图12:LumaAIDreamMachine实测演示中会遇到不符合物理规律、物体对象缺失等问题.17 图13:Runway产品定价模式18 图14:RunwayGen-1视频生视频19 图15:RunwayGen-1视频生视频演示20 图16:RunwayGen-2文生视频效果表现较好20 图17:RunwayGen-2图生视频效果及笔刷功能表现较好21 图18:RunwayGen-3Alpha通过运动画笔、高级相机控制、导演模式可以更精细控制运动21 图19:RunwayGen-3Alpha两端提示词测试,效果较强22 图20:Adobe产品中引入第三方视频模型Pika优化用户体验23 图21:Pika文生视频界面及视频编辑核心功能23 图22:Sora合成的60秒视频24 图23:OpenAI扩散模型过程24 图24:Sora可进行多个视频的组合25 图25:LumaAIDreamMachine生成效果(电影质感,略微不符合物理规律25 图26:Pika生成效果(提示词理解、画面质感等方面有差距)26 图27:RunwayGen-2生成效果(主角没有跟随镜头移动)26 图28:RunwayGen-3Alpha生成效果(各方面表现均优秀)27 图29:快手大模型产品矩阵及可灵AI产品功能升级30 图39:后续Firefly关于多模态音频、视频方向上的功能展望36 图40:AdobeFirefly集成第三方大模型如Runway、OpenAISora用于视频剪辑36 图41:CaptionsAIShorts功能37 图42:CaptionsAIADCreator功能37 图43:阿里达摩院“寻光”一站式视频创作平台视频编辑功能38 图44:阿里达摩院“寻光”视频素材创作功能38 图45:美图MOKIAI短片产品39 图46:商汤Vimi人物视频生成40 图47:智象大模型升级2.0版本40 图48:智向未来即将上线一站式分镜头故事创作视频生成功能41 图49:AdobeCreativeCloudTAM市场规模预测42 图50:AdobeExpress在24年4月迭代AI功能后,日活数骤然抬升并稳定提高43 图51:AdobePremierePro引入第三方模型如Pika、OpenAI、Runway生成视频43 图52:美图公司底层、生态层、应用层架构44 图53:Vimi在人物一致性功能支持下打造的数字分身打造AI视频功能、AI表情包功能45 一、为什么要研究AI+视频——AI视频生成正成为当前行业发展关键节点 2023年红杉资本在关于生成式AI发展进程的预测报告中表明,在历经文生文、文生图的升级迭代后,我们目前正处在AI+生产力办公&设计、AI+视频和AI+3d渗透的历史节点上。在底层大模型技术迭代逐渐加速的今天,AI文本对话、AI文生图、AI陪伴等方向已经逐渐成为竞争激烈的主要方向,展望未来我们需要对更多AI+做深入的研究,而视频方向一直是业内关注的重点方向之一。视频杂糅了文本、语音、图像等多维度内容,其训练的难点也往往在于视频数据对数量和质量的不足、算法架构需要优化、物理规律性较差等等,但我们相信,随着AI+视频的技术和产品升级迭代,众多行业有望受益,诸如电影、广告、视频剪辑、视频流媒体平 台、UGC创作平台、短视频综合平台等,而目前正处在AI+视频发展的关键性时刻,正从AI+视频创意生成逐渐过渡到一站式视频生成+剪辑+UGC的后续阶段。 图1:生成式AI发展进程 资料来源:红杉资本官网,信达证券研发中心 在红杉资本2024年关于AI应用的地图梳理中反映了市场中的两个重要趋势:生成式人工智能从技术趋势演变为实际应用和价值,以及生成式人工智能应用日益呈现多模态的特性。可以看到,AI视频生成及编辑的版图占比较多,重要性和产品推进速度目前较快。 图2:AI应用地图梳理 资料来源:红杉资本官网,信达证券研发中心 文/图生视频面临着众多方面的挑战,例如: 1)计算成本:确保帧间空间和时间一致性会产生长期依赖性,从而带来高计算成本; 2)缺乏高质量的数据集:用于文生视频的多模态数据集很少,而且通常数据集的标注很少,这使得学习复杂的运动语义很困难。文生视频模型需要依赖于大量数据来掌握如何将文本描述转化为具有写实感的连续帧,并捕捉时间上的动态变化; 3)视频生成质量:时空一致性难以保持,在不同镜头、场景或时间段内较难确保角色、物体和背景的一致性。可控性和确定性还未充分实现,确保所描述的运动、表现和场景元素能够精确控制和编辑。视频时长的限制,长视频制作仍面临时间一致性和完整性的挑战,这直接影响到实际应用的可行性; 4)语义对齐:由于自然语言具有复杂性和多义性,文本语义理解、文本与视频元素的映射关系仍是挑战; 5)产品易用性:对于文生视频,产品的易用性和体验仍需改进。个人用户希望制作流程易上手、符合习惯,并支持快速素材搜索、多样模板、多端同步和一键分享;小B端用户关注成本可控下的快速营销视频制作和品牌传播效果;行业用户则需要内容与交互性的融合,包括商用素材适配性、快速审核和批量