行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

通信行业深度：AI文生视频，多模态应用的下一站

信息技术2023-10-08国盛证券匡***

AI智能总结

AI文生视频是多模态AIGC圣杯，优化迭代速度慢。文生视频底层模型及技术仍在优化，未筛选出最优模型。文生视频效果各异，总体质量较低。当前文生视频可公测应用较少，仅有RunwayGen-2、ZeroScope及Pika Labs等少数几个，它们有如下共同问题：1）复杂人物动作生成帧连续效果较差；2）非日常场景的视频架构能力连续能力一般；3）多主体视频生成缺乏逻辑连续性等。

市场认为，AI应用已经逐渐步入成熟期，但未见杀手级应用。本篇报告中，我们谨以“文生视频”这一多模态应用为例，阐述AI应用的发展尚处于早期，相对应地，算力需求远未见顶。文生视频是多模态AIGC圣杯，优化迭代速度慢。视频是多帧图像的组合，然而文生视频在文生图的基础上增加了时间维度，技术实现更困难。即便是Meta和Google这样的硅谷人工智能巨头，在文生视频上进展缓慢，它们分别推出的Make-A-Video和Phenaki均尚未公测。文生视频底层模型及技术仍在优化，未筛选出最优模型。文生视频技术主要发展过程经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。目前主流的文生视频模型主要依托Transformer模型和扩散模型。1）基于Transformer的代表Phenaki突破了视频生成时长限制，但效果相对粗糙缺少细节。2）基于扩散模型的代表Make-A-Video重在提升视频质量，但其视频时长均在4s以内。文生视频效果各异，总体质量较低。当前文生视频可公测应用较少，仅有RunwayGen-2、ZeroScope及Pika Labs等少数几个，它们有如下共同问题：1）复杂人物动作生成帧连续效果较差；2）非日常场景的视频架构能力连续能力一般；3）多主体视频生成缺乏逻辑连续性等。文生视频当前商用化程度较低，可从图片生成看其商业前景。1）根据七麦数据，图片生成类应用在多模态大模型中，表现出较强的收费能力，应用数量上占比最高。2）当前唯一收费的文生视频应用（Runway Gen-2），商业模式与图片生成趋同，即主要按照生成量定价。看好人像生成细分领域，但营收持续增长能力仍待验证。1）Lensa AI推出人像生成功能后，去年12月前12日内创收2930万美元，但2023年7月全球收入已回落为100万美元；2）妙鸭相机上线即火爆，半月营收估计超过29万美元，后续须上线新模板、新玩法维持营收增长。看好算力储备大厂在多模态生成领域的发展。1）文生图应用Midjourney日活达1500万，年收入超1亿美元，它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。2）目前国内文生图多为计次付费，尚未出现无限量套餐，或因算力受限，我们认为，具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。看好业务协同向发展，看好文生视频与文生图、图生视频的联动。AI对产品价值的拉动表现为：1）促活、拉新：Adobe、Microsoft 365 Copilot分别在软件原有基础上推出AI工具；2）提升产品价格：Office Copilot是基于GPT-4 API的应用，Copilot加入后Office当前四种商业版整体订阅价格涨幅达53-240%。我们看好文生视频能与原有产品产生协同，降本增效的公司，例如游戏、影视制作等领域的公司。投资建议：1）算力：AIGC蓬勃发展的基石，建议关注光通信，包括中际旭创、天孚通信、新易盛、太辰光、德科立；算力设备：盛科通信、恒为科技、锐捷网络、寒武纪、美格智能、紫光股份、工业富联、中兴通讯等；算力租赁：中贝通信、云赛智联等；2）模型层：建议关注金山办公、万兴科技、科大讯飞等；3）应用层：看好游戏的迭代创新，建议关注恺英网络、神州泰岳、盛天网络、游族网络等。风险提示：伦理风险、知识产权及版权风险、计算资源限制。 1文生视频，多模态AIGC圣杯文生视频当前处于起步阶段，随着文生图、图片对话技术的成熟，文生视频成为多模态大模型下一步发展的重点。目前国内亦有文生视频功能，但主要停留在图片组合阶段。我们认为，多模态，尤其是文生视频的发展将为应用的爆发提供更立体的基础设施，同时对算力的需求也将指数级增长，对AI下阶段的发展至关重要。本文所介绍的文生视频是指内容之间有关联性与协同性，能生成有连续逻辑的视频模型。 1.1相较于文字和图片，视频能承载的信息量更大相较于文字和图片，视频在多维信息表达、画面丰富性及动态性方面有更大优势。视频可以结合文本、图像、声音及视觉效果，在单一媒体中融合多种信息形式。从视频生视频到文生视频、图生视频，多模态的发展重视用更少的用户输入信息量实现更丰富的AI生成结果。自Runway推出Gen-1视频生视频工具后，AI处理视频、图片功能在社交平台爆火，其背后即是多模态大模型发展的表现之一。在多模态应用方面，当前可应用的模态转化主要集中在文字、图片、视频的转化。 1.2当前公测的文生视频应用数量较少文生图领域，2021年1月5日，Open AI发布其首个基于Clip模型的文生图模型DALL·E，但并未开源，自此众多公司争先研发文生图模型；2022年3月13日，Midjourney发布可公测的文生图模型，其效果优越，引发了公众关于AI艺术的讨论。目前已积累较多用户、可稳定使用的文生图模型主要有Midjourney、Stable Diffusion、DALL·E等。文生视频领域，目前公众可使用的主要有Runway Gen-1、RunwayGen-2、ZeroScope、PikaLabs。其中，除Runway收费外，ZeroScope、Pika Labs均可免费使用。文生视频发展速度慢于文生视频，在视频质量、视频时长等方面突破较为困难，相比于文生图的快速优化迭代，文生视频的进展较慢。图表1：文生图与文生视频发展进程即便是Meta和Google这样的硅谷人工智能巨头，在文生视频方面也进展缓慢。她们分别推出的Make-A-Video和Phenaki均尚未公测，从官方公布的Demo看，Phenaki虽然可生成任意长度视频，但其质量较差且欠缺真实性；Make-A-Video无需“文本-视频”配对数据集，视频质量相对较好，但时长短。图表2：Phenaki与Make-A-Video模型对比 1.3文生视频，难在哪里？文生视频更困难。技术实现本身更困难。从本质看，视频是连续的多帧图像，然而文生图到文生视频并非简单的图片组合，而文生视频在文生图的基础上增加了时间维度。文生视频需突破瓶颈多。可用的文生视频需具备一定的时长，优良的画面质量，一定的创意逻辑性及还原指令要求能力。计算难度大计算成本高。通过文本生成高质量图片对算力的要求已经达到了一定程度，由于生成视频模型复杂度提升及其时长、分辨率提高等因素，文生视频对算力的需求进一步加大。计算复杂性提升。文生视频需要进行高维特征融合，模型复杂度显著提升。数据要求高缺乏高质量配对数据集。视频的合理性及连贯性体现模型的架构能力、创造力、理解能力。例如，当用户输入“一只大象在厨房做饭”这类文字指令时，模型需理解文字指令内容，并根据训练数据库选取画面及对象组合，过程中可能出现缺乏相应素材、难以合理组合人物、难以合理架构场景等问题。文生视频需要大量的文本-视频配对数据，但当前缺乏相应数据集，数据标注工作量极高。缺乏具备多样性的数据集。由于用户的文本指令要求各异，缺乏多样数据集使得模型无法生成预期效果。技术融合难度大多领域融合技术复杂性提升。文生视频涉及自然语言处理、视觉处理、画面合成等领域，跨学科多领域使其需攻克的技术难点增加。 2技术路线沿革：文生视频，哪种技术更强？同文生图及大语言模型的发展类似，文生视频也在不断探索中寻找更为高效且效果更佳的基础模型。目前主流的文生视频模型主要依托Transformer模型和扩散模型。目前阿里ModelScope社区中提供了可用的、基于扩散模型的开源文生视频模型，促进了如ZeroScope高质量文生视频模型的发展，有利于后续文生视频的技术迭代优化。 2.1阶段一：基于GAN和VAE，以Text2Filter为代表原理：文生视频发展早期主要基于GAN（Generative Adversarial Nets，生成式对抗网络）和VAE（Variational autoencoder，变分自编码器）进行视频生成。 GAN由生成器和判别器构成，生成器类似于小偷，生成器生成图片；判别器类似于警察，负责判断是生成器生成图片还是真实图片。 VAE由编码器及解码器构成，其使得图片能够编码成易于表示的形态，并且这一形态能够尽可能无损地解码回原真实图像。生成过程分为两步：首先，利用条件VAE模型从文本中提取出要点，即静态和通用的特征，生成视频的基本背景；再借助GAN框架中的神经网络生成视频细节。问题：应用范围窄；仅适用静态、单一画面；分辨率低。代表：Text2Filter。图表3：基于GAN及VAE文生视频示意图 2.2阶段二：基于Transformer，以Phenaki为代表原理：Transformer模型在文本及图像生成中均得到了广泛应用，因此也成为文生视频使用较多的框架之一，但各模型在具体应用上仍有差别。主要思路即输入文本后利用Transformer模型编码，将文本转化为视频令牌，进行特征融合后输出视频。问题：训练成本高；对配对数据集需求大。代表：Phenaki、Cog Video、VideoGPT。 Phenaki是基于Transformer框架进行文生视频的代表之一，其突破了文生视频的时长限制进行任意时长视频生成。Phenaki模型基于1.4s左右的短视频进行训练，通过连续的文字指令生成连续的较短时长的视频并串联成1分钟左右的长视频。例如，通过输入一段类似故事的文字指令，从而实现逐个短视频的衔接成为长视频。图表4：Phenaki文生视频示意图图表5：Phenaki模型原理图 2.3阶段三：基于扩散模型，以Make-A-Video和阿里通义为代表原理：当前扩散模型是文生视频领域使用更广的架构之一。通过预训练模型进行文本特征提取后，再进行文本到图片，图片到视频的生成，过程中需基于扩散模型进行。简单来说，扩散模型即在图片上逐渐添加高斯噪声再进行反向操作。以扩散模型为基础的文生视频模型，一般是在文生图基础上增加时间维度实现视频生成。扩散模型在语义理解、内容丰富性上更有优势。问题：耗时长。代表：Make-A-Video、Video LDM、Text2Video-Zero、Runway-Gen1、Runway-Gen2以及NUWA-XL。图表6：扩散模型原理示意图 2.3.1 Meta：Make-A-Video Make-A-Video是基于扩散模型的代表之一，其重点在于提升视频品质。其模型训练时间较短，无需“文本-视频”配对数据即可生成视频。Make-A-Video生成视频主要思路为首先接受文字指令，后利用CLIP文字解码将其转化为向量；接着先验网络将CLIP文本向量“翻译”到对应的CLIP图像向量；后利用Base Diffusion Model（一种文生图的模型）生成视频的基本框架；此处得到额外的卷积层和注意力层到时间维度；后利用Temporal Super-Resolution（TSR）进行帧插值以补充关键细节，最后利用两个空间超分辨率模型升级各个帧的分辨率。图表7：Make-A-Video视频生成过程图解图表8：Make-A-Video模型原理图 2.3.2阿里达摩院：通义文生视频大模型通义-文本生成视频大模型-英文-通用领域-v1.0是由阿里达摩院提供的、发布在阿里ModelScope平台上的开源文生视频大模型，目前仍在集成中，暂未开放公测。通义-文本生成视频大模型仅支持英文输入，基于多阶段文本到视频生成扩散模型。根据Model Scope官网，该模型整体参数约60亿，由五个子网格构成：文本特征提取：利用图文预训练模型CLIP ViT-L/14@336px的text encoder来提取文本特征。文本到图像特征扩散模型：Diffusionprior部分，以CLIP text embedding为条件，输出CLIP image embedding。图像特征到64x64视频生成模型：

点击免费查看完整报告