市场认为,AI应用已经逐渐步入成熟期,但未见杀手级应用。本篇报告中,我们谨以“文生视频”这一多模态应用为例,阐述AI应用的发展尚处于早期,相对应地,算力需求远未见顶。 文生视频是多模态AIGC圣杯,优化迭代速度慢。视频是多帧图像的组合,然而文生视频在文生图的基础上增加了时间维度,技术实现更困难。即便是Meta和Google这样的硅谷人工智能巨头,在文生视频上进展缓慢,它们分别推出的Make-A-Video和Phenaki均尚未公测。 文生视频底层模型及技术仍在优化,未筛选出最优模型。文生视频技术主要发展过程经历了基于GAN和VAE、基于Transformer模型、基于扩散模型三个阶段。目前主流的文生视频模型主要依托Transformer模型和扩散模型。1)基于Transformer的代表Phenaki突破了视频生成时长限制,但效果相对粗糙缺少细节。2)基于扩散模型的代表Make-A-Video重在提升视频质量,但其视频时长均在4s以内。 文生视频效果各异,总体质量较低。当前文生视频可公测应用较少,仅有RunwayGen-2、ZeroScope及Pika Labs等少数几个,它们有如下共同问题:1)复杂人物动作生成帧连续效果较差;2)非日常场景的视频架构能力连续能力一般;3)多主体视频生成缺乏逻辑连续性等。 文生视频当前商用化程度较低,可从图片生成看其商业前景。1)根据七麦数据,图片生成类应用在多模态大模型中,表现出较强的收费能力,应用数量上占比最高。2)当前唯一收费的文生视频应用(Runway Gen-2),商业模式与图片生成趋同,即主要按照生成量定价。 看好人像生成细分领域,但营收持续增长能力仍待验证。1)Lensa AI推出人像生成功能后,去年12月前12日内创收2930万美元,但2023年7月全球收入已回落为100万美元;2)妙鸭相机上线即火爆,半月营收估计超过29万美元,后续须上线新模板、新玩法维持营收增长。 看好算力储备大厂在多模态生成领域的发展 。1) 文生图应用Midjourney日活达1500万,年收入超1亿美元,它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。2)目前国内文生图多为计次付费,尚未出现无限量套餐,或因算力受限,我们认为,具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。 看好业务协同向发展,看好文生视频与文生图、图生视频的联动。AI对产品价值的拉动表现为 :1) 促活 、 拉新 :Adobe、Microsoft 365 Copilot分别在软件原有基础上推出AI工具;2)提升产品价格:Office Copilot是基于GPT-4 API的应用,Copilot加入后Office当前四种商业版整体订阅价格涨幅达53-240%。我们看好文生视频能与原有产品产生协同,降本增效的公司,例如游戏、影视制作等领域的公司。 投资建议:1)算力:AIGC蓬勃发展的基石,建议关注光通信,包括中际旭创、天孚通信、新易盛、太辰光、德科立;算力设备:盛科通信、恒为科技、锐捷网络、寒武纪、美格智能、紫光股份、工业富联、中兴通讯等;算力租赁:中贝通信、云赛智联等;2)模型层:建议关注金山办公、万兴科技、科大讯飞等;3)应用层:看好游戏的迭代创新,建议关注恺英网络、神州泰岳、盛天网络、游族网络等。 风险提示:伦理风险、知识产权及版权风险、计算资源限制。 1文生视频,多模态AIGC圣杯 文生视频当前处于起步阶段,随着文生图、图片对话技术的成熟,文生视频成为多模态大模型下一步发展的重点。目前国内亦有文生视频功能,但主要停留在图片组合阶段。 我们认为,多模态,尤其是文生视频的发展将为应用的爆发提供更立体的基础设施,同时对算力的需求也将指数级增长,对AI下阶段的发展至关重要。本文所介绍的文生视频是指内容之间有关联性与协同性,能生成有连续逻辑的视频模型。 1.1相较于文字和图片,视频能承载的信息量更大 相较于文字和图片,视频在多维信息表达、画面丰富性及动态性方面有更大优势。视频可以结合文本、图像、声音及视觉效果,在单一媒体中融合多种信息形式。 从视频生视频到文生视频、图生视频,多模态的发展重视用更少的用户输入信息量实现更丰富的AI生成结果。自Runway推出Gen-1视频生视频工具后,AI处理视频、图片功能在社交平台爆火,其背后即是多模态大模型发展的表现之一。在多模态应用方面,当前可应用的模态转化主要集中在文字、图片、视频的转化。 1.2当前公测的文生视频应用数量较少 文生图领域,2021年1月5日,Open AI发布其首个基于Clip模型的文生图模型DALL·E,但并未开源,自此众多公司争先研发文生图模型;2022年3月13日,Midjourney发布可公测的文生图模型,其效果优越,引发了公众关于AI艺术的讨论。目前已积累较多用户、可稳定使用的文生图模型主要有Midjourney、Stable Diffusion、DALL·E等。 文生视频领域 , 目前公众可使用的主要有Runway Gen-1、RunwayGen-2、ZeroScope、PikaLabs。其中,除Runway收费外,ZeroScope、Pika Labs均可免费使用。 文生视频发展速度慢于文生视频,在视频质量、视频时长等方面突破较为困难,相比于文生图的快速优化迭代,文生视频的进展较慢。 图表1:文生图与文生视频发展进程 即便是Meta和Google这样的硅谷人工智能巨头,在文生视频方面也进展缓慢。她们分别推出的Make-A-Video和Phenaki均尚未公测,从官方公布的Demo看,Phenaki虽然可生成任意长度视频,但其质量较差且欠缺真实性;Make-A-Video无需“文本-视频”配对数据集,视频质量相对较好,但时长短。 图表2:Phenaki与Make-A-Video模型对比 1.3文生视频,难在哪里? 文生视频更困难。 技术实现本身更困难。从本质看,视频是连续的多帧图像,然而文生图到文生视频并非简单的图片组合,而文生视频在文生图的基础上增加了时间维度。 文生视频需突破瓶颈多。可用的文生视频需具备一定的时长,优良的画面质量,一定的创意逻辑性及还原指令要求能力。 计算难度大 计算成本高。通过文本生成高质量图片对算力的要求已经达到了一定程度,由于生成视频模型复杂度提升及其时长、分辨率提高等因素,文生视频对算力的需求进一步加大。 计算复杂性提升。文生视频需要进行高维特征融合,模型复杂度显著提升。 数据要求高 缺乏高质量配对数据集。视频的合理性及连贯性体现模型的架构能力、创造力、理解能力。例如,当用户输入“一只大象在厨房做饭”这类文字指令时,模型需理解文字指令内容,并根据训练数据库选取画面及对象组合,过程中可能出现缺乏相应素材、难以合理组合人物、难以合理架构场景等问题。文生视频需要大量的文本-视频配对数据,但当前缺乏相应数据集,数据标注工作量极高。 缺乏具备多样性的数据集。由于用户的文本指令要求各异,缺乏多样数据集使得模型无法生成预期效果。 技术融合难度大 多领域融合技术复杂性提升。文生视频涉及自然语言处理、视觉处理、画面合成等领域,跨学科多领域使其需攻克的技术难点增加。 2技术路线沿革:文生视频,哪种技术更强? 同文生图及大语言模型的发展类似,文生视频也在不断探索中寻找更为高效且效果更佳的基础模型。目前主流的文生视频模型主要依托Transformer模型和扩散模型。 目前阿里ModelScope社区中提供了可用的、基于扩散模型的开源文生视频模型,促进了如ZeroScope高质量文生视频模型的发展,有利于后续文生视频的技术迭代优化。 2.1阶段一:基于GAN和VAE,以Text2Filter为代表 原理:文生视频发展早期主要基于GAN(Generative Adversarial Nets,生成式对抗网络)和VAE(Variational autoencoder,变分自编码器)进行视频生成。 GAN由生成器和判别器构成,生成器类似于小偷,生成器生成图片;判别器类似于警察,负责判断是生成器生成图片还是真实图片。 VAE由编码器及解码器构成,其使得图片能够编码成易于表示的形态,并且这一形态能够尽可能无损地解码回原真实图像。 生成过程分为两步:首先,利用条件VAE模型从文本中提取出要点,即静态和通用的特征,生成视频的基本背景;再借助GAN框架中的神经网络生成视频细节。 问题:应用范围窄;仅适用静态、单一画面;分辨率低。 代表:Text2Filter。 图表3:基于GAN及VAE文生视频示意图 2.2阶段二:基于Transformer,以Phenaki为代表 原理:Transformer模型在文本及图像生成中均得到了广泛应用,因此也成为文生视频使用较多的框架之一,但各模型在具体应用上仍有差别。主要思路即输入文本后利用Transformer模型编码,将文本转化为视频令牌,进行特征融合后输出视频。 问题:训练成本高;对配对数据集需求大。 代表:Phenaki、Cog Video、VideoGPT。 Phenaki是基于Transformer框架进行文生视频的代表之一,其突破了文生视频的时长限制进行任意时长视频生成。Phenaki模型基于1.4s左右的短视频进行训练,通过连续的文字指令生成连续的较短时长的视频并串联成1分钟左右的长视频。例如,通过输入一段类似故事的文字指令,从而实现逐个短视频的衔接成为长视频。 图表4:Phenaki文生视频示意图 图表5:Phenaki模型原理图 2.3阶段三:基于扩散模型,以Make-A-Video和阿里通义为代表 原理:当前扩散模型是文生视频领域使用更广的架构之一。通过预训练模型进行文本特征提取后,再进行文本到图片,图片到视频的生成,过程中需基于扩散模型进行。简单来说,扩散模型即在图片上逐渐添加高斯噪声再进行反向操作。以扩散模型为基础的文生视频模型,一般是在文生图基础上增加时间维度实现视频生成。扩散模型在语义理解、内容丰富性上更有优势。 问题:耗时长。 代表:Make-A-Video、Video LDM、Text2Video-Zero、Runway-Gen1、Runway-Gen2以及NUWA-XL。 图表6:扩散模型原理示意图 2.3.1 Meta:Make-A-Video Make-A-Video是基于扩散模型的代表之一,其重点在于提升视频品质。其模型训练时间较短,无需“文本-视频”配对数据即可生成视频。Make-A-Video生成视频主要思路为首先接受文字指令,后利用CLIP文字解码将其转化为向量;接着先验网络将CLIP文本向量“翻译”到对应的CLIP图像向量;后利用Base Diffusion Model(一种文生图的模型)生成视频的基本框架;此处得到额外的卷积层和注意力层到时间维度;后利用Temporal Super-Resolution(TSR)进行帧插值以补充关键细节,最后利用两个空间超分辨率模型升级各个帧的分辨率。 图表7:Make-A-Video视频生成过程图解 图表8:Make-A-Video模型原理图 2.3.2阿里达摩院:通义文生视频大模型 通义-文本生成视频大模型-英文-通用领域-v1.0是由阿里达摩院提供的、发布在阿里ModelScope平台上的开源文生视频大模型,目前仍在集成中,暂未开放公测。通义-文本生成视频大模型仅支持英文输入,基于多阶段文本到视频生成扩散模型。根据Model Scope官网,该模型整体参数约60亿,由五个子网格构成: 文本特征提取:利用图文预训练模型CLIP ViT-L/14@336px的text encoder来提取文本特征。 文本到图像特征扩散模型:Diffusionprior部分,以CLIP text embedding为条件,输出CLIP image embedding。 图像特征到64x64视频生成模型: