海外行业报告|行业专题研究 证券研究报告 2023年10月15日 生成式AI下一颗最闪亮的星:视频+引擎 作者: 分析师孔蓉 SAC执业证书编号:S1110521020002 分析师李泽宇SAC执业证书编号:S1110520110002 请务必阅读正文之后的信息披露和免责申明 请务必阅读正文之后的信息披露和免责申明 2 摘要 1)内容创作工具的重要性如何?我们认为关键在于拉动远比工具本身更大的市场,类似于短视频时代的前身GIF创作工具,如剪映这种创作工具和抖音这种内容生态,Maya这种创作工具和动画的内容生态,视频与建模工具将进一步大幅拉动生成式AI的需求。 2)能力或出现明显分化。我们认为当前Diffusion开源模型下各公司生成图片的能力尚未明显出现分化,但建模和视频更重要的在于和传统工具与工作流的结合。 3)接下来半年关注什么?我们认为从能力来看,图片生成的可控性快速提高或将出现,矢量图、结构、视频、 3D模型生成也将提速。尤其关注Unity与Apple的合作,在AI生成内容/建模/App适配上将会如何塑造空间计算的内容与应用的标准生态。 风险提示:生成式AI发展不及预期;算力成本及硬件发展不及预期;相关应用产品上线后效果不及预期。 请务必阅读正文之后的信息披露和免责申明 3 目录 1、生成式AI在视频/3D/游戏等领域的渗透加速 2、生成式AI下游应用场景展望 3、风险提示 资料来源:NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(BMildenhall等),GenerativeAImeets3D:ASurveyonText-to-3DinAIGCEra(CLi等),量子位公众号,品览pinlan公众号,腾讯云开发者社区,datagentech等,天风证券研究所 4 基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和3D扩展,更广泛地应用于下游应用场景 生成对抗网络(GAN)是早期最著名的生成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消失和模式崩溃等问题的影响。与GAN相比,扩散模型(DiffusionModel)只需要训练“生成器”,不需要训练别的网络(判别器、后验分布等),训练时仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型相对GAN来说具有更灵活的模型架构和更精确的对数似然计算,生成图像质量明显优于GAN,已经成为目前最先进的图像生成模型。 此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模型扩展到视频领域,在未加字幕的视频和配对的文本 -图像数据的大规模数据集上训练出视频扩散模型。 NeRF(神经辐射场)的出现为3D场景生成带来了新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF(NeuralRadianceField)是一种基于神经网络的3D重建技术,不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一个连续的5D辐射场隐式存储在神经网络中,输入多角度的2D图像,通过训练得到神经辐射场模型,根据模 型渲染出任意视角下的清晰照片。 图:生成式算法模型对比 GANs Diffusion NeRF 原理 生成对抗网络(GAN)是一种深度学习模型,通过同时训练两个相互对抗的网络(一个生成器网络和一个判别器网络)来生成与真实数据分布相似的新数据 扩散模型是一种概率生成模型,通过添加噪声逐步解构数据,然后学习逆转扩散过程来生成样本。 基于2D图像输入,将3D场景展现为一组可以学习且连续的神经辐射场,不直接生成3D模型,而是由输入视角+位置来生成密度+色彩信息,从而生成新视角的模型 优势 能够生成较高质量的样本,一般只需要一次通过网络就可以生成一个样本,比较快速 只需训练生成器而无需训练判别器,能够生成细节清晰的数据样本,质量明显优于GANs模型 更准确还原3D场景中细节和颜色,比网格和其他几何表征更容易优化 缺陷 GAN的训练过程需要生成器和额外的判别器,且稳定性较差 扩散模型的训练缓慢且计算量密集,且需要大量的数据进行有效训练 训练复杂,且无法对生成的场景进行直接编辑 应用场景 GANs常用于图像生成、图像超分辨率、风格迁移等任务 可用于生成建筑方案,游戏人物、场景设计 游戏,电影和虚拟现实:可用于创建高度逼真的虚拟世界建筑和城市设计:可用于创建比真的建筑模型并实现可视化效果 Runway是一家生成式AI内容平台,致力于让所有人都能进行内容创作。Runway创 图:Gen-1三种模式演示:Stylization(上)、Storyboard(中)、 立于2018年,总部位于纽约,提供图片、视频领域的生成式AI服务。Runway得到众多资本青睐,获得谷歌领投的D轮融资。创立以来,Runway已获得Felicis、Coatue、Amplify、Lux、Compound等顶级投资机构投资。23年6月,Runway获得由谷歌领 投的1亿美元的D轮融资,这笔融资交易包括三年内7500万美元的谷歌云积分和其他服务,估值达到15亿美元。 主要产品为Gen-1和Gen-2,Gen-1可实现用文字和图像从现有视频中生成新视频, Gen-2可实现文字生成视频功能。 Gen-1:不需要灯光、相机和动捕,通过将图像或文本提示的结构和风格应用于源视 频的结构,逼真且一致地合成新视频,且具有表现力、电影感和一致性。 Gen-1提供给用户五种不同的视频制作模式:1)Stylization:将任何图像或提示的 风格转移到视频的每一帧;2)Storyboard:将模型变成完全风格化和动画的渲染。3) Mask:隔离视频中的主题并使用简单的文本提示对其进行修改;4)Render:通过应用输入图像或提示,将无纹理渲染变成逼真的输出;5)Customization:通过自定义模型以获得更高保真度的结果,释放Gen-1的全部功能。 Gen-1的性能优势:基于用户研究,GEN-1的结果优于现有的图像到图像和视频到视频的转换方法,比StableDiffusion1.5提升73.83%,比Text2Live提升88.24%。 Mask(下) 图:Gen-1和Gen-2生成的作品 资料来源:Runway官网,TheInformation,天风证券研究所5 Gen-2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖的视频。图:Gen-2新增的三种模式演示:TexttoVideo(上)、Text+ Gen-2在Gen-1的基础上迭代,保留通过将图像或文本提示的结构和风格应用于源视频的结构合成新视频的功能,新增了只用文字便可生成视频的的功能。 Gen-2在Gen-1的五种视频制作模式上新增了三项新的模式:1)TexttoVideo:仅通过文本提示合成任何风格的视频;2)Text+ImagetoVideo:使用图像和文本提示生成视频;3)ImagetoVideo:用一张图片生成视频(变体模式)。 Gen-2已于2023年6月上线,用户可以通过网页端和移动端App免费体验文字生成视频的功能。收费模式上,Runway采用订阅模式,分为Standard和Pro两个版本:Standard15美元/月;Pro35美元/月。订阅版本提供更高的credits(制作视频消耗 credits)、更长的视频长度、更高的分辨率等。 图:Gen-2创作界面:直接通过文字生成约4秒的视频 ImagetoVideo(中)、ImagetoVideo(下) 资料来源:Runway官网,天风证券研究所6 Runway的Gen-1是一种基于扩散模型(DiffusionModel)的视频生成技术。用户可以通过文字和图像来生成新的视频,同时保留 现有的视频结构和内容。 扩散模型是一种概率生成模型,通过添加噪声逐步解构数据,然后学习逆转扩散过程来生成样本。 去噪扩散概率模型利用两个马尔科夫链:一个前向的链将数据扰动为噪声,一个后向的链将噪声还原为数据。前者通常为手动设计,旨在将数据分布转换为一个简单的先验分布(例如,标准高斯分布) 而后者的马尔科夫链通过学习由深度神经网络参数化的转换核来逆转前者。新的数据点随后通过首先从先验分布中抽样一个随机 向量,然后通过向后马尔科夫链进行祖先抽样来生成。 扩散模型的技术优势: 可以生成高质量、细节清晰的数据样本 使用成熟的最大似然估计进行训练 既可以用于生成图像,也可以用于生成音频 扩散模型的技术缺陷: 扩散模型的训练缓慢且计算量密集,且需要大量的数据进行有效训练 这些模型需要进行多次迭代才能生成高质量的样本,因为生成过程(从噪声到数据)模拟了前向扩散过程(从数据到噪声)的逆过程,这可能需要数千步 资料来源:DiffusionModels:AComprehensiveSurveyofMethodsandApplications(LYang等),DenoisingDiffusionImplicitModels(JSong等),天风证券研究所 7 图:扩散模型(DiffusionModel)通过添加噪声对数据进行平滑扰动,然后反转这一过程来生成新数据。 资料来源:StructureandContent-GuidedVideoSynthesiswithDiffusionModels(PEsser等),DiffusionModels:AComprehensiveSurveyofMethodsandApplications(LYang)等,天风证券研究所 8 Gen-1提出了一个可控的结构和内容感知的视频扩散模型,将时间层引入预训练的图像模型,将扩散模型扩展到视频生成,在大规模的未标注视频和配对的文本-图像数据上进行训练。 Gen-1用单眼深度估计来表示结构,用预训练神经网络预测的嵌入来表示内容。编辑完全在推理时进行,无需额外的每个视频训练或预 处理。 Gen-1实现了对时间、内容和结构一致性的完全控制,首次展示了在图像和视频数据上联合训练可以在推理时控制时间一致性。对于结构一致性,Gen-1在生成效果中的不同细节级别上进行训练,实现高度自定义化推理过程。 图:Gen-1在保持输入视频(中间)的结构的同时,通过文本(上)或图像(下)描述的内容来指导视频(上和下)的合成。 Gen1视频生成技术的实现路径 首先,类似于图像合成模型,Gen-1训练模型使得推断出的视频的内容,如外观或风格,匹配用户提供的图像或文本提示(见上图)。 其次,由扩散过程主导,Gen-1将结构信息模糊化,以便模型选择以多大程度贴合给定的结构 最后,Gen-1通过自定义的推断方法,调整推理过程,以便控制生成片段时间的一致性。 LumaAI是一家3D内容解决方案平台。LumaAI创立于2021年,总部位于加州。公司创始人在3D视觉、机器学习、实时图形学上有所建树:CEO&CofounderAmitJain曾于苹果任职,在 3D计算机视觉、摄像头、ML、系统工程和深度技术产品方面有者丰富经验;CTO&CofounderAlexYu致力于推动神经渲染和实时图形领域的发展,研究成果包括Plenoxels、PlenOctrees和pixelNeRF。 LumaAI深耕3D领域,也发布多项3D生成产品。22年10月开放网页版Luma;22年12月推出 文生3D模型功能;23年1月iOS版App开始支持NeRFReshoot;23年2月推出网页版全体积 NeRF渲染器;23年3年iOS版App支持AR预览,同月推出视频转3DAPI。23年4月发布LumaUnrealEnginealpha,帮助开发者在Unreal5中进行完全体积化的渲染,无需对几何结构或材质进行修补。 主要产品: LumaApp:目前只推出iOS客户端,可以通过iPhone上传