证券研究报告 2023年4月16日 行业:传媒 增持 AIGC应用篇系列(二):国外AIGC各模态产品梳理 分析师:陈旻SAC编号:S0870522020001 我们AIGC系列专题《“大模型+小样本”快速适配下游场景,“AI+传媒”的效力取决于适配与迭代》将“AI+传媒”的研究框架定义为“通用大模型”+“行业小样本”的技术架构。“AI+传媒”在应用层表现效力优劣的关键取决于通用大模型对垂直应用的适配程度及迭代速度,更进一步理解: 1、“行业小样本”的数据集来自小模型或应用及内容:AI产业链包括上层大模型、中层小模型、下层应用及内容,包括应用及内容直接接入大模型或通过小模型接入大模型两种方式,即“大模型+应用及内容”或“大模型+小模型+应用或内容”,其中具备特定功能的AIGC软件产品我们理解为“小模型”+“应用”的技术范式,本身具备较高质量的AI能力,若接入匹配的多 模态大模型,有望实现能力上的质变突破。 2、“行业小样本”的结合方式包括“能力调用”及“能力训练”两层: (1)“能力调用”是指下游垂类场景直接调用通用大模型的通用能力,并基于垂类场景内产生的特性化数据不断提升调用能力在垂类场景内的适配程度。我们认为现阶段下游应用及内容主要采取此类方式接入大模型能力,此类方式可高效快速调用大模型先进能力,在时间上及成本上具备优势。 (2)“能力训练”是指下游垂类场景将通用大模型针对特性化数据集进行再训练,从而形成垂类场景专属大模型。例如彭博社利用自身丰富的金融数据源,基于开源的GPT-3框架再训练,开发出了金融专属大模型BloombergGPT。我们认为未来拥有丰富特性化数据集的下游垂类场景将主要采取此类方式,有助于构筑更强的能力壁垒。 围绕我们对“AI+传媒”的研究框架体系,我们后续分别针对“技术层”及“产品/应用层”梳理AIGC研究版图,本篇属于AIGC系列专题中“AIGC应用篇系列之二”,重点梳理国外多模态头部应用产品,本篇主要整理国外图像、音频、视频类头部AIGC产品。 我们将国外主要AIGC头部产品按照文本、图像、音频、视频分类如下: 文本领域:AutomatedInsights(结构化写作)、Anyword、Copy.ai(数字广告文案)、Jasperai(营销文案AI)、ChatGPT(通用类聊天机器人)、ChatBox(聊天客服机器人)、Jenni.ai(论文AI) 图像领域:Midjourney(2C端文生图AI)、DALL-E2、StableDiffusion(2B端开源高质量文生图模型) 音频领域:MurfAI(文本转语音生成器)、AIVA(歌曲生成) 视频领域:Synthesia(拼凑生成视频)、WonderStudio、RunwayGen-2(视频生成模型) 我们认为“通用大模型”+“行业小样本”是未来主流AI发展范式。我们理解AI大模型是一种新型平台模式,是移动互联网向沉浸互联网发展的中间形态。从平台的逻辑出发,AI产业链包括上层大模型、中层小模型、下层应用及内容,包括应用及内容直接接入大模型或通过小模型接入大模型两种方式。我们认为国外头部AIGC应用产品属于“小模型”+“应用”的技术范式,本身具备较高质量的AI能力,若接入匹配的多模态大模型,有望实现能力上的质变突破。一方面上层大模型持续为小模型、应用及内容赋予通用型能力,其兼容性取决于大模型的输出与小模型/应用及内容的输入在模态上是否匹配;另一方面小模型、应用及内容持续产生的大数据可不断迭代大模型的通用能力,并让大模型更为适配垂类场景。参照PC互联网、移动互联网,我们认为每一轮新型平台模式的兴起均会重新划分流量竞争格局,涉及巨大市场空间的重新分配,且我们预计本轮AI大模型有望同时变革B端及C端产业。因此我们认为在上层大模型竞争格局尚未稳定的初期,大模型为争抢更多中下层数据入口,有望大幅让利。中下层的小模型、应用及内容有望百花齐放,且最先深度结合先进大模型的应用有望收获较大增量红利。 我们认为AIGC可分为技术方(直接收益)及场景/应用方(直接&间接收益)两类,前者为AIGC相关技术直接研发及相关上下游(如算力),变现模式预计包括会员付费、广告变现、B端变现等(如技术授权/服务/运维等);后者为AIGC技术与落地场景深度融合,场景/应用方利用AIGC技术获得直接收益或间接收益:(1)直接收益对应收入弹性,对应市场空间的增量;(2)间接收益对应利润弹性,对应利润率的提高。目前GPT-4输出模态主要为文字,我们认为现阶段传媒领域最高效的结合场景为“AI+虚拟人”,其中具备IP价值的虚拟人受益更为明确。 风险提示:宏观经济风险,地缘政治风险;技术发展不及预期;AIGC行业发展不及预期等。 目录 SECTION Content 一、图像领域二、音频领域三、视频领域四、投资建议五、风险提示 一、图像领域 1.1创意图像生成(2C):Midjourney 图像生成领域潜力巨大,Midjourney致力于探索新的思想媒介。根据6pen,未来5年全球10%-30%的图像有望由AI 生成或辅助生成。Midjourney是一个独立的研究实验室,探索新的思想媒介,扩大人类的想象力,作为一个小型的自筹资金团队,专注于设计、人力基础设施和人工智能。创始人DavidHolz曾是LeapMotion创始人之一,美国宇航局研究员马克斯·普朗克。团队成员仅11人,人效极高。 Midjourney定期发布新的模型版本,以提高效率、一致性和质量。Midjourney于2023年3月15日发布V5版本,图像 具备非常高的一致性,擅长解释自然语言提示,分辨率更高,并支持高级功能。 图1:MidjourneyV4版本图像展示 图2:MidjourneyV5版本图像展示 (左)充满活力的加州罂粟花——V4(右)高对比度超现实拼贴——V4 资料来源:Midjourney官网,上海证券研究所 (左)充满活力的加州罂粟花——V5 资料来源:Midjourney官网,上海证券研究所 (右)高对比度超现实拼贴——V5 DALL-E2可根据自然语言的文本描述创建图像和艺术形式,是DALL-E的升级版。开发人员可以通过DALL-E2的 API直接进入其应用程序和产品,使用时按照用量收费。 DALL-E2核心竞争力是精确的AI绘画能力,其在DALL-E的基础上增加了组合概念、属性及样式的功能,生成更生动、更复杂的图像。图像分辨率足足提升了4倍,画质更真实,真实度达到88.8%,识别更精确,语义匹配度达到71.7%。 图3:DALL-E2针对同一描述的不同风格作品展示 图4:DALL-E(左)与DALL-E2(右)图像对比 “一位宇航员以逼真的风格骑马” 资料来源:DALL-E2官网,上海证券研究所 资料来源:DALL-E2官网,上海证券研究所 StableDiffusion是高质量的文生图的潜在扩散模型。其核心技术来源于AI视频剪辑技术创业公司Runway的 PatrickEsser,以及慕尼黑大学机器视觉学习组的RobinRomabach。 StableDiffusion是StabilityAI旗下发布的第一个开源模型。截至2022年10月StableDiffusion已经有超过20万 开发者下载和获得授权,各渠道累计日活用户超过1000万。 开源社区使得StableDiffusion的用户关注度和应用广度更广。在目前的Midjourney、StableDiffusion、DALL- E2三大新兴文本转图像模型中,StableDiffusion诞生得最晚,但由于拥有发展良好的开源社区,它的用户关注度和应用广度都更广。 图5:StableDiffusion2.1版本图像能力提升 图6:StableDiffusion否定提示案例 并排比较没有否定提 示 并排比较有否定提示,细节更加完美。 资料来源:新智元,上海证券研究所资料来源:新智元,上海证券研究所 二、音频领域 2.1TTS场景:Murfai Murfai:2020年10月创办的AI语音生成器,可以利用机器学习和深度学习将文本转换为自然语音。 Murfai可以在短时间内输出高质量画外音,用户可以使用AI语音克隆功能来满足自己对语言情感更多元化的需求。其可以通过调整音调、音量、语言和速度来提供栩栩如生的发音与全方位的人类情感以此提供多方位服务。 Murfai拥有可调用的AI功能,以此来确保特定术语能够准确无误的传达。Murfai提供多合一语音发生器,操作界面简单便捷,能够与谷歌幻灯片共享编辑,可以在AI语音中选择最合适的演示文稿语音。 图7:文本转语音:高质量真人声 图8:AI语音克隆功能:栩栩如生永久使用图9:谷歌幻灯片画外音:简化、同步、经济 尽可能克隆栩栩如生的声音 人声 克隆声 用Quicky赶走你的饥饿感! 将上图文本转 为语音输出 选择适合演示文稿的语音输出 资料来源:Murdai官网,上海证券研究所资料来源:Murfai官网,上海证券研究所资料来源:Murfai官网,上海证券研究所 2.2歌曲生成:AIVA AIVA是第一个被正式赋予作曲家地位的AI,创办于2016年,旨在通过AI创建个性化配乐来提升用户能力,其接受了数千份乐谱的训练。 AIVA为用户提供两种音乐创作方式:第一种,使用预先训练的“预设样式”,这样样式基于内部精心制作的各种数据集(曲调和级数、节奏模式和旋律线等重要音乐特征组成;第二种,使用上传的音乐来创作,以创作出具有相似音乐特征但截然不同的曲目。 图10:预定义曲风多样图11:使用临时轨道控制合成过程 资料来源:AIVA官网,上海证券研究所 可以使用AIVA的预设算法以预定义的风格创作音乐 资料来源:《AAIVA为短视频打造专属音乐背景》,上海证券研究所 可以上传自己的MIDI文件来影响AIVA的作曲过程 ,从而得到一个与现有乐谱具有相似情感影响的原始乐谱 三、视频领域 3.1拼凑生成视频:Synthesia Synthesia由来自伦敦大学学院、斯坦福大学、慕尼黑工业大学和剑桥大学的AI研究人员和企业家团队于2017 年创立。2020年推出的AI视频创作产品“Synthesia”已有数千家公司在使用。 1)利用AI技术创建和定制数字孪生模型从而生成视频。用户可以从现有演员库中选择或上传自己的视频来创建AI形象,然后输入脚本让AI配音、拼接素材就能输出视频,节省高达80%的时间和预算。 2)主要运用于企业传播、数字视频营销和广告本地化。此产品大幅减少真人出镜录制等环节,节省制作费用和周期,同时能一键生成多国语言视频,便于本土化服务。 图12:Synthesia支持使用AI头像以及获得专业配音 图13:Synthesia官网演示的媒体素材库 资料来源:Synthesia官网,上海证券研究所资料来源:Synthesia官网,上海证券研究所 WonderStudio是一款可以自动将CG角色动画、打光并组合成真人场景的AI工具。 1)无需逐镜头工作。将CG角色模型上传到一个镜头或整个场景,系统将在整个序列中自动检测剪辑并跟踪演员。 2)无需繁重的逐帧视觉特效工作。系统根据单镜头自动检测演员表演,并传输到所选CG角色,自动动画、照明和创 作。 1.系统自动检 测并跟踪演员动作 2.传输到选择的CG角 色,进行自动动画创 作 3)适应现有流水线。WonderStudioAI自动化了80%-90%的“客观”视觉特效工作,并将剩余的“主观”工作留给艺术家,同时支持导出到他们已经使用的软件中。图14:WonderStudio无需繁重的逐帧VFX工作 资料来源:WonderStudio官网,上海证券研究所 Runway:文本到视频成功落地的先行者。Runway成立于2018年,公司研究团队一直致力于构建多模态人工 智能系统,以降低