AI音频软硬结合声动未来,AI视频扬 帆起航 传媒互联网及海外行业 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区宣武门西大街甲127号金隅大厦 B座 邮编:100053 冯翠婷传媒互联网及海外首席分析师 执业编号:S1500522010001 联系电话:17317141123 邮箱:fengcuiting@cindasc.com 看好 上次评级 看好 投资评级 证券研究报告 行业研究 行业专题研究(普通) 传媒互联网及海外行业 AI音频软硬结合声动未来,AI视频扬帆起航 2024年10月16日 本期内容提要: OpenAIDevDayAI音频更新亮眼,有望催化AI语音交互应用成熟。2024年10月1日,OpenAI开发者大会上,公司公布了几大创新:实时API、提示词缓存、模型蒸馏、视觉微调。与ChatGPT的高级 语音模式类似,RealtimeAPI支持使用六种预设声音进行自然的语音对语音对话。文本输入令牌的价格为5美元/1Mtokens,输出令牌的价格为20美元/1Mtokens。音频输入的价格100美元/1Mtokens,输出的价格为200美元/1Mtokens。这相当于每分钟音频输入约0.06 美元,每分钟音频输出约0.24美元。 海外AI+音频代表性应用Duolingo股价历史新高,Duocon2024发布独特虚拟IP视频通话、虚拟世界探险学玩、扩展音乐课程等功能,订阅付费渗透率逐渐提升至8%以上。公司财务和经营数据均表现较 为亮眼。24Q2公司实现营收1.78亿美元,比去年同期增长41%;调整后的EBITDA为4810万美元,去年同期为2090万美元,24Q2和23Q2调整后的EBITDA利润率分别为27.0%和16.5%;用户情况:24Q2Duolingo月活超过1亿,季度末付费用户总数达到800万,比去年同期增长52%,即目前Max产品付费率超过8%,本次产品更新有望进一步加速Max产品付费渗透率。 AI+视频迭代持续火热,Meta、字节发布新模型,美图MOKI一键成片产品正式上线,可灵、Pika迭代新版本。1)10月4日,Meta发 布了MetaMovieGen模型,是一项针对图像、视频和音频的突破性生成式AI研究,MovieGen具有四种功能:视频生成、个性化视频生成、精确视频编辑和音频生成。2)字节豆包视频大模型PixelDance&Seaweed——主打时序性复杂动作指令和交互能力。字节跳动正式进军AI视频生成领域,其数据、技术和人才等储备深厚。9月25日,视频大模型赋能的字节C端产品——即梦正式开启内测邀请。3)2024年9月30日,快手可灵AI视频模型产品发布产品更新,产品重点新增「对口型」功能;4)Pika1.5引入了一套创新效果,称为Pikaffects,允许用户轻松大幅改变视频元素,例如:膨胀、爆炸、压碎、融化、挤压和蛋糕化;5)美图MOKI一键成片正式上线开放。 投资建议: AI音频方面:在语音实时对话效果不断提升的基础上,相比之前的虚拟陪伴、虚拟人物的语音互动,OpenAIRealtimeAPI更有望催生一大批基于纯语音交互的AI应用,例如旅行规划、点餐、出游、语音学习、电商购物、教育等诸多方向。建议关注:盛天网络、中文在线、汤姆猫、昆仑万维等; AI视频方面:远不止于视频生成,从AI生成到AI工作流,一站式 AI视频生成+剪辑+故事创作有望成为产业核心发展方向。AI+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)AI+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪辑类公司,如快手;4)广告营销类公司,如易点天下、蓝色光标、因赛集团、利欧股份;5)UGC社区类公司,如Bilibili;6)视频数据类公司,如捷成股份、华策影视、视觉中国、中广天择;7)IP类公司,如上海电影、阅文集团、汤姆猫、中文在线、果麦文化;8)探索AI视频工作流及其他创作方向类公司,如博纳影业、超讯通信、柠萌影视。9)其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。 风险因素:AI大模型发展不及预期、AI视频产品付费率提升不及预期; 表:相关上市公司估值表(截至2024.10.15) 分类 证券简称总市值 (亿元) 23A 归母净利润24E (百万元) 25E 26E 24E 市盈率25E 26E 一站式平台 ADBE15,840.1 53483.0 59276.0 65823.0 74153.0 26.7 24.1 21.4 型 美图公司104.7 368.3 548.5 787.9 1046.0 19.1 13.3 10.0 技术服务类 商汤-W490.5 -6440.0 -3645.0 -2522.0 -1742.0 - - - UGC社区类 哔哩哔哩-W608.0 -4822.32 -1734.0 -143.8 990.0 - -422.9 61.4 视频剪辑类 快手-W1,868.2 6396.0 15734.6 21711.7 27026.2 11.9 8.6 6.9 阅文集团248.5 804.9 1249.2 1400.7 1543.0 19.9 17.7 16.1 IP类公司 上海电影101.4 127.0 232.8 333.9 422.7 43.6 30.4 24.0 汤姆猫162.4 -864.6 200.0 300.0 400.0 81.2 54.1 40.6 易点天下82.9 217.0 286.7 357.1 433.0 28.9 23.2 19.1 广告营销类 蓝色光标169.5因赛集团59.5 116.6 41.6 371.6 / 527.1 / 639.6 / 45.6 / 32.2 / 26.5 / 利欧股份113.8 1966.0 / / / / / / 华策影视119.2 382.2 455.8 517.5 562.8 26.2 23.0 21.2 视频数据训 视觉中国86.7 145.6 169.2 197.9 224.1 51.3 43.8 38.7 练类 捷成股份137.2 450.0 593.0 650.3 728.3 23.1 21.1 18.8 中广天择32.2 -8.7 / / / / / / AI短剧/短 博纳影业65.0超讯通信47.2 -552.6 18.8 314.2111.1 498.9164.8 576.7243.4 20.742.5 13.028.6 11.319.4 片探索类 柠萌影视11.9 213.6 258.1 322.7 372.3 4.6 3.7 3.2 光线传媒232.0 417.8 1068.1 1212.0 1373.9 21.7 19.1 16.9 其他 万达电影226.0 912.2 1338.7 1663.6 1931.3 16.9 13.6 11.7 芒果超媒438.5 3555.7 2040.4 2273.7 2524.2 21.5 19.3 17.4 汤姆猫162.4 -864.6 200.0 300.0 400.0 81.2 54.1 40.6 AI音频 盛天网络53.7昆仑万维440.0 169.3 1258.4 224.4864.7 291.7962.0 322.4 1045.9 23.950.9 18.445.7 16.742.1 中文在线175.3 89.4 134.3 172.7 215.1 130.6 101.5 81.5 资料来源:iFind、Bloomberg,信达证券研发中心 目录 一、AI+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本5 二、OpenAIDevDayAI音频更新亮眼,有望催化AI语音交互应用成熟10 三、投资建议15 四、风险因素16 表目录 表1:OpenAIRealtime音频API价格和其他模型文本价格比较15 表2:相关上市公司估值表(截至2024.10.15)16 图目录 图1:MetaMovieGen基础架构5 图2:MetaMovieGen视频模型和其他模型量化指标比较6 图3:MetaMovieGen视频模型生成效果比较6 图4:MetaMovieGen模型视频编辑原理7 图5:MetaMovieGen模型可生成带有音频的视频7 图6:字节PixelDance视频模型复杂prompt时序性指令生成8 图7:可灵AI0930更新“对口型”功能9 图8:Pika1.5官网更新视频效果9 图9:美图MOKI一键成片功能展示10 图10:Speak接入OpenAIRealtimeAPI支持其角色扮演进行新语言联系功能11 图11:Duolingo2024Duocon更新功能(videocallwithLily,Adventures,Math,Music)12 图12:20Q3-24Q2Duolingo日活和月活用户数12 图13:20Q1-24Q2Duolingo付费订阅用户数13 图15:西湖心辰LingoAI语音交互演示13 图16:盛天网络给麦AI功能迭代14 图17:昆仑万维Mureka创作页面15 一、AI+视频持续火热:Meta、字节发布新模型,可灵、Pika、美图迭代版本 (一)MetaMovieGen——主打精确视频编辑和音视频同步生成 2024年10月4日,Meta发布了MetaMovieGen模型,是一项针对图像、视频和音频的突破性生成式AI研究,MovieGen具有四种功能:视频生成、个性化视频生成、精确视频编辑和音频生成。1)视频生成:该30B 参数转换器模型能够以每秒16帧的速度生成长达16秒的视频。2)个性化视频生成:将一个人的图像作为输入,并将其与文本提示相结合,以生成包含参考人物和文本提示所告知的丰富视觉细节的视频。3)视频编辑:同一基础模型的编辑变体以视频和文本提示作为输入,精确执行任务以生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑(例如添加、删除或替换元素)以及全局更改(例如背景或样式修改)。4)音频生成:13B参数音频生成模型,该模型可以接收视频和可选的文本提示,生成长达45秒的高质量高保真音频,包括环境声音、音效(Foley)和乐器背景音乐,所有这些都与视频内容同步,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了一流的性能。 Meta首先通过一个时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后再基于此训练了一个生成模型。模型架构上,Meta采用了Transformer,整体位于Llama3的设计空间中。推理阶段,Meta的一个创新思路是首先使用Llama3对用户输入的提示词进行重写,将其扩展成更加详细的版本。实践表明该方法确实有助于提升生成结果的质量。 图1:MetaMovieGen基础架构 资料来源:Meta官网,信达证券研发中心 个性化视频生成:基于Meta发布的30BMovieGen视频模型,公司拓展到了个性化视频的生成,用户只需提供人物图像输入和对应的文本提示词,就能生成包含该人物以及文本描述的细节的视频。Meta表示MovieGen 生成的个性化视频在保留人类身份和运动方面做到了SOTA。训练过程先是进行预训练(分为身份注入、长视频生成、提升自然度三个阶段),然后执行监督式微调。 图2:MetaMovieGen视频模型和其他模型量化指标比较 资料来源:Meta官网,信达证券研发中心 图3:MetaMovieGen视频模型生成效果比较 资料来源:Meta官网,信达证券研发中心 视频精确编辑:给定一段视频和文本提示词,模型可以生成符合要求的经过修改的输出,其中包括一些非常高阶的编辑功能,比如添加、移除和替换元素,修改背景和风格等全局要素。Meta团队同样采用了一种多阶段方法: 首先执行单帧编辑,然后进行多帧编辑,之后再整体编辑视频,效果图中展示较好。 图4:M