证券研究报告·行业深度报告·互联网传媒增持(维持) AI音乐或至奇点时刻,关注应用落地投资机会 证券分析师:张良卫 执业证书:S0600516070001 zhanglw@dwzq.com.cn 证券分析师:周良玖 执业证书:S0600517110002 zhoulj@dwzq.com.cn 研究助理:陈欣 执业证书:S0600122070012 chenxin@dwzq.com.cn 研究助理:张文雨 执业证书:S0600123070071 zhangwy@dwzq.com.cn 请务必阅读正文之后的免责声明部分 2024年4月9日 •SunoV3生成效果进步神速,或成为现象级应用:今年3月,Suno发布V3版本,支持生成2分钟长度、广播质量级别的音乐,对prompt的理解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”,因为它不需要专业的prompt词汇,甚至不需要理解音乐的专业知识,普通人就可以生成自己想要的音乐。SunoV3具有丰富的选项、活跃的社区氛围、相对高质量的生成效果,并采用免费+付费的toC商业模式。 •音频生成领域仍处于早期阶段,具有较大发展潜力,技术和版权问题仍需解决。Suno创始人表示,现在的我们必须像2022年思考文本生成那样考虑音频生成。当前,Suno并不完美,在时长、语言理解力,以及音乐分轨等方面都仍有提升空间。想要解决这些问题,需要数据、时间和一定的技术突破。此外,版权是AI音乐发展绕不过去的问题。声音具有强烈的人身属性,更是歌手赖以生存的根本。未经本人允许,通过AI技术伪造声音,即使对歌手人身权益的损害,也可能引发诈骗事件。2023年以来,谷歌已尝试与环球音乐进行谈判,希望达成版权合作关系。 •AI降低音乐创作门槛,有望释放UGC音乐潜力。随着创作门槛降低,文字、图片、视频的UGC催生了一众网文、社交、短视频平台等,但音乐作为情感传达的方式之一,UGC内容尚处萌芽阶段,我们试图从(1)是否存在UGC音乐内容需求、(2)制约UGC音乐发展的因素,探讨音乐UGC的空间,以及为什么我们认为AI时代,音乐UGC有望释放其商业化潜能。 •众口难调和个性化创作是音乐UGC存在的基础。用户的音乐需求呈现分散化、圈层化、小众化的特点,即使头部热门歌曲占据大部分的市场,但圈层用户、小众用户的长尾需求仍有较大市场。B站上AI孙燕姿等翻唱歌曲,用户基于热点事件的已有歌曲创作等都有不错的播放量,亦验证了音乐UGC需求的存在。 •但不同于文字和短视频,音乐创作尚未出现低门槛工具,编曲、录制等均需要一定技术储备和成本,限制了普通用户的音乐创作。当前,音乐AI大模型使得用户可以在短时间内、无门槛生成较为成熟的音乐作品。对标网文及短视频平台,我们看好在创作门槛降低后,C端应用不断探索有望放大音乐UGC商业化潜力。 •模型进步催生应用落地,积极关注先行者卡位优势。随着海内外AI音乐大模型持续更新,B端已有如万兴科技等公司落地相关功能,赋能创作者,C端应用也在不断兑现,比如1)昆仑万维于天工APP中上线AI音乐功能,用户可进行AI音乐创作并分享至微信、抖音,2)盛天网络的给麦,定位AI音乐社交并已开启商业化等。我们看好AI赋能下,音乐有望从单向传播(单纯的音乐欣赏)转变为UGC、PUGC共创的交互生态,催生出AI音乐新空间。看好率先布局探索应用落地的公司,推荐昆仑万维、盛天网络、万兴科技等。 •投资建议:【昆仑万维】我们看好公司AI布局领先优势,大模型及应用持续兑现,维持“买入”评级。【盛天网络】我们看好公司开启新游周期修 复业绩,卡位AI社交赛道丰富产品矩阵,贡献业绩弹性,维持“买入”评级。【万兴科技】我们看好公司AI功能/产品/技术持续推进,应用前景广阔, 维持“买入”评级。 •风险提示:法律和版权风险,技术发展风险,市场接受度风险,竞争风险 1、Suno——音乐界的ChatGPT,让人人都能做音乐 2、AI降低音乐创作门槛,有望释放UGC音乐潜力 3、AI音乐应用初探:模型进步催生应用落地 4、投资建议 5、风险提示 1.Suno——音乐界的ChatGPT,让人人都能做音乐 1.1.SunoV3出圈,成为“音乐界的ChatGPT” SunoV3生成效果进步神速,或成为现象级应用:2024年3月22日,Suno发布了V3版本,支持生成2分钟长度、广播质量级别的音乐,对prompt的理解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”,因为它不需要专业的prompt词汇,甚至不需要理解音乐的专业知识,普通人就可以生成自己想要的音乐。 •选项丰富:用户可以输入音乐风格、流派、歌词内容、音色等提示词, 可以自定义歌曲的不同部分,如引子、主歌、副歌等。 •多样化风格:Suno支持包括古典音乐、爵士乐、Hiphop、电子等在内的丰富音乐风格和流派。 •多语言支持:Suno支持多种语言,包括中文和英文,对中文生成的AI歌曲非常友好。 •收费模式:Suno为新注册用户提供每天生成10首歌曲的免费试用额度。用户如果需要更多生成额度或额外功能,可以选择订阅Suno的“Pro”版本(每个月500首歌,8美元)或“Premier”计划(每个月2000首歌,24美元)。 Suno创作界面 Suno订阅方案 数据来源:雷科技,FounderPark,音乐财经,东吴证券研究所5 小型高效的新创业团队:Suno成立不到两年。四位联合创始人Shulman、Freyberg、GeorgKucsko和MartinCamacho都是机器学习领域的专家,在2022 年之前,他们曾在另一家剑桥公司KenshoTechnologies共事,后来联合创立了Suno。 团队于2023年4月推出文本转音频模型Bark,7月在音频生成模型上增加人声音乐,12月用户可以在网页上使用,再到如今推出SunoV3版本,这家成立不到两年的公司,在不到一年时间内,实现了AI音乐专家口中需要数年才能完成的突破。 MikeyShulman •Suno的联合创始人,兼任MIT斯隆管理学院的讲师,教授课程为金融机器学习和自然语言处理。 •曾任Kensho机器学习主管。Kensho是一个为机构投资者构建金融分析和机器学习的平台。 •本科毕业于哥伦比亚大学应用物理专业、博士毕业于哈 佛大学物理学专业,曾经研究过物理和量子计算。 MartinCamacho •Suno联合创始人 •曾担任Kensho的首席架构师 •本科在哈佛大学学习计算机科学与数学, 18岁毕业 Suno目前只有大约12名员工,但他们正在计划扩展团队。 GeorgKucsko •Suno联合创始人,此前为Kensho机器学习研发主管。感兴趣的研究领域包括自然语言处理、语音识别和非结构化数据分析。 •本硕毕业于瑞士苏黎世联邦理工学院物理专业,并取得了哈佛大学物理学博士学位,主要研究钻石色心在量子计算和生物传感中的应用。 KeenanFreyberg •Suno联合创始人。 •曾任Kensho战略推广主管 •本科毕业于美国乔治华盛顿大学 数据来源:机器之心,定焦,FounderPark,东吴证券研究所6 •音频生成具体场景分为三大类:音乐、语音和音效。Suno是这波将音乐与语音相结合的音频生成探索中的最新产物,其历史可以追溯至TensorflowMagenta。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox加语音与音效,以及专门生成音乐和音效的StableAudio。 •Suno背后主要由自研的两个大模型支撑,分别是基于transformer的Bark语音模型和Chirp音乐模型,前者主要用来生成人声,后者提供音乐旋律和音效,两者让Suno生成的音乐旋律更智能化、复杂化。Suno的原理跟文本生成相似。通过训练模型来预测接下来将要出现的token的概率。Suno团队使用多种模型和多种素材训练模型,确保Suno能够生成各种类型的音频,能够区分语音、背景音乐和人声等元素;并强调让模型自主学习和探索,而不是强加规则表示,尽量减少对模型的显式知识输入。Suno团队认为,过多的人为干涉可能会限制模型的自我学习能力,强调泛化能力和端到端学习的方法更为有效。 •MikeyShulman认为尽管目前取得了一些成果,但音频生成领域仍处于早期阶段,可能落后图像和文本一到两年时间,仍有改进的空间。“现在的我 们必须像2022年思考文本生成那样考虑音频生成”。 •Suno并不完美,在时长、语言理解力,以及音乐分轨等方面都有问题。 •首先,目前Suno生成的曲子都不到两分钟,很多作品经常戛然而止,影响了听觉效果。 •其次,虽然Suno支持多国语言创作,但其最了解的还是英文,在理解中文歌词及音乐风格上,存在明显偏差。在生成电子、R&B、摇滚等音乐风格时,Suno能处理得很好,但华语流行风格不太行。 •此外,Suno创作出的作品不支持调整分轨,专业人士没有办法对生成的歌曲进行调整,这也是目前困扰Suno商业化的最大难点。虽然目前Suno生成的音乐能轻松达到广告配乐、影视配音标准,但如果客户听完后想修改细节,Suno就办不到了,只能再次随机生成另一首曲子。 •最后,Suno生成音乐音频清晰度不够高,这也让其很难改编。曲子的高频和低频损失比较严重,还会伴有杂音、噪音等。所以目前Suno更多的是用来娱乐。想要解决这些问题,需要数据、时间和一定的技术突破。 1.4.技术演进:Meta和谷歌等科技巨头推动AI音乐技术发展 •单纯用计算机合成音乐这件事,早在上世纪五十年代就已经出现了。这些模型通过将音乐理论的原则转换成算法指令和概率表,来确定音符和和弦 的进行。虽然这些作品在音乐上是合理的,但在创造性上却受限。 •2015~2017年的创业浪潮当中,先后涌现出了多家AI生成音乐相关的项目。2023年以来,toC的AI生成音频产品之间的竞争也日益激烈,Meta和 Google等巨头先后推出了能够创作歌曲和声音的AI工具。 •技术的突变出现在2023年8月,当时Meta发布了AudioCraft的源代码,这是一套基于机器学习构建的大型生成式音乐模型。全球的AI公司迅速开始使用Meta的软件来训练新的音乐生成器,并加入了额外的代码。其中MusicGen通过分析约40万首录音中的模式,提出了33亿个 「参数」,使得算法能够根据提示生成声音,为AI创作音乐作品带来了新的可能。 •2023年9月StabilityAI发布了StableAudio模型,该模型在大约80万首歌曲上进行了训练。用户通过输入文本和音频片段来指导AI。这使得用户可以轻松上传一段吉他独奏,并将其重新编排成具有爵士钢琴风格的作品,甚至带有黑胶播放的感觉。澳大利亚新南威尔士大学的OliverBown表示,音频提示词之所以重要,一方面是因为即使是熟练的音乐家也难以用言语描述音乐,另一方面是因为大多数音乐训练数据的标记都非常粗略,即使是大型模型也可能无法理解复杂的音乐请求。 •谷歌子公司DeepMind也与Youtube联合推出了人工智能音乐生成模型Lyria,并先后推出了一系列具有实验性质的AI音乐工具。2023年11月推出了DreamTrack,它可以按照选定的著名歌手的风格创作原创歌曲。这一工具现阶段可以在YouTubeShorts中与其他AI音乐工具配合使用,创作者借助这些工具可依据文本提示和哼唱自动生成一首完整的音乐作品。2023年12月,谷歌又推出AI音乐创作工具MusicFX,仅需几句话,用户即可生成原创的音乐作品。这一创作工具还结合了DeepMind的水印技术SynthID,以便在事后识别出它们是否由AI制作而成,一定程度上可以解决音乐创作者对于版权问题的担忧。 •2023年12月,微软宣布,已将Suno整合到Copilot中。 •2024年3月,Suno发布V3版本,相较于V2版本支持更多样化的风格、更