对等关税新质生产力低空经济 DeepSeek AIGC 人形机器人智能驾驶大模型固态电池半导体银发经济

AI音乐应用产业报告

信息技术2024-07-21丁乔量子位智库华***

AI智能总结

AI音乐应用产业报告概览

技术篇

定义：AI音乐生成是指通过机器学习技术对音乐数据进行分析和学习，进而创造出音乐作品的技术。
关键节点：
- 2016年：音乐生成领域的「集大成者」Suno推出。
- 2023年1月：谷歌发布MusicLM，基于语音模型AudioLM进行改进。
- 2023年6月：Meta推出AudioCraft系列，包括AudioGen、MusicGen及Encodec。
- 2024年3月：Suno发布V3.5版本，支持4分钟音乐生成。

AI音乐生成流程

数据收集：收集音频文件、MIDI序列、乐谱等音乐数据。
数据预处理：包括去噪、分割、标准化等。
特征提取：提取音高、音色、节奏、动态变化等。
模型训练：使用深度神经网络、VAE或Transformer等方法进行训练。
生成与优化：通过不断调整模型参数以生成音乐并优化其质量。

音频生成模型

符号模型：在应用侧难落地，受限于成本和侵权风险。
音频模型：成为研究热点，能够生成完整歌曲，具有高流畅性和自然性。

产业篇

AI改变音乐产业：简化制作流程，提供新创作思路。
音乐制作流程简化：一人完成从创作到发行的全过程。
AI音乐现状：母带处理、混音等环节已成熟应用。
AI音乐应用：电影配乐、游戏音效、短剧音乐。

商业模式

流媒体平台：成为商业化最确定的一方。
音乐生成产品：作为新生产工具，降低创作成本，增加内容丰富度。

展望篇

未来展望：解决情感表达，AI音乐社交化。
产品案例：Suno V3.5版本支持4分钟音乐生成，天工SkyMusic提供中文音乐创作服务。

关键结论

AI音乐生成技术正逐步成熟，音频模型因其完整性和自然性成为主流研究方向。
流媒体平台在AI音乐商业化中扮演关键角色，传统音乐工程面临挑战。
数据和情感表达是AI音乐生成技术迭代和商业成功的关键。
AI音乐应用在电影配乐、游戏音效、短剧音乐等领域展现出广阔前景。
音乐生成产品作为新生产工具，将创作者群体扩大至大众，推动音乐产业变革。
面向未来，AI音乐产业将在情感理解和表达、社交互动等方面迎来重大变革。

AI音乐应用产业报告 2024.07量子位智库QbitAIInsights分析师丁乔dingqiao@qbitai.com 目录01 02 03 技术篇产业篇展望篇 04产品案例核心结论 音乐符号模型打开AI音乐生成的大门，音频模型找到AI落地音乐应用的方式 音频路线成为研究热点，为应用爆发奠定技术基础 生成式AI改变音乐产业，简化音乐制作流程，提供音乐创作新思路 流媒体平台或成为AI音乐商业化中最确定的一方，传统的音乐工程在此轮变革中是受冲击最大的一方 数据是技术迭代和商业化过程中最关键的一环，生成音乐中对情感表达的把控是产品迭代的关键 01技术篇 AI音乐生成定义：AI音乐生成是指通过对大量音乐数据进行学习和分析，掌握音乐的基本规律和风格特征，从而创作出音乐片段或完整的音乐。发展关键节点 •谷歌Megenta项目音乐生成进入神经网络时代 •OpenAI发布JukeBox奠定了Transformer文生音乐的基本架构；采用压缩技术让Jukebox能够处理更复杂的音乐，更好地理解音乐文本 •谷歌发布MusicLM 2023年1月，谷歌发布MusicLM，搭建在之前发布的语音模型AudioLM之上 •Meta入局 2023年6月，Meta推出AudioCraft系列产品，包括负责生成音效的AudioGen，生成音乐的MusicGen以及一个全新的压缩编码方式Encodec •Suno 音乐生成领域的「集大成者」，实现AI生成完整歌曲； 2024年3月发布V3模型 •Udio 4月11日，AI音乐生成工具Udio完成测试，正式上线 •天工SkyMusic 4月，昆仑万维发布基于「天工3.0」打造的「天工SkyMusic」产品 2016202020232024 AI音乐生成的基本流程数据收集数据预处理特征提取 •音频文件、MIDI序列、乐谱或其他音乐数据评估和优化 •对生成的音乐作品进行评估，包括主观评估和客观指标，如音乐理论的一致性和听觉效果的愉悦度； •根据评估结果，模型会进一步的调整和优化 •对收集到的音乐数据进行预处理，包括去噪、分割、标准化等生成新的音乐生成不同类型的音乐 •包含人声的完整歌曲 •背景音乐 …… •提取音乐数据里的特征，包括音高、音色、节奏、动态变化等训练阶段 •选择合适的模型进行训练 •模型通过不断调整内部参数来最小化预测误差两种技术路线音乐符号模型打开AI音乐生成的大门，音频模型找到AI落地音乐应用的方式符号模型的研究要早于音频模型的研究，但符号模型生成的音乐在最终效果上存在明显的机械、不自然特征，因此在应用侧难以落地。而音频路线在近两年取得了突破性进展，生成的作品更加流畅自然。因此，这条路线成为目前业内更受欢迎的一条路线。此外，音频模型路线因其生成音乐的完整性更高，且能够直接生成歌曲，对于用户来说可以做到零门槛创作，在商业化上也更具潜力。生频音模成型号符•原理生提取出音频中的各类音乐信息，如歌模成词、旋律、乐器等，并对这些信息进行标注，拆分成音乐的各个环节来生型成词、曲等直接用海量音频数据训练模型， •原理 •局限使用深度神经网络和VAE或算力成本高昂； Transformer等方法，端到端直音频生成的侵权风险相较于符号生成更接生成音乐大（后者学习乐理规则，前者直接模仿成品音乐）音频+音乐符号协同生成 •可根据文本直接生成音频 •乐谱生成，并且支持对已生成的 •案例：乐谱进行自动编辑操作腾讯的「琴乐大模型」，同时支持文本生成音乐，以及乐谱生成 •局限生成的是音乐的不同部分而非成品音乐，需要通过传统的音乐制作流程，将各部分融合起来，制作成音频内容音频路线成音为频研究模热型点，的为代应用表爆发奠定技术基础 MusicLM在跨模态创作和个性化音乐生成上表现出色，而MusicGen则在音乐质量和风格适应性方面具有优势。MusicLM的出现标志着音乐生成技术向更高级别的艺术创作和智能化方向发展，而MusicGen则代表了音乐生成技术在音乐制作和质量方面的进一步提升。 MusicLM是一个基于Transformer架构的模型。 MusicLM的一个显著特点是能够生成多音轨作品，生成的音乐更具艺术性和个性化。 MusicGen同样基于Transformer架构，但更侧重于生成高质量的音乐样本。音高乐质生量成模型能够生成具有丰富和声和旋律的音乐，接近专业音乐作品的水准风格适应性能够学习和模仿各种音乐风格，从而生成符合特定风格的音乐作品高效生成通过优化模型结构和训练过程，MusicGen能够快速生成音乐，提高创作效率 MusicGen能够生成具有高度复杂性和多样性的音乐作品，同时保持音乐的结构和风格一致性，生成的音乐听起来更加自然。多模态能力结合了文本和音乐两种模态，能够实现跨模态的创意表达谷歌MusicLM 长赖距处离理依模型能够捕捉音乐序列中的长距离依赖关系，生成连贯的音乐作品 MetaMusicGen 上下文理解通过文本描述，模型能够更好地理解用户的需求和创作意图 02产业篇音乐制作流A程I改简化变，音提供乐创产作新业思路音乐产业的核心动力来自于创作部分，属于音乐从0到1的阶段；而音乐制作是音乐从1到100的过程，包含大量的音乐工程。音乐产业在进入工业化阶段后，存在供过于求，创新力不足等问题。 AI音乐生成的出现，为音乐产业带来新的创作思路，让越来越多的人加入到音乐创作当中。此外，AI对于音乐产业的一大变革在于音乐流程的极大简化。原先不同步骤的工序需要不同的人/团队来完成。AI出现后，一个人可以完成所有工序。其中，生成式AI更多运用在创作部分，在制作和发行流程中，也会加入其他AI技术。本报告主要聚焦于生成式AI对音乐产业中部分环节的变革。 •录音音乐制作 •剪辑 •混声 •母带处理推广发行 •唱片发行音乐创作 •作词 •作曲传统方式通过学习大量乐理知识来形成对音乐的理解，花费大量时间来构思和设计音乐结构 AI 通过学习海量音乐数据来掌握音乐的基本规律，并进行创作编曲音频工程师、母带工程师等对音乐进行处理作为自动化音频处理工具，保证音乐最终的质量由唱片公司代理，承包艺人的宣发工作艺人可以在流媒体平台发布自己的专辑或单曲，平台为用户匹配适合的歌曲风格，并提供个性化音乐推荐 AI制作走向A成I音熟，乐AI创现作状处于发展上升期 AI在音乐制作中的应用已经相对成熟，在母带处理、混音等工程含量较高的环节已经的到很好的应用，如Landr通过AI进行母带处理并由此形成稳定的商业模式。然而，在音乐创作中，AI的应用处在早期阶段。Suno属于这个赛道上第一家出圈的公司。昆仑万维、网易天音等是中国市场中的领先者。这份报告在产品侧主要聚焦于生成式AI在音乐创作上的应用。需要音乐基础无需音乐基础音乐创作在音乐创作中，AI不仅 AI编曲AI作曲AI作词一键生成需要理解和模仿复杂的音乐结构、和声、旋律、节奏等元素，还需要让人声和乐器完美结合具体体现创作各种风格的编曲，提供音乐编排等建议根据用户提供的参数自动生成旋律、和弦等选择场景、心情、环境等描述情感 /氛围的关键词，或输入创作灵感，AI一键生成歌词输入提示词生成音乐，大致分为两类：1）一键生成完整音乐 2）一键生成完整音轨音乐制作音频信号处理自动去除音频中的杂音、噪音，音频压缩等混音处理根据创作者的要求，自动平衡轨道间的音量，调整均衡器设置母带处理自动检测音乐特点，并自动应用适当的母带处理效果注：未穷尽，重点展示关键工序/环节的AI应用 AI音乐产业图谱 AI音乐创作AI音乐制作一键生成音频处理 AI作曲混音处理母带处理 AI作词产品密集发一布键，初生步成实现类「产人人品皆可创作」今年3月，Suno发布V3模型。用户只需给出风格和主题词，几秒钟便可以生成一首两分钟的原创歌曲。一个月后，另一款有相似功能的产品Udio也正式推向市场。 Suno最新发布的V3.5，已经能够完成 4分钟的音乐创作，在歌曲的完整度和情感表现上，都较V3.0版本有所提升。在中文歌曲的呈现上，Suno等海外产品在人声上会出现明显的瑕疵（如声音不够稳），而中国本土的音乐生成软件不论是对中文歌的旋律、节奏等的把控，还是对歌词的理解上，都有更好的表现力。也因此，本土产品在生成音乐的曲风上更加符合本土市场需求。「一键生成」成为了AI音乐市场最热的话题，中国市场中网易、昆仑万维、腾讯等公司也推出了音乐生成产品。生成式AI在音乐领域，开启了「人人皆可创作」的时代。产品的可观表现，也激发了资本对于生成式AI落地的信心。Suno在5月22日完成A轮1.25亿美元融资，Udio在4月正式上线之际也宣布完成1000万美元的种子轮融资。海外产品产品是什么产品特点 Suno 由AI驱动的音频和音乐生成工具高品质、多语言、完整性高的歌曲生成 Udio 由AI驱动的音乐创作和分享平台在合成人声中捕捉情感的能力 StableAudio AI生成音乐平台生成长度可调节 CassetteAI AI驱动的音乐生成平台一键生成完整音轨本土产品产品是什么产品特点网易天音使用AI进行编曲、作词或一键生成音乐支持一键生成、AI作曲/AI作词天工SkyMusic 一键生成音乐平台作品的情感表达力丰富，人声逼真海绵音乐字平节台跳动推出的免费AI音乐创作和分享音乐风格更符合国人喜好 BGM猫灵动音推出的一键生成背景音乐产品音乐高能点可调节专业人士的一「键降本生增成效」类工产具，品爱对好者音的乐音乐人入群门产的品作用降低创作门槛提升创作效率对于非专业人士来说，AI生成音乐主要解决了缺乏乐理的难题。而对于专业人士来说，目前AI更多是在制作环节帮助音乐人更高效地完成工作。用专非创意助理•一键生成音乐作品业户 AI 用业专创意助理•提供多样化的音乐表达户 •音乐制作的各个流程在产品提供的多种风格中进行选择，只需要输入合适的提示词，就能够生成音乐作品。即使用户没有乐理知识，只需对自己想要的音乐流派和风格有所了解，即可生成完整的音乐作品。降低制作成本音乐制作进入工业化阶段后，在创新性上呈现乏力态势，而生成式AI所带来的不可预测性恰好为创作者提供了一个摆脱已有创作习惯的路径，让多样化的音乐创作变得更有可能。生成的音乐需要后期处理来提高其质量，相比于传统的音乐制作流程，AI一键生成音乐的成本要低得多，并且在创作效率上也有大幅提高。对于专业的创作者来说，AI生成音乐尽管不会成为他们的最终作品，却能够生成全新的音乐结构，为创作者提供灵感的同时提升创作效率。提升制作效率音乐人无需掌握复杂的工程能力，也能音频工程师都可以用AI来完成通过算法可自动优化混音、母带处理、声音优化等。这些工序往往涉及大量的重复性工作和对已有数据的处理，也可以由AI完成且成本更低。高效完成自己的作品。短剧市场将应率用先接场受景AI音-乐影成视品，电影市场中AI仅用于音乐生产的部分环节 AI音乐在影视上的应用可大致分为两个方向：电影配乐和短剧音乐。电影配乐既是观众情绪的助推器，也是电影剧情的“提示词”，这意味着AI想要达到影视配乐的标准，需要对电影从整体和细节上都准确把握。目前,生成式AI类产品尚无法做到这点。在电影配乐环节，生成式AI更多地是充当灵感激发和效率提升的作用，在创作环节还是由作曲家来把控。而在短剧领域，对于音乐的要求更简单，更加注重音乐传播度，音乐首先服务于传播效果。因此，在音乐的选择上也偏向于有记忆点，旋律简单易于传唱的类型。生成式AI已经能够很好地完成这种类型的音乐创作。正因

点击免费查看完整报告