声音技术的未来 大模型带来的音频算法革新 张俊博 小米AI实验室语音技术专家 讲师简介 “小米语音技术专家。 请插入 您的照片 博士毕业于中国科学院声学研究所,多年从事智能语音技术的研究和应用,在语音 识别、发音评测、语音合成、音频标记等领域都做过深入的工作,在顶级会议和期刊发表论文30余篇,著有出版物《Kaldi语音识别实战》。 目前在小米负责若干项声学语音新技术的研发。 ” 内容提要 •对大模型的思考 •小米的音频大模型探索 对大模型的思考 Llama2模型:没有任何模型结构上的创新 原理上是量变,效果上是质变 无法解释,只好说“涌现” 大模型的成功,证明了这样的路线是可行的 为AI研究指明了方向 不知道 人类对它的原理还远远称不上理解 但大模型研发并没有技术原理上的门槛 虽然不知道麦克斯韦方程组不妨碍古人发明指南针 虽然暂时未能全面理解大模型不妨碍我们做出更强的大模型 图片来源 本地化、轻量部署 手机端侧大模型部分场景媲美云端 文本形式训练数据相对更易获取和处理大模型首先以文本模态出现 但人类更倾向于使用视觉和声音交互 www.top100summit.com User Whatisunusualaboutthisimage? GPT-4 Theunusualthingaboutthisimageisthatamanisironingclothesonanironingboardattachedtotheroofofamovingtaxi. 令人震惊的多模态能力强人工智能已实现? 小米的音频大模型探索 全球最大消费级IoT平台 6.99亿 IoT平台已连接设备数 1370万 拥有5个及以上小米IoT设备的用户数 在手机和IoT设备上针对垂域的识别率极高,且已经探索出成熟的迭代优化流程 但是!这不是大模型时代的方案技术革新势在必行 更先进的模型结构?No 模型结构并无不同 多语种训练数据 带有多任务标签 680,000hoursofmultilingualandmultitasksuperviseddatacollectedfromtheweb 大语言模型作为模型骨架和初始化参数 多语种音频和文本数据迭代训练 用prompt约束语音识别领域,提升识别率 把大语言模型输出通过cross-attention联入encoder 更加自然支持Prompt定制 VALL-EX Lookalittlecloserwhileourguideletsthelightofhislampfallupontheblackwallatyourside. 视频来源 https://www.bilibili.com/video/BV1e84y1U7j4 baseline 中文说话人合成效果 使用小爱默认音色说话人迁移 (prompt) 目前支持85种声音事件 训练数据时长超过30年 参数量超过10亿 正在探索百亿参数量的模型 独创的一致性集成蒸馏技术 论文已被ICASSP2024接收 模型开源可下载 已有成果其实已经具备了部分大模型的能力需要进一步整合 •大模型的成功为AI研究指明了方向 •多任务统一学习可以带来真正的理解能力和强大的任务自推广能力 •各任务的统一、各模态的统一是大势所趋 微信官方公众号:壹佰案例 关注查看更多年度实践案例