第4届声纹识别产业发展与创新研讨会 声纹识别产业发展与创新白皮书 —让声纹更安全— 介绍人:郑方 2024/03/29 编委会 郑方清华大学人工智能研究院听觉智能研究中心主任、得意音通创始人刘永东中国语音产业联盟秘书长、国家工信安全中心人工智能所常务副所长洪青阳厦门大学教授、天聪声云创始人 金琴中国人民大学教授 艾斯卡尔·艾木都拉新疆大学教授、智能科学与技术学院(未来技术学院)副院长 张超清华大学助理教授 张楚IIFAA副理事长、一砂科技创始人 李荪中国信通院云大所人工智能部高级主管 卜辉语音之家创始人、希尔贝壳CEO 李蓝天北京邮电大学副教授成舸得意音通副总经理王钰得意音通市场总监 01 02 声纹识别产业的政策环境变化声纹识别的安全性提升 03 04 06 应用场景的多样化扩展声纹识别产品的体验性提升 目录 05 声纹产业化的进程加速 非完整信息的多特征深度融合 01 声纹识别产业的政策环境变化 声纹识别技术发展的政策导向 01 中国人民银行发布的 《个人金融信息保护技术规范》中,将“动态声纹密码”列入较低隐私敏感度级别的C2级个人信息,要求声纹技术处理个人金融信息时必须遵守严格 的数据保护标准。 02 2022年11月,国家网 信办、工信部、公安部联合颁布的《互联网信息服务深度合成管理规定》中,要求对深度合成服务中涉及生物识别信息的编辑功能进行严格管理,包括声纹编辑功 能。 03 《中华人民共和国无 障碍环境建设法》要求无障碍环境建设应考虑老年人与残障群体的特殊需求,包括提供声纹识别等无障 碍信息服务。 04 2021年国务院办公厅《关于切实解决老年人运用智能技术困难的实施方案》和2021年3月人民银行印发《移动金融客户端应用软件无障碍服务建设方案》要求提供适老化的生物识别服务,以解决老年人使用智能技术中的困难。 5 政策对声纹识别技术应用的新要求 生物识别技术的可解释性与稳定性 隐私保护和数据安全深度合成内容的监管 无障碍环境建设的法律要求适老化改造的特殊要求 02 声纹识别的安全性提升 个体独特性的行为特征 声纹识别技术基于个体独特的频谱特征,如何确保只有声音匹配的人才能通过验证。 难以模仿的声纹特性 声纹识别技术如何通过活体检测等手段区分真实声音和模仿声音,提高安全性。 非接触式验证的优势 声纹识别作为一种非接触式身份验证方式,在公共卫生事件期间的重要性和安全性。 声音信号的难以窃取性 声音信号在传输过程中不易被窃取或拦截的特点,以及其在安全方面的优势。 安全性是声纹识别技术的核心优势 多模态认证的结合应用 声纹识别如何与其他生物识别技术结合使用,如指纹识别或面部识别,以形成多模态认证。 隐私保护的重要性 阐述声纹识别技术在保护个人隐私方面的优势,特别是与收集个人敏感信息相比的隐私保护能力。 声纹识别技术安全性提升的挑战 数据集建设、数据安全及隐私保护 声纹技术依赖于大量声音数据进行训练和识别。在数据采集和处理过程中,必须确保用户隐私得到保护,防止数据泄露或被滥用。 系统性能和稳定性及环境鲁棒性 在实际应用中为确保声纹技术的准确性,需要优化系统性能和提高稳定性,要平衡在各种噪声环境和不同录音设备条件下保持高识别准确率,同时减少系统延迟和故障。 伪造语音、合成语音欺诈 声纹技术可能受到伪造语音和合成语音的攻击,这些攻击可以通过模仿或生成声音来欺骗识别系统。 终端设备干扰及网络攻击 声纹系统会受到终端设备频率干扰和来自网络攻击,影响其正常运行和识别结果的准确性。 研究型数据集建设进展与成效 01 牛津大学计算机科学系、康奈尔大学、谷歌DeepMind合作建设VoxCeleb/VoxCeleb2数据集,包含大量名人和社交媒体的说话者语音片段。 德州仪器、麻省理工学院和斯坦福研究院02合作建设的TIMIT数据集,是一个经典的英语语音数据库,用于语音识别和说话者 识别的研究。 爱丁堡大学建设的VCTK数据集,包含多种口音和语音变体的多说话者语音数据库, 用于多说话者语音合成和说话者识别领域03 的研究。 清华大学语音和语言技术中心发布的CN-Celeb数据集,是一个中国知名人物的声纹 04数据库,用于研究多说话人和多模态声纹 模型技术。 研究型数据集建设成效 第4届声纹识别产业发展与创新研讨会2024-03-29 本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:247865下载,文档Id:159850,下载日期:2024-11-11 拓展声纹识别技术的应用领域 数据管理效率和安全性的提升 促进算法研究和技术创新 提供了多样化的声纹数据 斯坦福研究所(SRIInternational)和布宜 诺斯艾利斯大学计算机学院合作建设的 SITW(SpeakersintheWild)数据集,包含05 来自真实世界环境的多说话者语音片段,用于在实际场景下评估不同系统的性能。 北京希尔贝壳科技(AISHELL)与昆山 杜克大学合作建设的AISHELL-DMASH数06据集,是一个在真实家居场景下录制的声纹数据集,用于研究家居场景下多设备的 声纹识别技术研究。 声纹识别算法及系统演进 x-vector 时序神经网络 i-vector 线性降维模型 d-vector 端到端架构 音频防伪算法研究的突破性进展 前端特征提取 后端模型 恒Q倒频系数 (CQCC) 基线模型GMM 线性频率倒谱系数(LFCC) 频谱提取CQT 逆梅尔倒谱系数(IMFCC) 频谱提取FFT 快速傅里叶变换(FFT) 频谱提取DCT 常数Q变换(CQT) 静音检测VAD 离散余弦变换(DCT) 自适应滤波 (LMS) 多任务学习MTL Log-CQT 声纹系统的潜在被攻击点 2024年1月,由清华大学与得意音通联合研发的基于类脑感知和决策的伪造语音检测方法正式获得国家专利授权 (ZL202311379225.8) 提高了检测方法的普适性、泛化性、可解释性和可扩展性等。 声纹识别系统防攻击能力提升 多说话人分割聚类技术提高了多人同时说话时的语音分离准确率。 多说话人分离优化 迁移学习和自适应技术使声纹识别模型更适应新场景。 模型泛化增强 通过网络结构和对抗学习,提高了处理短语音的能力。 短语音识别改进 深度学习模型和语音增强技术增强了声纹识别系统在嘈杂环境下的准确率。. 抗噪能力提升 算法和模型结构的优化提升了声纹识别系统的快速响应能力。 实时处理性能增强 对抗训练增强了声纹识别模型对未知攻击的抵抗力。 模型鲁棒性提升 集成伪造语音检测技术增强了系统的安全性,有效过滤伪造语音。 伪造语音检测强化 03 声纹算法向应用端下沉 声纹识别相关赛事概述 CNSRC2022 VoxSRC2022 FFSVC2022 SASV2022 CSSD2022 侧重点:研究现有的说话人识别方法在“inthewild”场景下的识别性能。 声纹应用场景:包括但不限于安防、金融、教育等需要高度安全性的场景。 作用:推动声纹识别技术在大规模数据集上的性能提升,为多样化的声纹应用场景提供技术支持。 侧重点:研究现有的说话人识别方法在“inthewild”场景下的识别性能。 声纹应用场景:包括但不限于在线视频平台、社交媒体等需要大规模说话人识别的场景。 作用:推动声纹识别技术在大规模数据集上的性能提升,为多样化的声纹应用场景提供技术支持。 侧重点:远场单通道场景下的说话人识别任务。 声纹应用场景:包括但不限于家庭、办公室等远场语音环境下的声纹识别任务。 作用:推动远场语音环境下的声纹识别技术的发展,为多样化的声纹应用场景提供技术支持。 侧重点:评测说话人识别系统和伪造语音检测系统的集成技术方法,提升说话人识别系统应对闯入攻击的鲁棒性。 声纹应用场景:包括但不限于需要抵抗伪造攻击的声纹识别场景,如金融、安防等领域。 作用:推动声纹识别技术对伪造攻击的抵抗能力,为多样化的声纹应用场景提供更安全的技术支持。 侧重点:对话短语音场景下的说话人日志技术。 声纹应用场景:适用于需要记录对话内容并识别说话人的场景,如智能客服、语音助手等。 作用:推动声纹识别技术在对话短语音场景下的应用,为多样化的声纹应用场景提供新的可能性。 这些赛事对声纹技术的场景多样化扩展起到了重要的推动作用,通过不断优化算法、提高性能、扩展应用场景,使得声纹技术在各个领域得到更广泛的应用。同时,这些赛事也为声纹技术的研发者和应用者提供了交流和学习的平台,有助于推动声纹技术的发展和进步。 第4届声纹识别产业发展与创新研讨会2024-03-29 声纹算法向应用端下沉 金融领域 安全认证:用于用户身份验证和交易确认提升安全性:防止欺诈和非法交易 提高用户体验:快速、便捷的身份识别方式 公共安全领域 电话欺诈识别:用于识别电话诈骗行为 案件侦破:帮助警方快速发现可疑声音信息 防止犯罪:提高公共安全和预防犯罪 教育领域 考试防作弊:于考试时的身份核验 个性化学习:提供个性化学习体验和语音指导提升教学效果:帮助教师辅助教学和评估学生 消费物联网领域 设备认证:用于智能设备的身份认证 防沉迷功能:防止青少年沉迷游戏和保护个人隐私提升用户体验:个性化服务和智能辅助功能 政务领域 远程身份核验:用于政务服务的身份认证 社保防冒用:确保社保资金安全和防止冒领 提高效率:简化政务流程和提高安全性 医疗领域 身份识别:用于患者身份认证和医疗器械操 作权限管理 医保防冒用:防止医保资金的滥用和冒领安全保障:提高医疗服务的质量和安全性 工业物联网领域 故障诊断:用于设备故障的及时检测和预测生产质检:实现产品质检和质量控制的智能化提高效率:提高生产效率和降低维护成本 04 声纹识别产品的体验性提升 身份验证类 产品简介 身份验证类产品主要利用声纹识别技术对用户身份进行确认,提供安全、便捷的身份认证服务。通过声纹密码、声纹智能门锁等方式,实现1:1的身份认证,广泛应用于金融、社保、电子政务、公安等场景。 安全性和便捷性 通过声纹密码等技术,用户无需输入密码或证件,只需朗读动态密码即可完成身份认证,大大提高了安全性和便捷性。 个性化服务 基于声纹识别技术,系统可以准确识别用户身份,提供个性化服务,如根据用户声音特征推荐音乐、播放用户喜欢的音乐等。 音频分析类 产品简介 音频分析类产品主要利用声纹识别技术进行音频文件的真伪鉴定、声音故障诊断等。通过声纹技术和深度学习算法,实现对音频文件的准确鉴伪和故障预警,广泛应用于司法、工业生产等领域。 体验性提升: 高效性和准确性:通过声纹技术和深度学习算法,音频分析类产品可以快速准确地识别音频文件的真伪和故障,提高了工作效率和准确性。 侵入性和隐私保护:音频分析类产品采用非侵入式监测,无需接触设备即可进行声音监测,有效保护用户隐私。 语音助手类 产品简介 语音助手类产品结合了声纹识别技术和语音识别、自然语言理解等技术,实现智能语音交互。通过声纹识别技术,语音助手可以准确识别用户身份,提供个性化服务,广泛应用于金融、智能家居等领域。 体验性提升: -便捷性和个性化:通过声纹识别技术,语音助手快 速准确地进行无感身份认证,提供个性化服务与帮助,如根据用户声音特征推荐音乐、远场识别环境异常音等。 -高效性和安全性:语音助手可以自动识别和理解语音命令,实现高效的人机交互流程,同时通过声纹识别技术保证交易和操作的安全性。 得意音通OS4E(一句话解决问题) 分音塔老人安全智能报警器 声纹采集类 产品简介 声纹采集类产品主要利用专业的声音采集硬件和语音预处理算法,实现高质量的声纹采集。通过声纹采集终端,可以获取清晰的语音信号,确保后续识别的准确性和高效性。 体验性提升: 高质量声纹采集