您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天津大学&慧言科技]:“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨 - 发现报告
当前位置:首页/行业研究/报告详情/

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨

数字智慧言语畅享 “海河·谛听”言语交互大模型及其在身份认证领域的应用探讨 天津大学/慧言科技王龙标 1 数字智慧言语畅享 言语交互:人类最自然的交互方式 言语是人类最基本和最重要的交流方式它不仅能够传递字面信息,还能够传达言外之意,并影响他人的 情绪、态度和行为,从而实现各种社会目的。 教育办公健康金融 2 数字智慧言语畅享 言语交互的主要挑战 言语包含语言、韵律、情感和说话人等信息 目前的语言大模型只利用语言(文本)信息,导致言语交互系统无法做到意图的深度理解。 痛点1语音模型: 模型多、维护难、效果差 痛点2通用大模型: 行业效果差、部署成本高 痛点3语音/文本单模态模型: 理解能力不足 多语言交互困难形简意丰 3 数字智慧言语畅享 打造国际领先的言语交互意图理解大模型 借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心,透过言语理解意图。 始终“以人的机理为蓝本”,将言语信息与语言学、心理学和脑科神经科学相结合,以大模型为基础实现言语意图的深度理解。 支持NVIDIA架构和国产化架构。 浅层融合深度融合统一模型 4 数字智慧言语畅享 研发资源&团队架构 基于天津市人工智能计算中心 打造自主可控言语交互意图理解大模型 总负责人:党建武 天大教授/国家人才/慧言CSO 技术总监:王龙标 天大教授/国家人才/慧言CEO 研发团队 数据 资源 国产架构 算力资源 天津市河北区政府 天津市人工智能计算中心 ModelArts:昇腾AI芯片,MindSpore等 海量文本数据 海量语音数据 工程化:慧言科技 算法:天津大学 2022年8月,言语交互意图深度理解大模型及 应用领域合作签约仪式5 数字智慧言语畅享 通用语音大模型算法团队 天大算法团队:3位导师、5名博士学生、7名硕士学生 慧言科技算法/工程化团队:数名资深算法工程师 总负责人:党建武 天大教授/国家人才/慧言CSO 技术总监:王龙标 天大教授/国家人才/慧言CEO 团队指导:王晓宝天大助理教授 新型通用 语音预训练框架 博士学生 王天锐——解耦式自监督预训练贡诚/王天锐——语音生成大模型林羽钦——语音识别 刘佳星——语音情感识别刘猛——声纹识别 硕士学生 崔辰瑞——Wav2vec2.0框架迁移 李津——HuBERT框架迁移舒钰淳——WavLM框架迁移 芦皓宇——语音识别下游任务微调吴晟——语音情感下游任务微调朱晓——电话信道数据模拟 顾铭扬——语音特征提取 基于ModelArts的 语音预训练框架 6 数字智慧言语畅享 “海河·谛听”大模型技术路线打造国内领先的通用语音预训练大模型 Time-2-Feature DomainConversation SpeakerInfoExtractor - EmotionInfoExtractor - SemanticInfoExtractor WeightedSum UniversalFeature 7 数字智慧言语畅享 基于ModelArts的通用语音预训练大模型概要 •项目资源 •22×8×Ascend910(32GB) •128T磁盘空间 •运行环境:云上910训练 云上910推理MindSpore1.7 •遇到并解决的难题 Self-supervisedLearning UnlabeledDataKnowledge 言语交互意图 理解大模型 Wav2vec2.0HuBERT WavLM D-HuBERT •Pytorch框架转MindSpore框架 •语音数据长度不定的问题 •与MindSpore静态图训练策略友好度较差 •混合精度训练梯度溢出 少量语音识别数据 少量语音情感识别数据 少量任意语音任务数据 •...... 语音识别模型语音情感模型特定任务专家模型8 数字智慧言语畅享 基于解耦思路的语音预训练大模型结果 可以大幅提升声纹识别性能,并在其他任务上保持优越的效果。 对于说话人识别任务(SID),只有指定的解耦层(4)起作用。 T.Wangetal.,“ProgressiveDecoupling-stylePre-trainingforSpeechRepresentationLearning,”submittedtoInterspeech2024.9 数字智慧言语畅享 语音输� 语音的离散表征 EOS TransformerDecoder层 xN 文本 BOS 语音的离散表征 “海河·谛听”语音生成大模型技术路线 打造国内领先的通用语音生成大模型 解码器 预测模块 多语言文本/语音信息编码(Embedding) 10 数字智慧言语畅享 语音生成大模型 语音生成个性化定制,让声音复刻简单快捷。 基础大模型 数十万小时 少量样例音频 5~20秒 复刻音色模型 可生成多语种内容 英文原始英文复刻 中文原始中文复刻 可能被用来恶意伪造声纹 中文原始 跨语种 英文复刻 跨语种 英文原始中文复刻 11 数字智慧言语畅享 面向操纵伪造检测的安全说话人确认探讨 12 说话人确认&伪造检测 •语音合成技术给人们的生活带来便利的同时,也会被犯罪分子用来伪造目标说话人的语音实施攻击和 诈骗,对经济安全、社会安全、国家安全带来一定的风险和威胁。 •视听多模态有助于实现高精度的说话人与伪造检测结果。 数字智慧言语畅享 基于多模态的说话人确认&伪造检测 基于语音感知大模型的伪造检测13 数字智慧言语畅享 AVLip:跨模态协同学习驱动的视听说话人确认 •AVLip系统利用交叉模态注意力机制来增强特征表示,从而实现有效的模态间对齐和信息融合。 •AVLip框架采用了音视伪孪生结构,该结构设计用于促进听觉和视觉模态之间的信息交换和相互增强。 M.Liuetal.,“Cross-ModalAudio-VisualCo-LearningforText-IndependentSpeakerVerification,”Proc.ofICASSP2023.14 数字智慧言语畅享 视听说话人确认结果 M.Liuetal.,“Cross-ModalAudio-VisualCo-LearningforText-IndependentSpeakerVerification,”Proc.ofICASSP2023.15 数字智慧言语畅享 SyncLip:跨模态语义与身份一致性建模 SyncLip:框架通过独立视觉音频编码器和跨模态解码器融合特征,用于语义一致性检测以识别篡改视频。 M.Liuetal.,“Cross-ModalSemanticConsistencyModelingonSpeechTemperingDetection,”submittedtoIEEESPL. 16 数字智慧言语畅享 跨模态语义与身份一致性结果 M.Liuetal.,“Cross-ModalSemanticConsistencyModelingonSpeechTemperingDetection,”submittedtoIEEESPL. 17 18