洪青阳 厦门大学智能语音实验室http://speech.xmu.edu.cn 2026.05 背景介绍1端到端对话模型3语音识别大模型2全双工语音交互4落地应用5 CONTENTS目录 1.背景介绍—世界语种 n根 据 世 界 人 口 数 据 库Ethnologue第26版,目前世 界 上 现 存 有7168种 语言,142个语系。 世界语系分布图[1] [1]Eberhard, David M, Gary S F, et al. Ethnologue: Languages of the world[M]. 26th ed. Dallas,Texas: SIL International,2023 1.背景介绍—中国方言 n根据教育部2019年《中国语言文字概况》介绍,汉语方言通常分为十大方言:官话方言、晋方言、吴方言、闽方言、客家方言、粤方言、湘方言、赣方言、徽方言、平话土话。 1.背景介绍—多语种识别 1.背景介绍—GPT-4o语音模式 •2024年5月,OpenAI团队率先提出了一个结合多模态的端到端实时交互大模型——GPT-4o。该模型在GPT-4的基础上,增强了文本、视觉和音频处理能力,能在最快232毫秒内响应音频输入,平均响应时间为320毫秒,已接近人类水平。 1.背景介绍—豆包语音交互 •豆包—动态判停 1.背景介绍—豆包语音交互 •豆包—动态判停 1.背景介绍—级联式对话模型 •最基础的语音对话系统包含三个核心模块:语音识别、LLM和语音合成模型。 级联式SpeechLMs存在以下问题: •信息丢失。语音信号不仅包含语义信息(即语音的含义),还包含副语言信息(如音高、音色、音调等),这是文本所不具备的。•错误累积。级联式模型很容易导致整个流程中出现累积性错误,尤其是在ASR-LLM阶段。•高延迟。由于数据需要在多个模块间传递,系统响应时间较长,复杂性高,不利于实时语音交互。 1.背景介绍—端到端对话模型 •为实现更好的人机交互体验,需要真正实现一个端到端语音对话模型,如图所示,通过语音编码器将语音离散化,由语言模型直接处理语音数据,实现多个模态实时输入输出。 1.背景介绍—全双工语音交互 单工通信。数据仅沿一个方向流动。说话者可以发送数据,而听者只能接收数据。 半双工通信。数据在两个方向上流动,但不同时流动,类似对讲机。 全双工通信。允许双方同时发送和接收数据。全双工不一定是端到端对话模型! 1.背景介绍—全双工语音交互 •GPT Realtime采用WebRTC协议进行语音交互,使得音频以连续流的形式到达,更重要的是,该协议本身支持全双工通信。•关键挑战--打断和判停:用户打断时,语音助手应停止回复;同时,语音助手需要准确识别用户是否讲完了,即意图判断。 报告聚焦两个关键问题 •如何通过大模型,实现多语种语音识别?•如何通过大模型,实现全双工语音交互? PART TWO 语音识别大模型 2.语音识别大模型 2.1语音识别过程2.2语音识别发展史2.3 Transformer2.4 Conformer2.5大语言模型(LLM)2.6开源模型 2.1语音识别过程 •语音识别的任务为,找到对应观察序列𝐀的最可能的词序列𝐀。按贝叶斯准则:𝐀𝐀|𝐀𝐀𝐀 •要找到最可能的词序列,必须使上式右侧两项的乘积最大。第一项由声学模型决定,第二项由语言模型决定。 2.1语音识别过程 2.1语音识别过程 词典:今天j in1 t ian1天气t ian1 q i4很h en2好h ao3 2.1语音识别过程—系统框架 2.1语音识别过程—系统框架 2.2语音识别发展史 2.4 Conformer 流识别机制 CTC输出经贪婪搜索(Greedy Search)或前缀剪枝搜索(Prefix Beam Search),后续可接两种解码器:•接Transformer的解码器,进行二次解码 2.5大语言模型(LLM) •接入LLM,需把连续语音转化为离散编码,并通过适配器(Adapter)与文本对齐。•语音编码器(Encoder)可采用Transformer或Conformer Encoder,而解码器直接用LLM, 即Decoder-only Transformer, 实现next token预测。 离散编码—Token Token是对文本进行分割和编码的最小单元,它可以是以下形式: •字符,如’h’;•单词,如“hello”;•子词•BPE(Byte-pair Encoding),如“ello”;•BBPE(Byte-level Byte-pair Encoding):UTF-8编码+BPE,可以跨语言使用。 Token化(编码为BPE) 原始文本(莎士比亚): 以TiktokenGPT2 BPE为分类单元: train has 301,966 tokensvalhas 36,059 tokens First Citizen:Before we proceed any further, hear me speak. All:Speak, speak. First Citizen:You are all resolved rather to die than tofamish? 对字符串采用TiktokenGPT2 BPE进行分词并编码,例enc.encode("hello world")[31373, 995] All:Resolved. resolved. First Citizen:First, you know Caius Marcius is chief enemy tothe people. All:Weknow't, weknow’t. …… 多语种与方言识别 多语种建模:BBPE Tokenizer(GPT、Whisper) lTokenizer是大模型非常重要的概念。l基于Unicode编码后使用byte建模可以打破语言的限制,所有的语言都可以共用建模单元。l英语字符本身在ASCII码中,因此天然就是BBPE。其它语言字符需要多个字节进行编码。 2.6开源模型—Whisper Ø使用68万小时弱标签数据进行训练;Ø模型结构使用Transformer结构;ØFBank特征(80维,large-v3 128维);Ø使用基于GPT2的tiktoken;Ø通过prompt的方式包含语种标签;Ø通过设计prompt的方式进行多任务训练。 Whisper:大规模数据多任务训练的端到端Transformer模型 A. Radford, J. W. Kim, T. Xu, G. Brockman, C.McLeavey, and I.Sutskever, “Robust speech recognition via large-scale weak supervision.”arXivpreprint arXiv:2212.04356 (2022). 2.6开源模型—小红书FireRedASR Ø包含约7万小时高质量精标中文数据和1.1万小时英文数据;Ø中文采用字符编码,英文采用BBPE编码。 2025年1月,小红书发布FireRedASR,包括AED和LLM版本,其中语音编码器(Encoder)采用Conformer,LLM基于Qwen2-7B-Instruct(冻结),采用LoRA微调Encoder和Adapter。 2.6开源模型—Qwen3-ASR Ø支持30个语种和22个中国方言;Ø约4000万小时伪标签数据(中英为主);Ø支持流式输入,支持语种识别;Ø采用5万条数据和组序列策略优化(GSPO),进行强化学习。 2026年1月,阿里巴巴发布Qwen3-ASR,包括0.6B和1.7B版本。采用,预训练语音编码器—AuT(采用AED框架),然后接入Qwen3 LM(基模为Qwen3-Omni)。 Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, JunyangLin, "Qwen3-ASR Technical Report," arXiv preprint arXiv:2601.21337. 端到端对话模型PART THREE 3.端到端对话模型 •如何实现语音Token化?尽可能保留原始语音的声学和语义信息。•语音文本如何对齐?以接入LLM,统一建模。•LLM输出的Token如何转化为语音输出? 3.端到端对话模型 •语音编码器(Speech Encoder/Tokenizer)•大语言模型(LLM)•语音解码器(Speech Decoder/Detokenizer) 3.1 Speech Tokenizer (Encoder) •语义Token/特征 •优先捕捉语音中的内容,即语义(Semantic)信息,适合与识别、翻译模块结合。•一般采用Wav2Vec、HuBERT、Whisper等预训练模型。 •声学Token (离散空间) •聚焦语音压缩与高保真重建,携带更多声学(Acoustic)信息,如语气、风格、情感等,离散化表示,更适合语音合成、音频生成等任务。•典型模型包括SoundStream、EnCodec、TiCodec等。 •统一Token •兼顾语义和声学信息。•典型模型包括Mimi、SpeechTokenizer、X-Codec等。 3.1 Speech Tokenizer (Encoder) 语义Token/特征 •编码器(Encoder): Whisper,HuBERT, … 接入LLM需要增加一个适配器(Adapter),和额外的训练阶段,以实现模态对齐。 3.1 Speech Tokenizer (Encoder) 语义Token/特征 •编码器(Encoder) +有限标量量化(FSQ):CosyVoice2、CosyVoice3 CosyVoice2由阿里巴巴团队推出,其设计的Supervised speech tokenizer,是在语音识别模型SenseVoice-Large的Encoder插入FSQ,实现量化表征。CosyVoice3替换了Encoder,并进行多任务训练。 3.1 Speech Tokenizer (Encoder) 声学Token •音频编解码器(Codec) +向量量化(VQ) 通过Neural Audio Codec(如SoundStream、EnCodec),将连续的语音信号经过Encoder输出连续隐向量,然后做向量量化(VQ),最后编码为离散的语音Token序列。VQ码本采用K-mean生成,会带来量化误差,改进版包括残差向量量化(RVQ)、有限标量量化(FSQ)等。 3.1 Speech Tokenizer (Encoder) 声学Token •关键技术—残差向量量化(RVQ) RVQ通过逐步分解数据的残差来进行量化。首先将输入向量通过第一个量化器量化,得到一个较为粗略的近似值,然后计算原始数据和近似值之间的差异(即残差)。接着对残差应用第二个量化器,得到更精确的近似,并继续计算残差。这个过程可以重复多次,通过多个量化器逐层逼近原始数据,减少量化误差,其流程如图所示。 3.1 Speech Tokenizer (Encoder) 声学Token •典型例子:SoundStream 采用RVQ的方式实现音频数据的高效压缩,由重建损失(Reconstruction Loss)、对抗损失(AdversarialLoss)等共同优化模型。 NeilZeghidour,Alejandro Luebs