行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

语音大模型：从语音识别到全双工语音交互

信息技术 2026-05-19 - 厦门大学土豆不吃泥

背景介绍

世界现存7168种语言，142个语系。
中国汉语方言分为十大方言：官话、晋、吴、闽、客家、粤、湘、赣、徽、平话土话。
多语种识别方法包括端到端和多级联式，端到端方法能更好地保留语音信息。
GPT-4o结合多模态，增强文本、视觉和音频处理能力，实时响应音频输入。
豆包语音交互采用动态判停技术。
级联式对话模型存在信息丢失、错误累积和高延迟问题。
端到端对话模型通过语音编码器将语音离散化，由语言模型直接处理，实现多模态实时输入输出。
全双工语音交互允许双方同时发送和接收数据，但并非所有全双工系统都是端到端对话模型。

语音识别大模型

语音识别任务为找到对应观察序列的最可能的词序列，需声学模型和语言模型共同决定。
语音识别过程包括特征提取、声学模型、语言模型和解码器。
语音识别发展史：模板匹配 -> 统计模型 -> 深度学习 -> 大语言模型。
Transformer模型包含自注意力机制、位置编码和前馈层。
Conformer模型结合卷积神经网络和Transformer，提高识别性能。
大语言模型（LLM）在语音识别中通过适配器与文本对齐，实现next token预测。
开源模型Whisper采用Transformer结构，使用大规模弱标签数据进行训练。
开源模型FireRedASR采用Conformer编码器和Qwen2-7B-Instruct LLM。
开源模型Qwen3-ASR支持30个语种和22个中国方言，采用AED框架和Qwen3 LM。

端到端对话模型

端到端对话模型包含语音编码器、大语言模型和语音解码器。
语音编码器分为语义Token/特征、声学Token和统一Token。
语义Token/特征优先捕捉语音中的内容，如Wav2Vec、HuBERT、Whisper等。
声学Token聚焦语音压缩与高保真重建，如SoundStream、EnCodec、TiCodec等。
统一Token兼顾语义和声学信息，如Mimi、SpeechTokenizer、X-Codec等。
大语言模型包括LLaMA-3.1-8B-Instruct、Helium-7B、GLM-4-9B等。
语音解码器将离散Token生成梅尔谱，通过声码器转成波形，关键技术为Flow Matching。
典型例子CosyVoice和GLM-TTS采用Flow Matching模型结构。
开源模型Moshi、GLM-4-Voice、Qwen-Omni系列、Kimi-Audio、Step-Audio2等。

全双工语音交互

全双工语音交互模型需同时具有听和说的能力，实时处理两条音频流。
插话打断可通过声学VAD、语义VAD和端到端建模实现。
语义VAD包括EasyTurn、Phoenix-VAD和SoulX-Duplug等。
全双工模型包括Moshi、PersonaPlex和Covo-Audio等。

落地应用

声云语音转写、语音翻译、StepAudio 2.5 Realtime等。

总结与展望

语音识别大模型：多语种/方言，BBPE编码，AED/LLM框架。
端到端对话模型：Speech Tokenizer/Encoder，LLM，Speech Detokenzier。
语音Token：语义、声学、统一Token。
关键技术：RVQ，Flow Matching。
端到端对话模型：Moshi、GLM-4-Voice、Qwen-Omni系列、Kimi-Audio、Step-Audio2等。
语义VAD：EasyTurn、Phonex-VAD、SoulX-Duplug。
全双工语音交互：流式打断，Moshi、PersonaPlex、Covo-Audio等。
展望：全双工端到端对话模型、语音思维链（CoT）、Voice Agent。

洪青阳厦门大学智能语音实验室http://speech.xmu.edu.cn 2026.05 背景介绍1端到端对话模型3语音识别大模型2全双工语音交互4落地应用5 CONTENTS目录 1.背景介绍—世界语种 n根据世界人口数据库Ethnologue第26版，目前世界上现存有7168种语言，142个语系。世界语系分布图[1] [1]Eberhard, David M, Gary S F, et al. Ethnologue: Languages of the world[M]. 26th ed. Dallas,Texas: SIL International,2023 1.背景介绍—中国方言 n根据教育部2019年《中国语言文字概况》介绍，汉语方言通常分为十大方言：官话方言、晋方言、吴方言、闽方言、客家方言、粤方言、湘方言、赣方言、徽方言、平话土话。 1.背景介绍—多语种识别 1.背景介绍—GPT-4o语音模式 •2024年5月，OpenAI团队率先提出了一个结合多模态的端到端实时交互大模型——GPT-4o。该模型在GPT-4的基础上，增强了文本、视觉和音频处理能力，能在最快232毫秒内响应音频输入，平均响应时间为320毫秒，已接近人类水平。 1.背景介绍—豆包语音交互 •豆包—动态判停 1.背景介绍—豆包语音交互 •豆包—动态判停 1.背景介绍—级联式对话模型 •最基础的语音对话系统包含三个核心模块：语音识别、LLM和语音合成模型。级联式SpeechLMs存在以下问题： •信息丢失。语音信号不仅包含语义信息（即语音的含义），还包含副语言信息（如音高、音色、音调等），这是文本所不具备的。•错误累积。级联式模型很容易导致整个流程中出现累积性错误，尤其是在ASR-LLM阶段。•高延迟。由于数据需要在多个模块间传递，系统响应时间较长，复杂性高，不利于实时语音交互。 1.背景介绍—端到端对话模型 •为实现更好的人机交互体验，需要真正实现一个端到端语音对话模型，如图所示，通过语音编码器将语音离散化，由语言模型直接处理语音数据，实现多个模态实时输入输出。 1.背景介绍—全双工语音交互单工通信。数据仅沿一个方向流动。说话者可以发送数据，而听者只能接收数据。半双工通信。数据在两个方向上流动，但不同时流动，类似对讲机。全双工通信。允许双方同时发送和接收数据。全双工不一定是端到端对话模型！ 1.背景介绍—全双工语音交互 •GPT Realtime采用WebRTC协议进行语音交互，使得音频以连续流的形式到达，更重要的是，该协议本身支持全双工通信。•关键挑战--打断和判停：用户打断时，语音助手应停止回复；同时，语音助手需要准确识别用户是否讲完了，即意图判断。报告聚焦两个关键问题 •如何通过大模型，实现多语种语音识别？•如何通过大模型，实现全双工语音交互？ PART TWO 语音识别大模型 2.语音识别大模型 2.1语音识别过程2.2语音识别发展史2.3 Transformer2.4 Conformer2.5大语言模型(LLM)2.6开源模型 2.1语音识别过程 •语音识别的任务为，找到对应观察序列𝐀的最可能的词序列𝐀。按贝叶斯准则：𝐀𝐀|𝐀𝐀𝐀 •要找到最可能的词序列，必须使上式右侧两项的乘积最大。第一项由声学模型决定，第二项由语言模型决定。 2.1语音识别过程 2.1语音识别过程词典：今天j in1 t ian1天气t ian1 q i4很h en2好h ao3 2.1语音识别过程—系统框架 2.1语音识别过程—系统框架 2.2语音识别发展史 2.4 Conformer 流识别机制 CTC输出经贪婪搜索(Greedy Search)或前缀剪枝搜索(Prefix Beam Search)，后续可接两种解码器：•接Transformer的解码器，进行二次解码 2.5大语言模型(LLM) •接入LLM，需把连续语音转化为离散编码，并通过适配器(Adapter)与文本对齐。•语音编码器(Encoder)可采用Transformer或Conformer Encoder，而解码器直接用LLM，即Decoder-only Transformer，实现next token预测。离散编码—Token Token是对文本进行分割和编码的最小单元，它可以是以下形式： •字符，如’h’；•单词，如“hello”；•子词•BPE(Byte-pair Encoding)，如“ello”；•BBPE(Byte-level Byte-pair Encoding)：UTF-8编码+BPE，可以跨语言使用。 Token化(编码为BPE) 原始文本（莎士比亚）：以TiktokenGPT2 BPE为分类单元： train has 301,966 tokensvalhas 36,059 tokens First Citizen:Before we proceed any further, hear me speak. All:Speak, speak. First Citizen:You are all resolved rather to die than tofamish? 对字符串采用TiktokenGPT2 BPE进行分词并编码，例enc.encode("hello world")[31373, 995] All:Resolved. resolved. First Citizen:First, you know Caius Marcius is chief enemy tothe people. All:Weknow't, weknow’t. …… 多语种与方言识别多语种建模：BBPE Tokenizer（GPT、Whisper） lTokenizer是大模型非常重要的概念。l基于Unicode编码后使用byte建模可以打破语言的限制，所有的语言都可以共用建模单元。l英语字符本身在ASCII码中，因此天然就是BBPE。其它语言字符需要多个字节进行编码。 2.6开源模型—Whisper Ø使用68万小时弱标签数据进行训练；Ø模型结构使用Transformer结构；ØFBank特征（80维，large-v3 128维）；Ø使用基于GPT2的tiktoken；Ø通过prompt的方式包含语种标签；Ø通过设计prompt的方式进行多任务训练。 Whisper:大规模数据多任务训练的端到端Transformer模型 A. Radford, J. W. Kim, T. Xu, G. Brockman, C.McLeavey, and I.Sutskever, “Robust speech recognition via large-scale weak supervision.”arXivpreprint arXiv:2212.04356 (2022). 2.6开源模型—小红书FireRedASR Ø包含约7万小时高质量精标中文数据和1.1万小时英文数据；Ø中文采用字符编码，英文采用BBPE编码。 2025年1月，小红书发布FireRedASR，包括AED和LLM版本，其中语音编码器（Encoder）采用Conformer，LLM基于Qwen2-7B-Instruct（冻结），采用LoRA微调Encoder和Adapter。 2.6开源模型—Qwen3-ASR Ø支持30个语种和22个中国方言；Ø约4000万小时伪标签数据（中英为主）；Ø支持流式输入，支持语种识别；Ø采用5万条数据和组序列策略优化（GSPO），进行强化学习。 2026年1月，阿里巴巴发布Qwen3-ASR，包括0.6B和1.7B版本。采用，预训练语音编码器—AuT（采用AED框架），然后接入Qwen3 LM（基模为Qwen3-Omni）。 Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, JunyangLin, "Qwen3-ASR Technical Report," arXiv preprint arXiv:2601.21337. 端到端对话模型PART THREE 3.端到端对话模型 •如何实现语音Token化？尽可能保留原始语音的声学和语义信息。•语音文本如何对齐？以接入LLM，统一建模。•LLM输出的Token如何转化为语音输出？ 3.端到端对话模型 •语音编码器（Speech Encoder/Tokenizer）•大语言模型（LLM）•语音解码器（Speech Decoder/Detokenizer） 3.1 Speech Tokenizer (Encoder) •语义Token/特征 •优先捕捉语音中的内容，即语义（Semantic）信息，适合与识别、翻译模块结合。•一般采用Wav2Vec、HuBERT、Whisper等预训练模型。 •声学Token (离散空间) •聚焦语音压缩与高保真重建，携带更多声学（Acoustic）信息，如语气、风格、情感等，离散化表示，更适合语音合成、音频生成等任务。•典型模型包括SoundStream、EnCodec、TiCodec等。 •统一Token •兼顾语义和声学信息。•典型模型包括Mimi、SpeechTokenizer、X-Codec等。 3.1 Speech Tokenizer (Encoder) 语义Token/特征 •编码器(Encoder): Whisper,HuBERT, … 接入LLM需要增加一个适配器(Adapter)，和额外的训练阶段，以实现模态对齐。 3.1 Speech Tokenizer (Encoder) 语义Token/特征 •编码器(Encoder) +有限标量量化(FSQ)：CosyVoice2、CosyVoice3 CosyVoice2由阿里巴巴团队推出，其设计的Supervised speech tokenizer，是在语音识别模型SenseVoice-Large的Encoder插入FSQ，实现量化表征。CosyVoice3替换了Encoder，并进行多任务训练。 3.1 Speech Tokenizer (Encoder) 声学Token •音频编解码器(Codec) +向量量化(VQ) 通过Neural Audio Codec（如SoundStream、EnCodec），将连续的语音信号经过Encoder输出连续隐向量，然后做向量量化（VQ），最后编码为离散的语音Token序列。VQ码本采用K-mean生成，会带来量化误差，改进版包括残差向量量化（RVQ）、有限标量量化（FSQ）等。 3.1 Speech Tokenizer (Encoder) 声学Token •关键技术—残差向量量化(RVQ) RVQ通过逐步分解数据的残差来进行量化。首先将输入向量通过第一个量化器量化，得到一个较为粗略的近似值，然后计算原始数据和近似值之间的差异（即残差）。接着对残差应用第二个量化器，得到更精确的近似，并继续计算残差。这个过程可以重复多次，通过多个量化器逐层逼近原始数据，减少量化误差，其流程如图所示。 3.1 Speech Tokenizer (Encoder) 声学Token •典型例子：SoundStream 采用RVQ的方式实现音频数据的高效压缩，由重建损失（Reconstruction Loss）、对抗损失（AdversarialLoss）等共同优化模型。 NeilZeghidour,Alejandro Luebs

点击免费查看完整报告

语音大模型：从语音识别到全双工语音交互

背景介绍

语音识别大模型

端到端对话模型

全双工语音交互

落地应用

总结与展望

你可能感兴趣

互联网暴露面收敛——从风险识别到动态清零的攻防实战

“聪明资金”追踪：从行为识别到行业配置

基金研究系列之十七，成长型基金投资攻略：从识别到优选

机器视觉行业深度研究报告（一）：从二维识别到三维重构，3D视觉正从“可选配置”走向“刚需标配”

量化研究系列报告之二十五：高弹性Alpha的量化掘金：从盲区识别到策略构建

2016年半年报点评：从身份识别到精准服务的生态正在构建

国君传媒|豆包实时语音大模型上线,AI交互水平再升级

声网：成为OpenAI公司合作伙伴，为AI大模型语音交互提供低延迟能力

科创经济,押注未来之路系列之三：语音交互主题从“听到”到“听懂”

科创经济，押注未来之路系列之三：语音交互主题从“听到”到“听懂”