登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稳定币
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
Haoyu-基于大数据的复杂场景的语音识别的探索与实践
信息技术
2022-05-18
DataFunSummit2022:大数据计算架构峰会
罗***
AI智能总结
查看更多
研报总结
1. 自动语音识别(ASR)简介
定义
:自动语音识别(ASR)是从音频文件生成文本的过程,通过最大似然估计(argmax(P(Y|X)))。
方法
:传统的ASR方法包括声学模型、语言模型和发音词典;端到端(E2E)方法则主要采用主模型和可选的语言模型。
2. 端到端自动语音识别(E2E ASR)
架构
:标准的E2E ASR架构包括CTC(连接时序分类)和编码器-注意力解码器两种方法,可以组合成CTC-ATT架构。
训练与推理
:损失函数结合(LMTL),联合解码/重新评分。
3. 模型创新
改进
:从注意力机制(ATT)到Transformer,不仅替换LSTM,还引入了多头注意力机制(MHA)。
应用
:在ASR中引入分块注意力机制(Chunked MHA)。
4. 训练管道创新
弱蒸馏
:从传统模型到E2E模型的蒸馏,通过序列到序列(seq2seq)蒸馏,利用未标记数据增强E2E-ASR模型。
迭代伪标签(IPL)
:选择未标注数据,经过教师模型识别后筛选,并构建学生模型进行训练。
5. 大规模数据模型训练加速
技术组件
:深度学习框架(Pytorch, TensorFlow等)、计算资源(GPU, NIC等)、网络技术(RDMA, RoCE等)。
并行性
:模型并行和数据并行,选择数据并行(data parallelism)。
分布式数据并行(DDP)
:在多个服务器上运行大规模数据模型训练。
加速技术
:混合精度训练、梯度压缩、GPUDirect RDMA等。
6. 总结与下一步
总结
:开发了半监督ASR软件架构,实现了DDP GPU加速、混合精度训练、GPUDirect RDMA。
下一步
:优化ASR模型调优,加速Beam Search,提高通信效率和模型分布式训练。
查看更多
你可能感兴趣
发扬光大 : 探索气候变化与服装行业基于性别的暴力和骚扰之间的潜在联系
ILO
2021-05-17
城投公司贸易业务转型与信用评级风险识别的再思考——基于上交所3号指引修订和深交所2号指引修订
大公信用
2025-04-10
GLM大模型:场景落地的探索与实践
信息技术
智谱AI
2024-09-05
张尧 AI Agents在On-call助手场景中的探索与实践
信息技术
DataFunSummit2024:数据产品在线峰会
2024-12-06
金融大数据服务转型的探索与实践
东方证券
2021-08-15