研究报告| 2023/04 研究报告| 2022/02 碳中和系列 研究目的与摘要 在本篇研究报告中,我们将对语音识别技术进行深入的研究和探讨。报告将从政策、市场规模、市场参与者、商业模式与竞争态势切入分析,并围绕语音识别技术的产业链条,挖掘潜在的商业与投资机会 此研究将会回答的关键问题: 研究区域范围:中国 ①语音识别技术的定义、流程与内涵? 研究周期:2023年 ②产业链中有哪些关键环节?蕴藏着哪些商业或投资机会? 研究对象:语音识别技术 ③语音识别技术的市场规模和竞争态势如何? 利用AI技术对语音进行自动识别的过程 语音识别技术是以语音为研究对象,通过识别与处理语音信号使计算机自动识别和理解人类口述的语言,解决机器听清问题、声学和(部分)语言上的混淆、共性问题,确保每个人的语音都能识别出正确的文本等问题 价值意义 语音识别市场持续高增,未来5年将突破450亿元 语音识别市场持续高增,2017-2022年受识别准确率提升驱动,年均复合增长率约26%,2022年市场规模达136.40亿元;2022-2027年应用场景拓展驱动,2022-2027年年均复合增长率约为28%,2027年市场规模有望突破450亿元 市场规模 标准化技术授权服务和定制开发服务 语音识别厂商基于语音识别等智能语音技术,向客户提供软件产品/解决方案、技术服务和软硬件一体化产品等产品/服务。其中,技术服务以标准化技术授权服务(SaaS云服务和License授权服务)和定制开发服务等形式提供 商业模式 头部集中格局,市场竞争加剧 语音识别行业已形成以科大讯飞为首,百度、阿里、腾讯为领导者的头部集中格局。其中,科大讯飞走G/B/C三条渠道融合的销售路线,自上而下抢占市场份额。百度、腾讯、阿里等互联网厂商基于庞大的用户基础、丰富的数据资源和强大的资金实力,引领C端市场,并持续布局B端市场 竞争态势 NLP:NaturalLanguageProcessing,自然语言处理,旨在使计算机能够读取、解析、理解和回应人类语言,从而实现计算机与人类之间的有效沟通。 API:ApplicationProgramInterface,应用程序接口,是一组定义、程序及协议的集合,通过API接口实现计算机软件之间的相互通信。API的一个主要功能是提供通用功能集。程序员通过调用API函数对应用程序进行开发,可以减轻编程任务。 算法:解题方案的准确而完整的指令描述。算法代表着用系统的方法描述解决问题的策略机制 深度学习:一类人工智能主流算法的总称,可基于海量数据训练具有大量隐含层的人工神经网络模型(即深度神经网络),使其完成图像识别、语音识别等特定的人工智能任务 神经网络:人工神经网络的简称,是计算机科学家受生物脑基本结构启发而提出的一大类人工智能模型的总称,可用于视觉、语音和自然语言处理等广泛的应用领域,让计算机实现类人的感知功能和较为简单初步的认知功能 云计算:一种通过互联网以服务的方式提供可伸缩的虚拟化的资源的计算模式,可使用户通过与云计算服务商的少量交互,快速、便捷地进入可配置的计算资源共享池,并按用户需求调取计算、存储、网络等各类资源并按用量付费 语音识别技术原理、发展阶段和市场规模情况如何? 语音识别:语音识别技术是以语音为研究对象,通过识别与处理语音信号使计算机自动识别和理解人类口述的语言,解决机器听清问题、声学和(部分)语言上的混淆、共性问题,确保每个人的语音都能识别出正确的文本等问题 发展阶段:深度神经网络成为语言识别技术主流,现阶段头部语音识别厂商准确率均突破95%,语音识别迈入商业化阶段 市场规模:语音识别市场持续高增,2017-2022年受识别准确率提升驱动,年均复合增长率约26%,2022年市场规模达136.40亿元;2022-2027年应用场景拓展驱动,2022-2027年年均复合增长率约为24%,2027年市场规模有望突破450亿元 定义原理:利用AI技术对语音进行自动识别的过程 语音识别技术是以语音为研究对象,通过识别与处理语音信号使计算机自动识别和理解人类口述的语言,解决机器听清问题、声学和(部分)语言上的混淆、共性问题,确保每个人的语音都能识别出正确的文本等问题 智能语音交互流程 语音合成TTS 语音识别ASR:将麦克风采集到的自然声音转换为文字。如,输入法语言转文字。 自然语言处理NLP:包括自然语义理解NLU和自然语言生成NLG,其中NLU将人的语言(已转成文字)转换为机器能理解的语言;NLG将机器的语言转换为人的语言(文字)。如,自动问答机器人。 语音合成TTS:将文字合成声音,并模仿人的语音语调播放出来。如,语音导航提示。 语音识别ASR:声音→数字向量→文字 识别 模式匹配(解码)声学模型→语言模型 语音输入 语音信号预处理 特征提取(编码) 文本输出 训练 模型库 语音识别ASR定义:语音识别技术以语音为研究对象,通过识别与处理语音信号使计算机自动识别和理解人类口述的语言。计算机通过语音识别和理解的过程将人类口述的语音信号转变为机器可处理的文本。语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模型库等三个基本单元,完成语音训练与识别两大过程。 解决问题 无法解决问题 无法识别谁在说话→声纹识别 解决机器听清问题 无法识别语言表达方式,如发音质量、情感、韵律等→副语言信息的分析与识别无法识别语言的意思→语义理解 处理声学和(部分)语言上的混淆 解决共性问题,确保每个人的语音都能识别出正确的文本 发展历程:深度神经网络成为主流技术,行业迈入商业化 深度神经网络成为语言识别技术主流,现阶段头部语音识别厂商准确率均突破95%,语音识别迈入商业化阶段 语音识别发展历程 自适应教育定义及原理 阶段特征 代表性成果 The Definition of Education 发展阶段 升,开始正式进入商品时代。 深度神经网络成为语言识别技术主流,现阶段头部语音识别厂商准确率均突破95%,语音识别迈入商业化阶段。 语音识别准确率,2022年Q3 语音识别的发展大致经历了四个阶段,实现从理论模型到实际应用的突破。从识别能力上看,语音识别从最初的小词汇、孤立词识别到现在的准确率超95%的连续音频识别。从识别技术上看,语音识别从最初简单的模板匹配到GMM-HMM时代到DNN-HMM时代再到现在的通过神经网络模型对语音信号建模的端到端时代,并趋于远场化和融合化方向发展。从应用场景上看,语音识别从最初的语音电话交互、语音搜索,到现在的智能家居、自动驾驶等领域。未来语音识别交互趋势将进一步加强,同时以多模态融合的形式与其他传感器数据结合起来,持续满足多语种、多方言、多场景、个性化的应用需求,并推动各行各业数字化转型和升级。 97.84%97.38%97.05%97.05%96.98% 市场规模:大模型推动应用落地,行业持续高增(1/2) 语音识别市场持续高增,2017-2022年受识别准确率提升驱动,年均复合增 长率约26%,2022年市场规模达136.40亿元;2022-2027年应用场景拓展驱动,2022-2027年年均复合增长率约为28%,2027年市场规模有望突破450亿元 中国语音识别市场规模,2017-2027年预测 市场规模:大模型推动应用落地,行业持续高增(2/2) 语音识别市场持续高增,2017-2022年受识别准确率提升驱动,年均复合增 长率约26%,2022年市场规模达136.40亿元;2022-2027年应用场景拓展驱动,2022-2027年年均复合增长率约为24%,2027年市场规模有望突破450亿元 中国语音识别技术发展阶段及成熟度(主流厂商) 90%-95% 70%-80% 70%-85% 70% 前端信号处理 语音识别 自然语言处理 语音合成 语音识别技术成熟推动行业高速增长,2022年语音识别市场规模达136.40亿元,2017-2022年年均复合增长率约26%。 2015年端对端技术兴起,语音识别迎来第一波发展浪潮,应用场景从手机、电脑端等电商、互联网入口向智能硬件扩展,年均增长率约为15%-20%。2017年微软运用了LLDN模型,在Switchboard准确率可达94.9%,语音识别的准确率首次超过人类,下游应用场景如教育、医疗、文旅、会议等迎来爆发式增长。但2021-2022年受到疫情、贸易战和数据保护等环境因素的影响,市场增速有所放缓。 2022年语音识别市场规模达136.40亿元,2017-2022年年均复合增长率约26%。整体上看,2017-2022年语音识别市场规模约占智能语音(包括前端信号处理、语音识别、自然语言处理和语言合成四个技术板块)的40%。 完整版登录www.leadleo.com 搜索《2023年中国语音识别技术:突破界限,迈入智能交互新 大模型爆发推动自然语言处理等后端环节成熟,为语音识别的应用场景提供了更加广泛的可能性,语音识别继续维持高速增长,2027年市场规模预计可突破450亿元,2022-2027年年均复合增长率约为28%。 时代(独占版)》 语音识别技术发展整体上看已相对成熟,主流通用开源模型Deep Neural Network-based Speech Recognition将语音识别的准确率拉高,通用场景准确率可达95%。现阶段各厂商主要针对特定应用场景,如医疗、公检法等,增加专业术语相关语料训练,实现场景的定制优化。近年来大模型爆发,推动语音识别下一环节自然语言处理的发展,使大量应用落地成为可能,从而带动语音识别的发展。 但大模型所需算力和服务器成本较高,以ChatGPT为例,每条聊天回复成本为1.2~5.6美分,厂商前期补贴投入开发意愿将对市场发展起到关键影响。头豹研究院预计语音识别市场2023-2027年年均复合增长率约为28%,2027年有望突破450亿元。此外,由于大模型推动自然语言处理的迅速发展,预计未来自然语言处理的市场规模占智能语音的45%-50%,语音识别占比下降至20%-30%水平。 产业链中有哪些关键环节?存在何种投资与商业机会? 上游算法:深度学习算法最大特点是基于卷积运算等神经网络,从数据集中自动学习特征,能够大幅提升算法的灵活性和适用性。但中国算法人才市场结构性供需比例严重失衡,质和量均无法满足岗位需求,全社会着力打造政产学研一体化的人工智能人才培养模式 厂商类型:互联网厂商以平台能力切入,利用资源和技术优势,结合服务生态,将解决方案整合进完整的服务链条。 智能语音科技厂商以技术能力和场景解决能力切入市场,根据需求提供定制化服务,沉淀场景定制化经验,致力于规模化发展 竞争态势:中国语音识别行业已形成以科大讯飞为首,百度、阿里、腾讯为领导者的头部集中格局。语音识别厂商加速布局上游ASIC芯片等核心基础设施,把控市场定价权和研发自主权,或成为行业发展趋势。大模型加热语音识别市场竞争,行业集中度有望进一步提高 产业链图谱:上下纵深,产业成熟 语音识别上游核心环节为算法、算力(芯片)和数据;中游厂商分为互联网企业和智能语音科技企业两大类;下游应用包括短语音转写、实时语音识别、音频文件转写等应用功能。中游厂商通过上下纵深布局降本增效,增强市场竞争力 语音识别产业链图谱 数据标注 语音理解芯片 上游·基础设施供应商 训练数据集标注的质量和数量将直接影响语音理解模型的性能和效果 ASIC芯片在特定的AI场景下具有性能强、能耗低、成本低等特点,本土厂商正加速研发 算法模型 云服务 云计算提供强大的算力资源,帮助开发者快速训练和优化语音理解模型 深度神经网络技术促使语音理解技术发生质变,头部厂商语音识别准确率达98%以上 互联网企业 智能语音科技企业 中游·语音识别服务商 优势:专注于智能语音技术的研究与应用,在垂直