中国AI语音识别市场研究报告 报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系弗若斯特沙利文公司独有的高度机密性文件(在报告中另行标明出处者除外)。未经弗若斯特沙利文公司事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,弗若斯特沙利文公司保留采取法律措施,追究相关人员责任的权利。弗若斯特沙利文开展的所有商业活动均使用“弗若斯特沙利文”或“Frost&Sullivan”的商号、商标,弗若斯特沙利文无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第三方代表弗若斯特沙利文开展商业活动。 AFrost&SullivanResearchReport 目录 1AI语音识别定义与解读2 2中国AI语音识别市场概览3 2.1AI语音识别产业链分析3 2.2中国AI语音识别市场驱动因素5 2.2.1需求端:下游需求增长,AI语音识别市场空间稳步提高5 2.2.2技术端:算力、算法、大数据升级,AI语音识别准确率持续提升6 2.2.3政策端:人工智能上升至国家战略地位,AI语音识别行业加快布局和落地7 2.3中国AI语音识别市场趋势洞察7 2.3.1云计算渐发展,商业化前景更广阔7 2.3.2多技术协同发展,语音交互更生动8 2.3.3语音技术渐开放,普惠生态更繁荣10 2.4中国AI语音识别市场关键成功因素分析10 3中国AI语音识别市场竞争格局分析12 3.1沙利文企业增长评价数据来源和研究主体12 3.2中国AI语音识别市场企业增长评价结果及分析12 3.3沙利文评价模型的设计16 4研究方法和研究范围介绍18 4.1研究方法18 4.2研究范围18 1AI语音识别定义与解读 语音识别是人机交互的入口,是指机器/程序接收、解释声音,或理解和执行口头命令的能力。在智能时代,越来越多的场景在设计个性化的交互界面时,采用以对话为主的交互形式。一个完整的对话交互是由“听懂——理解——回答”三个步骤完成的闭环,其中,“听懂”需要语音识别(AutomaticSpeechRecognition,ASR)技术;“理解”需要自然语言处理(NaturalLanguageProcessing,NLP)技术;“回答”需要语音合成(TextToSpeech,TTS)技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。 语音识别技术自20世纪50年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。 图1-1:AI语音识别发展历程 来源:fsTEAM软件采编,沙利文研究院绘制 2中国AI语音识别市场概览 2.1AI语音识别产业链分析 中国AI语音识别市场参与者众多,主要分为上游、中游、下游。 图2-1:AI语音识别产业链分析 来源:沙利文研究院绘制 上游:底层技术提供强力支撑,云计算助推AI语音应用普及---语音识别解码过程中包含了声学模型和语言模型的识别建模和模型训练两个部分。在运行过程中训练数据量和计算量需求极大,传统的CPU或者单一处理器几乎无法快速单独完成一个完整的模型训练过程,主要原因在于CPU内部仅含少量逻辑单元,且指令执行是逐一进行的串行计算,使用该架构进行语音识别运算的处理时间过长,无法满足海量数据计算的实时性需求。因此,能提供海量数据处理、存储以及高性能运算能力的云计算技术成为语音识别行业的应用热点。目前,主流语音识别公司的模型训练和语音识别基本都在云端采用GPU并行架构或异构计算方案进行。 中游:语音技术持续升级,生态圈建立赋能产业---语音识别的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案(以项目制交付的软 硬件产品及服务)和平台化技术输出(SDK或API形式的智能语音开放平台)两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。目前,智能语音开放平台在智能语音市场中收入占比较小的主要原因是,以阿里、百度及 科大讯飞为首的各大厂商为加速AI语音技术对下游应用场景的渗透,采用多种优惠甚至免费形式向开发者提供语音识别服务,希望将语音识别技术应用在更多软件及场景中,与广大开发者携手建立一个完整的AI产业生态圈。 下游分析:行业应用多样化,一站式服务需求广---语音识别作为AI交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。广泛的应用领域也就意味着更加多元化的使用场景,然而目前的语音识别技术对于使用场景具有较强的限制性。尽管快速更新迭代的神经网络结构已经将安静环境下的近场语音识别的错误率降低至3%以下,但现实环境中多数应用场景无法满足理想的环境条件,因此在进行语音识别时需要同时考虑到各种噪声、信道等因素。为使语音识别技术在更广泛的使用场景下保持良好的表现,AI语音厂商需要提供硬件与软件协同的一站式服务,并根据用户实际痛点进行针对性优化,从而有效提升在多元下游场景下语音识别的渗透率。 2.2中国AI语音识别市场驱动因素 2.2.1需求端:下游需求增长,AI语音识别市场空间稳步提高 在过去五年间,中国AI语音的需求最先在消费级市场爆发,主要得益于互联网及智能硬件设备厂商加大语音识别的投入经费,以及厂商为提前占据市场推行的智能音箱硬件补贴。目前,消费级产品及服务主要包括智能音箱、智能车载和智能硬件及消费级互联网增值服务。然而,目前包括直接面向消费者的产品及服务在内,语音识别的相关应用及使用场景仍具有局限性。未来,在消费级产品供应商和开发者共同构建产业生态圈的过程中,语音识别技术将更好地与其他语音交互技术及软件功能融合,为消费者提供更优质的体验,未来AI语音识别市场将迎来广阔的发展空间。 对于专业级市场而言,主要的产品形式包括智能语音开放平台和行业解决方案,下游应用领域目前主要包括数字化水平相对较高的智慧医疗、智慧教育、企业客服、司法政务、金融领域等。AI语音识别作为人机交互的重要入口之一,除了在语音识别的领域表现出色外,也要能更好地与其他智能语音技术(包括语义理解、远场语音识别、唤醒目标检测、全双工交互、个性化识别技术等)进行融合,从而综合提升真实场景中的用户体验。近年来AI语音识别专业级市场的快速增长主要原因除了深度神经网络算法为语音识别带来的准确率大幅提升外,更重要的是其他智能语音和AI技术的发展带来了更广阔的应用场景,预计未来专业级市场的商业化需求将得到进一步释放。 ©2020Frost&Sullivan.Allrightsreserved.ThisdocumentcontainshighlyconfidentialinformationandisthesolepropertyofFrost&SullivanNopartofitmaybecirculated,quoted,copiedorotherwisereproducedwithoutthewrittenapprovalofFrost&Sullivan 5 图2-2:中国AI语音识别市场商用收入规模,2015-2024年预测 *统计对象包括:1)专业级市场:智能语音行业解决方案、智能语音开放平台等;2)消费级市场:与语音识别直接相关的硬件设备,如智能音箱及相应消费级软件和服务如个性化教与学平台、语音输入法、智慧考试等。以上商业化收入仅包括智能语音直接相关收入,硬件收入及其他技术相关收入不纳入本市场规模。 来源:沙利文研究院绘制 2.2.2技术端:算力、算法、大数据升级,AI语音识别准确率持续提升 在过去5-10年,AI语音识别技术的快速商业化的主要原因在于技术端的快速发展,如计算能力的提升、算法框架的优化和大数据的升级等。 图2-3:中国AI语音识别市场技术发展情况 来源:沙利文研究院绘制 从计算能力来看,芯片处理能力的大幅提升、GPU的大量应用、云服务的普及还有硬件价格的快速下降共同为人工智能计算能力的提升提供了重要支撑; 从算法框架来看,目前主流语音识别模型已经以深度神经网络为主导,神经网络的出现及普及为语音识别准确率的提升起到了重要作用; 从大数据来看,更加贴近真实使用场景的语料库也为语音识别技术提供了更加有效的训练素材,从而大幅提升了AI语音识别产品及服务的使用体验。以上底层技术的升级,为语音识别技术的准确率提升及商用渗透提供了强大的市场驱动力。 2.2.3政策端:人工智能上升至国家战略地位,AI语音识别行业加快布局和落地 人工智能发展水平一定程度上体现了各国最高的科技水平。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017年以来人工智能行业已经连续三年被写入《全国政府工作报告》内。具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国AI领域中最为成熟落地的技术之一,在国家政策的强力扶持下,预计未来能够加速在垂直行业的渗透和布局。 同时,在《中国制造2025》的大背景和智能经济新形态下,各省市响应中央号召,截至2019年上半年,已有30多个省市发布人工智能相关规划或专项政策,以人工智能为技 术手段,发挥当地产业集群优势,促进产学研融合及协同发展。 图2-4:国家及地方相关政策及影响 来源:沙利文研究院绘制 2.3中国AI语音识别市场趋势洞察 2.3.1云计算渐发展,商业化前景更广阔 AI语音识别发展至今,主流算法模型已经从模板匹配阶段转变为深度神经网络阶段。在深度神经网络算法下,考虑到训练过程中大量数据的使用,计算量巨大,对于应用企业而言,采用本地计算方式的算力门槛过高。而在当下的智能时代,日渐普及的云计算环境提升 AI语音识别运算效率的同时也降低了企业的进入门槛,因此大大促进了AI语音的技术发展。语音识别终端把采集到的语音片段进行模数转换后,进行传送和决策,然后通过通信网络将语音数据上传至云端进行语音识别,反馈结果至语音识别终端。在此过程中,云计算可以完成语音数据库和语言数据库的训练,最高效输出反馈结果,促进AI语音技术的准确率提高。 基于云计算的发展,部分头部厂商也在逐渐推出基于云上的语音产品,商业化落地的步伐正在加快。在个别应用场景领域中,基于云计算的AI语音技术应用市场销售规模已近乎领先于头部的基于传统硬件厂商所服务的市场规模,大量的独立软件开发商(ISV)趋于与云上语音技术厂商达成合作关系,从而在低成本的情况下在云开放平台上获取最前沿的云上智能语音技术和行业语音解决方案。例如,现已有超过5万家语音客户与阿里云智能语音达成合作,覆盖多行业场景,包括中国移动、中央电视台、招商银行在内的传统行业的大型企业。其中,在电话客服行业,与阿里达成合作的独立软件开发商(ISV)头部8家用户年销 售额接近6亿元人民币,在法院语音识别市场的联盟商2019年也达到年销售额1.6亿元人民币。基于云计算的AI语音技术能够满足ISV在录音文件识别、实时语音识别、一句话识别、语音自学习平台、短文本语音合成、长文本语音合成、语音唤醒、声纹识别、语音模组和语音交互SDK等方面的技术需求,从而支撑他们实现和拓展更多的应用场景和渠道的发展需求。 2-5:神经网络模拟对于内存大小和计算能力的需求关系 来源:沙利文研究院绘制 2.3.2多技术协同发展,语音交互更生动 语音识别