语音识别行业分类 根据应用功能,可将语音识别划分为实时长转写、后长转写和短转写三类。 语音识别分类(按应用功能划分) 在说话人说话的同时进行语音识别并实时输出文字结果。这类技术通常应用于实时翻译、实时字幕、语音助手等场景中,要求识别速度快、准确性高。实现方式通常使用在线语音识别API或者离线语音识别应用程序。 实时长转写 对已经录制好的语音进行后处理,将语音转换成文字。 语音识别分类 这种技术常常应用于会议记录、电话录音文字转换、语音搜索等场景中。由于是离线处理,因此时间上比实时长转写更加灵活。 后长转写 对短语音进行识别,例如短信语音输入、智能设备语音控制等。这种技术相对于前两者来说较为简单,但需要考虑到声音环境嘈杂以及背景噪音等因素。 短转写 商业模式 标准化技术授权服务和定制开发服务。 语音识别厂商基于语音识别等智能语音技术,向客户提供软件产品/解决方案、技术服务和软硬件一体化产 品等产品/服务。其中,技术服务以标准化技术授权服务(SaaS云服务和License授权服务)和定制开发服 【2】 务等形式提供。TO B产品利润率约5%-10%,TO C产品利润率约10%-20%。 竞争格局 头部集中格局,市场竞争加剧。 语音识别行业已形成以科大讯飞为首,百度、阿里、腾讯为领导者的头部集中格局。其中,科大讯飞走G/B/C三条渠道融合的销售路线,自上而下抢占市场份额。百度、腾讯、阿里等互联网厂商基于庞大的用 户基础、丰富的数据资源和强大的资金实力,引领C端市场,并持续布局B端市场。中国语音识别厂商加速布局上游ASIC芯片等核心基础设施,把控市场定价权和研发自主权,或成为行业发展趋势。大模型加热语 萌芽期 1952年,贝尔实验室研制第一个能理解有限英文数字发音和词汇的系统,标志着首款语音识别系统 的问世。 1964年,IBM在世界博览会上推出了数字语音识别系统,语音技术自此走出实验室。 该阶段语音识别技术语音识别主要集中在小词汇量、孤立词识别方面,主要使用简单的模板匹配方法。 启动期 1975~1995 1980年,声龙推出了第一款语音识别产品Dragon Dictate,这是第一款面向消费者的语音识别产 品。软件能够识别20,000个英文词汇,技术的应用获得突破。 该阶段利用数字信号处理、模式识别等技术进行语音识别,能够识别一些短语和简单的语句。 启动期 1995~2010 2001年,微软发布支持语音识别的Windows XP操作系统。 2007年,苹果推出第一代装有Siri语音助手的iPhone。 该阶段以HMM为基础的技术框架广泛应用,语音识别技术的准确率和稳定性得到较大提高。 高速发展期 2010~2029 2009年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升,最终突破90%, 并且在标准环境下逼近98%。 开始大规模出现商业化应用落地产品,如智能音箱、智能家居、智能客服等。 该阶段通过神经网络模型对语音信号进行建模,在大数据集上进行自适应学习的端到端语音识别准确 率大幅提升,语音识别开始正式进入商品时代。 语音识别产业链分析 语音识别产业链上游核心环节主要为算法模型提供商、数据标注服务商和AI语言芯片供应商;中游企业包括 互联网企业和智能语音科技厂商;下游应用场景广阔,主要为实时长转写、后长转写和短转写三种形式。 算法人才市场结构性供需比例严重失衡,质和量均无法满足岗位需求,全社会着力打造政产学研一体化的人工智能人才培养模式。凭借可定制化的优势,ASIC芯片在特定的应用场景下具有更强的性能、更低的功耗和成 本,以及更小的体积,因此在人工智能领域的特定场景下具备明显的竞争优势。中国厂商在加速研发ASIC芯片,部分厂商已实现量产。数据标注是语音合成产业链的重要基石,是所有基础数据的来源。数据标注的质量和数量 直接影响语音合成模型的性能和效果,包括准确性、自然度、流畅度、鲁棒性、表现力等方面。因此,投入足够的精力和资源进行高质量的数据标注是提升语音合成技术的关键。互联网厂商以平台能力切入,利用资源和技术 优势,结合服务生态,将解决方案整合进完整的服务链条。互联网厂商出于自身业务使用需求布局相关技术,并 赋能给外部厂商,其更看重的是用户使用数据等相关数据的积累。智能语音科技厂商以技术能力切入市场,即可提供全链路语言服务,也可提供子逻辑的技术点,以垂直领域作为发力点提供细分场景的解决方案实现快速增 长。 上 产业链上游 生产制造端 算法模型提供商 上游厂商 百度在线网络技术(北京)有限公司 阿里巴巴达摩院(杭州)科技有限公司 微软(中国)有限公司 查看全部 产业链上游说明 中国算法人才市场结构性供需比例严重失衡,质和量均无法满足岗位需求,全社会着力打造政产学研 一体化的人工智能人才培养模式。从人才数量上看,中国人工智能人才总量仅为美国的50%,人才缺口超500万,供求比例为1:10,其中算法岗人才供需比仅为0.13,人才供需比例严重失衡。从人才 结构上看,45.1%的算法研究岗要求应聘人员具有硕士及以上学历,但中国现有高学历AI人才储备难以满足,进一步加剧了核心岗位人才空缺,且高学历AI人才培养所需时间高于一般IT人才,因此,短 期内AI算法人才短缺问题短期内难以得到解决。中国正着力打造和完善产教融合的人工智能培养体 系,一方面,高校端具备打造体系化和系统化的人工智能人才培养体系的能力;另一方面,企业端具备海量优质的数据集与算力资源,两者合作能够建立体系化和实践性的人工智能人才。 生产制造端 数据标注服务商 上游厂商 北京海天瑞声科技股份有限公司 数据堂(北京)科技股份有限公司 标贝(北京)科技有限公司 查看全部 产业链上游说明 数据标注对于语音识别模型的训练、验证、泛化能力和定制化需求均有着重要影响。一般数据标记的准确率维持在60%-70%区间,高质量的数据标注准确率约为90%。随着应用市场对AI模型的智能化 水平要求的提高,数据标注质量将成为未来AI模型行业竞争的重要因素。同时,具备数据资源优势的互联网厂商将建立自有的数据标注平台,作为旗下AI大模型的训练资源。数据标注服务商的商业模式 主要包括定制化服务、标准化产品和训练数据相关的应用服务三类。定制化服务:公司为客户提供定 制化的数据集并收取服务费,每条标注数据的价格在几分之几元钱不等,最终生成的数据集的知识产权归属于客户,公司不可将训练数据重复销售。标准化产品:公司开发、销售自有知识产权的数据集 产品进行盈利,同一数据集可进行多次销售。训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开 发成果,获取让渡资产使用权收入和技术服务收入,以及极少量硬件销售收入。 生产制造端 AI语言芯片供应商 上游厂商 科大讯飞股份有限公司 北京百度网讯科技有限公司 北京宇音天下科技有限公司 查看全部 产业链上游说明 凭借可定制化的优势,ASIC芯片在特定的应用场景下具有更强的性能、更低的功耗和成本,以及更小 的体积,因此在人工智能领域的特定场景下具备明显的竞争优势。通用芯片CPU、GPU被美国芯片厂商Intel、NVIADA占据垄断地位,全球市占率高达90%以上,短期内中国厂商在通用芯片方向难以 实现规模化量产。在某种程度上,ASIC芯片为中国的芯片产业提供了实现弯道超车的机会。由于ASIC芯片针对特定应用场景,这有助于中国企业绕过与全球巨头竞争的通用处理器市场,专注于某些 产业链中游 品牌端 互联网企业 中游厂商 北京百度网讯科技有限公司 深圳市腾讯计算机系统有限公司 阿里巴巴(中国)网络技术有限公司 查看全部 产业链中游说明 互联网厂商以平台能力切入,利用资源和技术优势,结合服务生态,将解决方案整合进完整的服务链 条。互联网企业具备完善的产品生态、丰富的客户资源和较强的C端产品经验及数据,可反哺产品研发,基于客户需求推动产品创新和落地。但由于语音识别仅作为企业的分支业务,其技术深度与专注 度或不及智能语音科技厂商,代表厂商包括百度智能云、腾讯云、阿里云等。互联网企业在切入语音识别赛道,通常出于自身业务使用需求,并赋能给外部厂商,其看重的是用户使用数据等相关数据的 积累,而不是产品的变现能力,因此,通常提供一体化、标准化的产品,以百度为例,输出小度OS系统,将包括内容的整体逻辑以端口的形式提供给第三方客户。现阶段主要通过自身产品直接为C端 用户提供语音识别服务,应用于智能家居、智能客服、在线教育等领域,如阿里的天猫精灵营收占语 音识别的80%-90%,百度的小度营收占语音识别的90%-95%。 品牌端 智能语音科技厂商 中游厂商 科大讯飞股份有限公司 思必驰科技股份有限公司 北京中科声智科技有限公司 查看全部 产业链中游说明 智能语音科技厂商以技术能力和场景解决能力切入市场,根据需求提供定制化服务,沉淀场景定制化 经验,致力于规模化发展。智能语音厂商可分为传统语音技术厂商和AI创业厂商。传统语音技术代表厂商包括科大讯飞、捷通华声等具备核心AI语音芯片以及全面智能语音技术的厂商,该类厂商凭借其 较强的技术优势和多年经验及客户积累,积极布局各行业应用场景;而AI创业代表厂商包括云知声、思必驰等凭借细分场景的服务水平提升和产品创新,以垂直领域为突破口提供细分场景的解决方案实 现快速增长。智能语音厂商专注于语音识别技术和智能语音交互技术的研发和应用,并通过硬件、软件和云服务等多种方式来提供语音识别和智能语音交互解决方案,既可提供全链路智能语音服务,也 可提供子逻辑的技术点, 采用技术授权和定制开发两种产品形态,通常直接向TO B或TO G企业提供 【4】 服务。 如科大讯飞和思必驰面向政府和企业的语音识别分别约占65%和90%.。此外,直接面向政 府或企业的语音识别产品的利润水平较低,其中软件技术利润率小于10%、软硬件一体化产品利润率 约为5%(产品总价会更高,出于业务流水考虑,企业压低利润率出售)。 下 产业链下游 渠道端及终端客户 应用场景 渠道端 湖南纽曼数码科技有限公司 北京爱奇艺科技有限公司 南京机器岛智能科技有限公司 查看全部 产业链下游说明 语音识别下游应用场景广阔,一方面作为智能语音技术的基础环节,与自然语言处理、语音合成等技 术形成完整语音交互;另一方面,直接以产品或服务形式应用于市场,应用于客服、会议、字幕生成、语音质检、课堂录音、语音输入等场景。整体上看,可将语音识别应用划分为实时长转写、后长 转写和短转写三类。实时长转写长时间占用服务器的转写通道,整体使用成本较高,其中,调用公有云的形式按照时长收费,每小时费用几块到十几块不等;私有化部署按照并发量收费,50个并发量部 署成本约为100万,并且每年需支付10%-20%网络维护费用。后长转写,是指对录音文件进行转写,一小时的录音,10分钟内即可完成转写,对服务器的压力较小,通常按照2-3元/小时的标准收费。短 转写运用在机器设备的响应中,时长通常控制在一分钟,采用一次性授权收费或调用次数收费两种模型盈利。以蓝牙音箱、儿童机器人等智能硬件为例,全链路服务的授权费用在10-15元,单点能力授 权费用约2-5元。 语音识别行业规模 2022年语音识别市场规模达136.40亿元,2017-2022年年均复合增长率约26%。头豹研究院预计语音识别 市场2023-2027年年均复合增长率约为28%,2027年有望突破450亿元。 2015年端对端技术兴起,语音识别迎来第一波发展浪潮,应用场景从手机、电脑端等电商、互联网入口向 智能硬件扩展,年均增长率约为15%-20%。2017年微软运用了LLDN模型,在 Switchboard