股票报告网 摘要 智能语音转写是可以支持长音频流的语音转文字的一项语音识别能力,是主要面向人人对话的语音识别系统,包含非实时和实时两种转写方式,适用于远场、长时、语言无组织性的场景 产品同质化竞争困局下,智能语音转写行业如何把握发展机遇? 非实时语音转写是将录制好的音频文件进行文字转写,其特点是需事先录制音频,异步返回结果,且具备分词、多候选、语音鉴别、发音人分离等功能;实时语音转写是在采集音频的同时返回文字结果,其特点是无需录制音频,实时同步返回结果,且具备上下文纠正、标点过滤等功能 —— 随着新兴自然语言技术产生以及已有技术的不断成熟, 目前中国智能语音转写行业市场较为集中,讯飞听见和搜狗听写的市场份额占据绝对优势,行业头部效应明显,且讯飞听见和搜狗听写的用户满意度均高于行业整体水平 智能语音技术已经从萌芽期迈入了成熟期。AI利好政 策也为中国智能语音行业带来全新发展机遇。语音识 从用户选择比例来看,讯飞听见、搜狗听写两家厂商占比为74.5%,市场较为集中,行业头部效应明显。其中,最近使用过或正在使用讯飞听见的用户比例最高,占比达到43.3%;从用户满意度来看,讯飞听见和搜狗听写均高于行业整体满意度水平;从技术能力来看,讯飞听见、搜狗听写和灵云听语的语音转写准确率均达到98%,技术能力过硬 别及交互技术突破使得智能语音消费场景丰富多元, 语音识别准确性的提升使得智能语音转写服务的商业 中国智能语音转写行业中游厂商呈现技术开发与产品开发一体化的趋势,行业发展趋向智能硬件和后期处理平台服务一体化以及特定领域定制化服务的态势 化落地持续推进。在面临产品同质化的困局下,一方 面需进一步提高转写质量和效率,另一方面需精准定 中国智能语音转写行业中游系统集成厂商商业模式可分为为用户提供智能语音转写软件接口、硬件终端和软硬件一体化服务三大类。互联网巨头厂商和AI创业厂商主要提供语音转写软件接口,按使用次数及使用时长进行收费;智能语音厂商主要为B端客户提供综合解决方案,行业发展趋向智能硬件和后期处理平台服务一体化以及特定领域定制化服务的态势 位目标用户,开放平台技术能力,以智能语音技术为 核心拓展业务范畴 研究目标Research 名词解释 u语音转写:是可以支持长音频流的语音转文字的一项语音识别能力,是主要面向人人对话的语音识别系统,包含非实时和实时两种转写方式,适用于远场、长时、语言无组织性的场景 u非实时语音转写:非实时语音转写是将录制好的音频文件进行文字转写,其特点是需事先录制音频,异步返回结果,且具备分词、多候选、语音鉴别、发音人分离等功能 第一部分:行业综述 主要观点: p智能语音转写的定义、转写方式和实现路径:智能语音转写是可以支持长音频流的语音转文字的一项语音识别能力,是主要面向人人对话的语音识别系统,包含非实时和实时两种转写方式 p发展演变:中国智能语音转写行业经历了人工服务、互联网化、移动化和人机耦合四个发展阶段,语音识别准确性的提升使得智能语音转写服务的商业化落地持续推进 p竞争格局:目前中国智能语音转写行业市场较为集中,讯飞听见和搜狗听写的市场份额占据绝对优势,行业头部效应明显,且讯飞听见和搜狗听写的用户满意度均高于行业整体水平 ©2022LeadLeo 中国智能语音转写行业综述——定义、转写方式和实现路径 智能语音转写是可以支持长音频流的语音转文字的一项语音识别能力,是主要面向人人对话的语音识别系统,包含非实时和实时两种转写方式 智能语音转写路径 头豹洞察 的一项语音识别能力,是主要面向人人对话的语音识别系统,包含非实时和实时两种转写方式,适用于远场、长时、语言无组织性的场景 写路径 机器识别语音信号1冷唤醒远场降噪 机器实现理解语言从而转化Step 1文本语义 根据对话信息,理解对话场景1 国内一流厂商机器翻译能力1 国内一流厂商中英文语音识别转写准确率已高达98% 和语境,识别多人对话 已经达到国际领先水平 q 智能语音转写路径包括语音识别、语言理解、对话管理、语言翻译和语言转写,其对应的语音转写应用服务分别为智能识别、语气词过滤/编辑,对话识别,翻译/实时翻译以及语音转文字。语音识别(ASR)将语音一对一转录为文本文字,语音识别是智能语音转写服务的基础 语音转文字 语气词过滤/编辑 翻译/实时翻译 智能识别 对话识别 应用 智能语音转写方式 非实时语音转写 实时语音转写 q 非实时语音转写是将录制好的音频文件进行文字转写,其特点是需事先录制音频,异步返回结果,且具备分词、多候选、语音鉴别、发音人分离等功能 ü需事先录制音频ü异步返回结果 ü无需录制音频,实时同步返回结果 智能语音转写 ü分词:对每句话切分词语,提升文本可阅读性和后期文本处理 ü上下文纠正:针对上下文进行语义理解,对中间结果智能纠错 q 实时语音转写是在采集音频的同时返回文字结果,其特点是无需录制音频,实时同步返回结果,且具备上下文纠正、标点过滤等功能 ü多候选:在分词基础上输出候选词ü语音鉴别:识别关键词 ü标点过滤:通过参数控制标点是否返回 ü发音人分离:鉴别不同说话人 中国智能语音转写行业综述——发展演变 中国智能语音转写行业经历了人工服务、互联网化、移动化和人机耦合四个发展阶段,语音识别准确性的提升使得智能语音转写服务的商业化落地持续推进 中国智能语音转写行业发展历程 人机耦合 移动化 人工智能与人工服务相融合 引入人工智能和ASR技术,实现更高准确度的语音识别和语义理解 互联网化 2017年至今 引入机器服务,机器助力转写 人工服务 2015年-2017年 通过人工实现录写服务 产品形态:服务以APP、网页、硬件等方式,但机器与人工进一步融合 2010年-2015年 产品形态:服务渠道多元化,以APP、网页、智能硬件等方式 1990年-2010年 产品形态:以网页和网页客户端小工具等方式 产品形态:以专业人工服务或外包方式服务客户 q 中国智能语音转写行业经历了人工服务、互联网化、移动化和人机耦合四个发展阶段。近年来,中国人工智能市场蓬勃发展,应用加速落地,产业智能化变革,人机交互智能化加速,而智能语音居于重要位置。语音识别及交互技术突破使得智能语音消费场景丰富多元,语音识别准确性的提升使得智能语音转写服务的商业化落地持续推进 q 中国智能语音产业发展环境不断完善。产业政策逐渐细化,用户隐私安全治理更加规范;产业联盟积极发挥作用,推进产业生态构建;产业标准体系建设加速,规范产业发展;产业创新资源集聚,构筑创新发展优势 中国智能语音转写行业综述——竞争格局 目前中国智能语音转写行业市场较为集中,讯飞听见和搜狗听写的市场份额占据绝对优势,行业头部效应明显,且讯飞听见和搜狗听写的用户满意度均高于行业整体水平 中国智能语音转写行业竞争格局,2022年 第二部分:产业链分析 主要观点: p中国智能语音转写行业产业链:产业链上游是语音识别、自然语言处理等技术,中游是智能语音转写系统集成商,下游应用领域集中在泛媒体行业、各大专业领域及商务领域,应用场景多元 p上游语音识别技术:语音识别系统本质是一种模式识别系统,中国语音识别技术不断更新与突破,专利申请量呈逐年上升的趋势,其中百度和腾讯申请量占比达58.29% p上游自然语言处理技术:自然语言处理是智能语音转写的核心技术之一,是利用计算机对自然语言文本进行理解、处理、并提取文本语义的过程。为解决资源浪费、项目之间缺少共享等问题,基于AI平台开发NLP的方案应运而生 p中游系统集成厂商分类及商业模式:中国智能语音转写行业中游厂商呈现技术开发与产品开发一体化的趋势,行业发展趋向智能硬件和后期处理平台服务一体化以及特定领域定制化服务的态势 p下游行业应用:中国智能语音转写行业下游应用领域主要集中在泛媒体行业、各大专业领域如翻译、教育行业以及商务/企事业单位等,应用场景不断拓宽和深化,提升泛媒体产能和用户效率 ©2022LeadLeo 中国智能语音转写行业产业链分析——产业链图谱 中国智能语音转写行业产业链上游是语音识别、自然语言处理等技术,中游是智能语音转写系统集成商,下游应用领域集中在泛媒体行业、各大专业领域及商务领域,应用场景多元 中国智能语音转写行业产业链图谱 产业链上游 产业链中游 产业链下游 语音识别 自然语言处理 行业应用 智能语音厂商 AI创业厂商 中国智能语音转写行业产业链分析——上游语音识别技术 语音识别系统本质是一种模式识别系统,中国语音识别技术不断更新与突破,专利申请量呈逐年上升的趋势,其中百度和腾讯申请量占比达58.29% 中国语音识别技术专利申请,2013年-2022年5月 语音识别技术系统架构,2022年 截止至2022年5月中国语音识别技术相关专利申请量合计5,695项,语音识别作为人工智能领域的一项关键技术,技术不断更新与突破,专利申请量呈逐年上升的趋势 中国语音识别技术专利申请量TOP10单位:[项] 联想 175 219 270 289 293 427 539 语音识别技术以语音为研究对象,通过识别与处理语音信号使计算机自动识别和理解人类口述的语言。计算机通过语音识别和理解的过程将人类口述的语音信号转变为机器可处理的文本 科大讯飞 华为 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,完成语音训练与识别两大过程 平安科技 中国语音识别技术专利申请量Top10厂商中百度和腾讯申请量占比达58.29% 1304 百度 2016 2000 1000 中国智能语音转写行业产业链分析——上游自然语言处理技术 自然语言处理是智能语音转写的核心技术之一,是利用计算机对自然语言文本进行理解、处理、并提取文本语义的过程。为解决资源浪费、项目之间缺少共享等问题,基于AI平台开发NLP的方案应运而生 自然语言处理技术 基于AI平台开发NLP的方案 中国智能语音转写产业链分析——中游系统集成厂商分类及商业模式 中国智能语音转写行业中游厂商呈现技术开发与产品开发一体化的趋势,行业发展趋向智能硬件和后期处理平台服务一体化以及特定领域定制化服务的态势 中国智能语音转写行业厂商分类,2022年 中国智能语音转写行业商业模式,2022年 商业模式 智能语音厂商 互联网巨头厂商 提供智能语音API和SDK接口,智能语音生态丰富优势:丰富的平台生态,积累了海量行业数据 典型供应厂商:腾讯、华为、百度、阿里 提供语音转写接口全套解决方案和定制化服务 硬件终端采编播审存 软硬件一体化构建语音转写产业生态 软件服务 算法技术层+场景应用 优势:综合语音产品丰富,庞大客群基础 录音笔等媒体硬件 离线SDK 集成解决方案 在线API 典型供应厂商:讯飞听见、灵云听语 私有云 完整版登录www.leadleo.com ü 厂商提供核心算法模块;数据在客户端进行;开放性、软件开发兼容 ü厂商提供语音采集ü厂商提供场景及行等终端硬件;有效 ü 厂商提供接口; ü 厂商提供私有云平台定制化服务;可满足客户定制化需求,安全性强 搜索《2022年中国智能语音转写行业分析》 业定制化解决方案; 数据在服务端进行;灵活性强、效率高 其他厂商 AI创业厂商 采集语音数据;实现语音采播编审存一体化 开发智慧媒体解决方案;满足不同行业个性化需求 提供语音转写接口和语音私有云解决方案 办公辅助类、软件开发类厂商等 优势:专注深耕某个细分领域,技术特色明显 优势:有其他办公产品搭配使用,价格较低 中国智能语音转写行业中游系统集成厂商商业模式可分为为用户提供智能语音转写软件接口、硬件终端和软硬件一体化服务三大类。互联网巨头厂商和AI创业厂商主要提供语音