您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:头豹词条报告系列:语音理解 - 发现报告
当前位置:首页/行业研究/报告详情/

头豹词条报告系列:语音理解

信息技术2023-07-12陈文广头豹研究院机构上传
头豹词条报告系列:语音理解

Leadleo.com 客服电话:400-072-5588 语音理解头豹词条报告系列 陈文广 2023-04-14未经平台授权,禁止转载版权有问题?点此投诉 信息传输、软件和信息技术服务业/软件和信息技术服务业/其他信息技术服务业 信息科技/软件服务 行业: 语音交互技术 智能语音 语音识别 语音交互 自然语言处理 关键词: 行业定义 语音理解是一种利用人工智能技术对语句进行自动识别和… AI访谈 行业分类 针对应用场景和任务实现的不同,语音理解技术可以分为… AI访谈 行业特征 中国语音理解行业的商业模式主要包括产品订阅服务、A… AI访谈 发展历程 语音理解行业 目前已达到4个阶段 AI访谈 产业链分析 上游分析中游分析下游分析 AI访谈 行业规模 2017至2022年中国语音理解技术所带动的市场规模保持… AI访谈数据图表 政策梳理 语音理解行业相关政策7篇 AI访谈 竞争格局 通过语音分析相关专利以及市场力两个维度对中国部分与… AI访谈数据图表 摘要在本篇报告中,我们将对语音理解技术进行深入的研究和探讨。报告将结合宏观市场角度,从政策、市场规模、发展趋势与竞争格局切入分析,并围绕语音合成技术的产业链条,深入分析中国语音理解行业的发展现状与趋势 语音理解行业定义 语音理解是一种利用人工智能技术对语句进行自动识别和语义理解的过程。语音理解是在语音识别的基础上,进一步对语音的语法和语义知识进行分析和利用,以达到更高层次的人机交互的目的。整个语音理解过程包括语音信号处理、语音识别、语法分析和语义理解等环节,涉及多个交叉学科,包括实验语音学、汉语语法、自然语言理解和知识搜索等,旨在为用户提供更丰富、更准确的人机交互体验[1] [1]1:https://www.leixue… 2:https://www.leixue… 3:泪雪网 语音理解分类 针对应用场景和任务实现的不同,语音理解技术可以分为通用型语音理解和特定型语音理解。通用型语音理解具有较强的泛用性,常用于搜索引擎,语言翻译等场景;特定型语音理解具有较强的专业性,适用于医疗、法律等专业性的领域[2] 语音理解分类 通用型语音理 解 通用领域的语音理解是指能够处理各种主题、风格、口音和语境的语音理解系统,例如搜索引擎、机器翻译、智能助手等 语音理解分 类 特定型语音理 解 特定领域的语音理解是指针对某一特定的领域或任务,利用专业知识和语料库来提高语音理解的准确性和效率的系统,例如医疗、法律、旅游、教育等专业领域 [2]1:http://baike.cntro… 2:https://www.woshi… 3:电子元件技术 [3]1:http://baike.cntro… 2:https://www.woshi… 3:电子元件技术 语音理解行业特征 中国语音理解行业的商业模式主要包括产品订阅服务、API接口以及定制化解决方案等;在行业门槛方面,目前行业进入门槛较高,主要包括技术门槛、数据门槛、人才门槛和生态门槛;在技术发展方面,语音理解技术将与其他人工智能技术融合发展,赋能下游产业智慧升级[4] 1商业模式 语音理解行业的商业模式主要包括产品订阅服务、API接口以及定制化解决方案等 在产品订阅服务方面,语音理解服务商根据市场需求提供多种服务套餐,套餐内可包含不同的功能,如发音人选择、语音处理速度、支持的语言种类等。根据套餐内容的不同,服务商按照使用次数或年度订阅服务的方式进行收费,订阅价格通常在数千元至十万元不等。在API接口调用方面,语音理解服务商提供API接口供客户调用。客户可以将这些接口集成到自己的产品或服务中,从而为终端用户提供语音识别、语义理解等功能。API接口的计费方式通常包括按次计费、按使用量计费等。在定制化解决方案,针对特定行业 [5 或企业需求,语音理解技术厂商可以提供定制化的解决方案。这些解决方案通常包括特定领域的语音识别、语义理解和自然语言生成等功能。定制化解决方案的收费模式包括一次性费用、持续维护费用或按项目进度收费等 2行业门槛 目前语音理解行业的进入门槛处于较高的水平,主要包括技术门槛、数据门槛、人才门槛和生态门槛 在技术门槛方面,语音理解涉及语音识别、自然语言处理、知识图谱、机器学习等多个技术领域,需要具备较强的研发能力和创新能力以及长时间的经验积累,同时需要不断跟进技术的发展和变化,保持技术的领先优势。在数据门槛方面,语音理解需要大量的语音数据和文本数据来训练模型和优化算法,数据的质量和数量直接影响语音理解的效果和性能。同时,数据的收集、标注、存储、管理等也需要投入较多的人力和物力资源。在人才门槛方面,语音理解需要具备多学科背景和专业知识的人才,包括语音信号处理、自然语言处理、机器学习、计算机科学等领域。目前,中国人工智能相关人才的市场缺口超500万,对于企业而言,招聘适合的人工智能专家需要花费高昂的用工成本,同时人才的培养和留存对于中小企业而言也是一个较大的挑战。在生态门槛方面,语音理解需要与各种应用场景和行业需求相结合,形成完整的产业链和生态圈;这就需要与各方合作伙伴建立良好的关系,提供定制化的解决方案,满足不同客户的需求。然而对于中小企业而言,在生态资源方面存在明显劣势。总体而言,当前语音理解赛道的进入门槛相对较高。中小企业可与已有成熟技术的企业进行合作或购买技术授权,将这些技术应用于自己的产品和服务中,以降低自身的研发投入,缩短产品上市时间 3多技术融合发展 多技术融合发展,语音交互赋能产业智慧升级 语音理解作为人工智能感知智能的一部分,其关键作用在于将物理世界中的信息转化为计算机可处理的数据,后续的认知智能奠定基础。因此,除了实现其核心功能外,语音理解还可以与其他AI技术深度融合,应用于更多的生活场景。通过将前端的语音交互与后端的互联网服务相结合,多种技术协同发展,不仅赋能单一技术,还能推动AI语音相关产业创新,助力新兴产业崛起。例如,在AI语音理解技术的推动下,语音机器人、智能客服等新兴产业正快速发展;在公检法领域,通过融合计算机视觉、自然语言处理和语音合成等技术,能够实现智能庭审、电信网络反欺诈、虚拟法官、声纹研判、智能接警和警务智能语音服务等功能,为公检法参与者提供全面而高效的服务 [4]1:https://www.xfyun… 2:http://www.199it.c… 3:https://www.sohu.… 4:沙利文、科大讯飞、中… [5]1:http://www.199it.c… 2:https://www.sohu.… 3:https://www.xfyun… 4:中国语音产业联盟,新… 语音理解发展历程 自20世纪50年代以来,语音理解技术大致经历了四个发展阶段。在模板匹配阶段,贝尔实验室开发了一个有限的识别系统,仅能识别10个英文数字发音。在模式和特征分析阶段,线性预测编码技术(LPC)和动态时间规整引入语音识别领域,解决了特征提取和不等长语音匹配问题。在概率统计建模阶段,隐马尔科夫模型 (HMM)和高斯混合模型(DMM)开始被广泛应用,神经网络技术也逐步发展。当前,语音理解技术已进入规模商业化落地阶段,深度神经网络(DNN)开始占据主导地位,提高了语音识别和理解的准确性,近年来端到端语音合成技术逐步成为主流,促使准确率进一步提升。目前,许多消费级和专业级语音理解产品已在市场上广泛应用,例如智能音箱和语音助手等[6] 萌芽期1952~1960 模板匹配阶段 1952年,贝尔实验室研制出了世界上第一个能识别10个英文数字发音的系统,但只能理解有限的词 汇以及内存中的数字,无法将语音转化为完整的句式或者词汇,同时对于不同声音模式,机器能识别的数量极为有限 [7 启动期1970~1980 模式和特征分析阶段 线性预测编码技术(LPC)被成功应用于语音识别,动态规划的思想也被应用到语音识别并提出动态时间系统,有效解决语音信号的特征提取和不等长语音匹配问题,可以通过对声音的模式和特征设置 参数,并基于大量词汇进行连续的语音识别 高速发展期1980~2010 概率统计建模阶段 主流算法开始转为概率统计建模,隐马尔科夫模型(HMM)和高斯混合模型(DMM)开始应用, 同时神经网络在语音理解领域稳步发展,深度神经网络开始频繁出现在语音理解的主流市场,逐渐有商业化产品落地 成熟期2010~2023 规模商业化落地阶段 算法由传统概率统计转向深度神经网络为主,DNN的出现开始大幅提升语音识别和理解的准确率,2016年首次达到人类水平(95%);近年来端到端的语音合成开始成为潮流,准确率进一步提升至 98%。作为人机交互的入口,消费级产品和专业级产品开始大规模落地,例如智能音箱、语音助手等产品 [6]1:https://mp.weixin.… 2:https://mp.weixin.… 3:西南证券、CSDN、科大… [7]1:https://mp.weixin.… 2:https://mp.weixin.… 3:西南证券、CSDN、科大… 中国语音理解产业链分析 中国语音理解行业产业链上游主要分为数据、算力和算法三部分,在数据方面,是以海天瑞声、标贝科技、数据堂为主的数据标注服务商,为语音理解模型提供经过标注的训练数据;在算力方面,中高端的语音芯片仍然被Intel、英伟达等美国厂商所垄断,中国厂商逐渐ASIC语音芯片赛道进行发力,目前已完成技术上的突破,云知声、科大讯飞等厂商已实现的规模化量产;在算法方面,目前中国的语音理解模型的语音识别准确率已达到全球领先水平,例如科大讯飞的语音识别的准确率已高达98%。产业链中游主要为语音理解技术的服务提供商,分为互联网企业和智能语音科技企业两种类型;互联网企业在数据资源、产品生态和技术融合方面具有明显优势,代表企业包括腾讯云、阿里云、百度云等;智能语音科技企业的优势在于专注度和定制化方面,代表企业包括科大讯飞、思必驰、云知声等厂商。产业链下游主要为应用厂商,典型的应用场景包括智能车载(代表厂商包括比 亚迪、特斯拉、长城汽车等)、智能音箱(代表厂商包括百度、天猫精灵、小米)等 在上游的数据标注领域,数据标注的质量和数量直接影响语音合成模型的性能和效果,包括准确性、自然度、流畅度、鲁棒性、表现力等方面。因此,投入足够的精力和资源进行高质量的数据标注是提升语音合成技术的关键。分析师认为,随着应用市场对AI模型的智能化水平要求的提高,数据标注质量将成为未来AI模型行业竞争的重要因素。在语音芯片领域,随着人工智能算法基本稳定,且规模化人工智能时代即将到来,ASIC芯片将迎来爆发式增长,具备ASIC芯片自主量产能力的企业将获得先发优势。在中游的语音理解技术服务环节,受语音理解技术的复杂性、研发投入、数据需求及市场竞争等因素制约,分析师认为,语音理解赛道的进入门槛已相对较高。中小企业可与已有成熟技术的企业进行合作或购买技术授权,将这些技术应用于自己的产品和服务中,以降低自身的研发投入,缩短产品上市时间。在下游应用场景方面,智能车载为语音理解技术的典型应用场景,2021年中国新发布乘用车当中,语音交互功能的渗透率达到了84%;预计未来5年将提升至90%以上。智能音箱结合了语音识别、语义理解和语音合成技术,可作为智能家居的“中枢神经”,人类可向智能音箱发出语音命令,从而控制其他智能家居设备。2021年中国智能音箱的出货量达到2,631万台,其中百度、小米、天猫精灵、华为位居前四,合计份额达到96.5%。面对当前行业集中度水平极高的形势,中小创企业的智能家居产品将以接 入智能音箱头部厂商的方式为主[8] 上 产业链上游[9 产业链上游说明 在语音理解算法模型的训练数据方面,训练数据集的生成包括设计、采集、标注和质检等生产环节,或者基于客户提供的原料音频文件执行标注、质检工作,最终形成客户所需的语音合成训练数据集。数据标注的质量和数量直接影响语音合成模型的性能和效果,包括准确性、自然度、流畅度、