联想智能语音技术 白皮书 (2023版) 1前言1 2智能语音技术发展背景3 2.1智能语音技术发展历史3 2.2联想语音技术研发布局8 3联想智能语音关键技术10 3.1前端信号处理10 3.1.1语音活动检测11 3.1.2回声消除13 3.1.3噪声抑制14 3.1.4波束形成16 3.1.5声源定位17 3.1.6去混响19 3.1.7语音分离21 3.2语音唤醒22 3.3语音识别26 3.3.1混合架构语音识别系统27 3.3.2端到端语音识别系统29 3.4语音合成35 3.5副语言语音属性分析39 3.5.1声纹识别39 3.5.2音频分类44 3.6说话人日志46 3.7英语发音评估51 4联想智能语音服务平台54 4.1服务平台整体架构54 4.2使用方法及特点55 5联想智能语音产品和解决方案57 5.1联想小乐语音助手57 5.2基于AIChip的声纹唤醒解决方案59 5.3联想智能座舱语音解决方案60 5.4联想智能语音客服系统63 5.5联想智能会议语音识别系统67 5.6联想智慧教育英语口语评估系统72 6智能语音技术展望75 6.1多模语音交互达到“类人”水平75 6.2语音设备生态走向开放互联76 6.3离线语音技术进一步提升语音产品渗透率76 参考文献77 1前言 语音是指人类通过发音系统,包括肺部、气管、喉部声门和声带、咽腔、口腔、鼻腔等,发出的在空气中传播的、具有一定意义的声音,是语言的声音形式,是人人交流中最主要的信息载体。另外,通过让机器能听会说,语音也成为人机交互的重要入口。 语音技术一般包括传输、存储、识别、合成、增强等方面,智能语音技术的研发主要聚焦于语音的识别理解、合成输出和声音增强。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段[1]。对智能语音技术的研究可追溯到上个世纪50年代,在经历了萌芽期、起步期、变革期后,目前正在进入发展高峰期。由智能语音技术驱动的语音用户界面已成为键盘鼠标、触摸之后的新一代人机交互界面。语音识别技术更是被认为已具备较高的成熟度水平,随着PC、平板、手机、IOT等设备走入了千家万户,消费者对其依赖程度越来越高,同时还为不同行业提供语音转文字的基本通用能力,如在智慧客服、智慧教育等垂直领域。技术进步也带来了智能语音市场规模的快速增长,德勤报告显示,预计2030年消费级应用场景将超 过700亿元,企业级应用场景在疫情的催化下也将加速发展,预计会达到千亿规模[2]。 联想结合自身在智能设备以及教育、服务等领域的优势,布局智能语音技术的研发,推进产品落地。联想是首家实现手机超低功耗全时语音识别系统量产的厂商,采用自有IP的声纹和唤醒技术,实现了全球首款支持在关机和待机状态下通过声纹唤醒的PC产品。在人工智能领域为行业发展做出了诸多突破性和引领性的贡献。 本白皮书通过回顾智能语音技术发展历程,阐述联想在智能语音领域的研发布局和思考,带领读者了解联想深耕语音核心技术所取得的突破,以及基于自研核心技术搭建智能语音服务平台,并介绍联想在自研语音平台支撑下结合自身优势在语音产品和应用上的实践案例,最后展望 未来发展趋势。 2智能语音技术发展背景 2.1智能语音技术发展历史 对语音技术的研究可追溯至上世纪50年代。受限于计算机能力和信号处理技术水平,早期学者们对语音技术的研究主要聚焦在声学语音学方面,开发的识别系统可用来识别通过模拟装置产生的在频谱上具有共振峰特性的不同元音。1952年贝尔实验室研发出第一个特定人数字识别系统Audery,该系统可以识别英文发音的10个阿拉伯数字0~9,对熟人发音的识别准确率达到90%以上,对陌生人则偏低。1962年IBM推出Shoebox系统,可以识别和理解16个英文单词,以及对10个数字进行加减运算的语音指令。1972年,CMU发布了针对孤立词语以及简单句式的语音识别系统Harpy,该系统能够识别1011个单词,使大词汇量、孤立词识别取得突破性进展。同期语音端点检测的概念和方法也被提出,进一步提升了语音识别的能力。随着线性预测编码和动态规划技术的发展,语音信号建模问题和时序匹配问题得到了更好的解决,建模思路也开始从传统的基于模板匹配的方法发展为基于概率统计的方法,从而将语音识别从孤立词识别阶段推进到连续语音识别阶段。进入二十世纪80年代,隐马尔可夫模型(HMM,HiddenMarkovModel)被用来建模短时平稳的语音信号的动态特性,解决连续语音识别问题。1988年第一个非特定人、大词汇量、连续语音识别系统SPHINX问世,可支持近1000个词汇。进入90年代,GMM-HMM(GMM,GaussianMixtureModel)成为语音识别的主流框架,语音识别水平也在逐渐提升,实现了超过上万词汇量的大词表连续语音识别系统(LVCSR,LargeVocabularyContinuousSpeechRecognition)。然而,受限于训练语料规模、模型建模能力以及计算机水平,这一时期技术水平只能支持简单的产品形态,未达到支持大规模商用的成熟度。 2006年基于深度学习理论的建模方法在机器学习任务被成功应用。深度神经网络(DNN, DeepNeuralNetwork)通过多层非线性结构将输入特征转换为更加抽象的高层表示,具有更强 的特征表达能力和建模能力。2009年DNN成功取代GMM对语音信号进行特征变换和状态预测,DNN-HMM的混合框架也成为语音识别的主力架构,将语音识别性能相对提升30%,取得突破性进展。随后语音识别技术更加快速地发展起来,卷积神经网络(CNN,ConvolutionalNeuralNetwork)被用来提取更精细和更鲁邦的特征表示,长短时记忆网络(LSTM,Long-shortTermMemory)用于建模长时时序动态相关性,说话人自适应声学模型和鉴别性训练等技术都使得系统性能持续提升。到2017年微软公布Switchboard任务错误率达到5.1%,与人类识别水平相当。DNN除在语音识别领域取得成功外,也为其他语音处理技术带来了突破,如声纹识别、语种识别、音频分类等都可以利用深度神经网络的特征表达能力将不定长的帧级输入转为固定维度的深度嵌入向量特征(DeepEmbedding),再针对目标任务进行分类和判别。这些分析语音中除语义内容以外其他信息的任务被统称为副语言语音属性识别,可以采用统一的DeepEmbedding框架,相比传统的统计建模方法有显著优势。技术瓶颈的突破为智能语音行业带来了快速迭代升级,HMM-Hybrid框架已经在很多语音产品和行业中落地商用。 近年来端到端语音识别系统(End-to-endASR)快速发展起来。端到端的语音识别框架直接建立语音和输出的字母或音素之间的映射关系,将声学模型、语言模型和发音模型以统一的目标容纳到一个整体中,与传统Hybrid框架相比简化了建模过程。目前主流的端到端模型主要包括CTC(ConnectionistTemporalClassification)、RNN-Transducer以及基于注意力机制的LAS(Listen,AttendandSpell)等。单从语音识别的性能来看,End-to-endASR已经逐渐赶超Hybrid框架,表现出更强的鲁棒性。相信随着在实际复杂场景的应用中不断进行打磨,端到端语音识别系统的应用成熟度会越来越高,并进一步推动语音产业的发展。 语音识别是让机器听懂人说话,而语音合成是为了让机器更准确、更自然地表达。语音合成的历史可以追溯到17世纪法国人研发的机械式说话装置。在19世纪开始研究电子语音合成技术,语音合成技术得到了飞速发展。1939年贝尔实验室利用共振峰原理制作出第一个电子式语 音合成器VODER0,1960年瑞典语言学家G.Fant阐述了语音产生的理论,极大地推动了语音合成技术的发展。1980年E.Moulines和F.Charpentier提出了PSOLA(PitchSynchronousOverlapAdd)[3]算法,使得合成语音更加自然。 19世纪90年代,语音合成商用系统还是以单元挑选与波形拼接的方法为主,基于大语料库,从预先录制和标注好的音频库中选择合适的语音片段进行拼接,得到最终合成的声音[4]。这种方法可以保持较高的语音质量,但无法保证领域外文本的合成效果,并且很难在移动设备上离线部署。 20世纪末,基于统计建模和机器学习的语音合成技术被提出。语音合成的技术框架在此时已基本形成,由文本前端、声学模型、声码器三部分组成。文本前端负责将输入的待合成文本转换成较为复杂的语言学特征;声学模型负责将语言学特征映射为声学参数特征;声码器负责将声学参数特征重建为最终的时域波形。这种方法可以利用较少的语音数据快速地构建出语音合成系统,且不受语料库限制,支持离线部署和嵌入式设备等多样化语音合成的需求。但该方法所需的语言学特征较为复杂,且由于生成的声学特征参数过于平滑等问题,合成语音的自然度仍然有待提升。 进入21世纪,随着深度学习的飞速发展,基于统计建模的语音合成技术逐渐被深度神经网络所取代。基于深度学习的语音合成技术将声学模型输入所需的复杂语言学特征简化为包含韵律信息的拼音/音素序列,甚至可以直接将文本作为输入。得益于深度神经网络强大的建模能力,语音合成的质量和自然度有了大幅提升,有些情况下甚至难以分辨是合成语音还是真实语音。 在人机交互中,除了语音识别和语音合成,为了让机器“听清”复杂场景下的语音信号,前端信号处理技术也是非常重要的部分。前端信号处理就是利用数字信号处理技术对语音信号进行一系列处理,以实现存储、传输,增强等目的。根据要解决的问题,可以分为多个方向,包括语音活动检测、回声消除、噪声抑制、波束形成、声源定位、去混响和语音分离等。上个世纪, 随着数字信号处理技术的发展,语音前端信号处理的各个方向都有相应的经典算法提出。 语音活动检测最早的方法是基于语音能量,后续又有各种效果更好的特征被提出,一些经典的算法也被国际标准所采用,例如国际电信联盟电信标准分局(InternationalTelecommunicationUnion,ITU-T)的G.729B、第三代合作伙伴计划(TheThirdGenerationPartnerProject,3GPP)的自适应多速率编码(AdaptiveMulti-Rate,AMR)等。这些方法通过提取特征,并与阈值比较来实现语音或非语音的判断。由于在复杂噪声环境下,这些方法可能性能会下降,有研究提出基于隐马尔可夫模型(HiddenMarkovModel,HMM)的方法。近些年来,神经网络在语音活动检测发现得到广泛应用,获得了优异的性能,同时具有良好的噪声鲁棒性。 由于早期电话应用使用低延时的模拟技术并且通讯距离普遍较短,回声消除问题在当时并不明显。20世纪中叶以后,由于卫星系统发展,需要解决遇到的回声消除问题。一种方法是使用切换的方式来隔断回音信号,这种方法虽然有效,但会导致交谈不自然。上个世纪六十年代以前,普遍采用一种叫回声抑制器的方法来实现回声消除,其原理是对回声进行一定程度衰减从而提高通信质量,但是只适用于时间延迟很小的场景。而随着卫星通信和IP电话的发展,传输时延有可能超过100--300ms,回声抑制器在这种情况下不再有效,因此需要对回声消除技术进行更多的研究。在众多方法中,基于自适应滤波器的回声消除技术表现良好,逐渐成为主流方向。20世纪80年代以来,国际电联ITU先后制定了消除线路回声的G165(EchoCanceller),消除音频终端回声的G167(AcousticEchoCanceller)及消除数字网络回波的G168(DigitalNetworkEchoCanceller)等国际标准。近些年,基于神经网络的回声消除方法不断被提出,获得了优于传统方法的性能。 噪声抑制的研究始于20世纪70年代。1978年,Lim和Oppenheim提出了基于维纳滤波的方法