您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:黄鹂智声降噪耳机调研交流纪要20230228–20230301 - 发现报告
当前位置:首页/会议纪要/报告详情/

黄鹂智声降噪耳机调研交流纪要20230228–20230301

2023-03-01未知机构北***
黄鹂智声降噪耳机调研交流纪要20230228–20230301

黄鹂智声降噪耳机2023-02-28 公司:黄鹂智能 领域:音频处理、智能硬件、人工智能、消费数码融资状态:天使轮,千万级人民币 主要投资人:汇芯投资、深创投索斯福、源政投资、清智资本官方网站:http://www.huangliai.com/ 清华大学工学硕士,高级工程师,拥有20年智能声音领域创新创业经验,先后研发苹果手机首款语音拨号软件、CET口语自动测评技术与系统、聆声智能声音前端处理技术解决方案等重大项目,曾获北京市科技进步奖等多项荣誉,拥有专利数十项。 黄鹂智声 全球领先的人工智能拾音降噪技术,让通话对方只能听见你的声音。黄鹂智声专业通话耳麦广泛应用在线直播、在线会议、在线学习、电话销售、口语考试训练、嘈杂环境通话等。 9篇原创内容 公众号 黄鹂智声成立于2019年,聚焦于声音前端处理技术和相关产品的研发、应用和服务,通过信号处 理、深度学习、听觉场景分析等技术的融合,在各类噪声环境下实现声音的清晰拾取。2022年,该公司宣布获得千万级人民币天使轮融资。 TWS(TrueWirelessStereo)耳机开创了耳机品类的新时代,其主动降噪功能一直是产品宣传中的重要卖点之一。实际上,降噪分成主动降噪(ANC)和环境降噪(ENC),ANC的价值体现在听音效果上,ENC的价值体现在通话效果上。虽然TWS耳机也在通话降噪方面下功夫,不过现实情况却是,当下大部分TWS耳机虽然也在关注并集成通话降噪技术,但通话降噪的效果并不好。 国内智能声音处理技术与产品公司黄鹂智声一直在跟这个问题死磕,他们的目标是通话降噪的效果达到「灭噪」级别,即在嘈杂的环境中通话,通话对方也只能听见通话者个人声音。他们首先瞄准的,是商用场景的客户,「(产品上)没有太多工业设计上的创新,但是最核心的是技术效果——通话灭噪。虽然其他产品也有一定的降噪功能,但在绝大部分用户使用的场景中,我们完全可以做到灭噪,这是核心的差异化。」黄鹂智声创始人&CEO刘志向我们介绍了他们产品的早期方向。 随着移动办公、混合办公的需求越来越多,普通消费者对于通话降噪的需求也更为迫切,这就有了黄鹂智声新推出的面向普通消费者的气导开放式蓝牙通话耳机——P200b,续航更长、灭噪效果更好。事实上,对于黄鹂智声来说,他们的声音降噪技术的进步,也是得益于AI技术的进步,「将传统物理方法和深度学习进行了深度融合。在不断探索的过程中,2015年才开始有所突破。」 降噪的难点到底在哪里?AI降噪和传统降噪区别是什么?以及,AIGC应用越来越广的未来,声音智能化的未来在哪里? 1.在各类复杂的噪声场景当中把目标声音清晰地进行采集,这是我们的核心能力。在应用场景上来说,噪声越复杂、越大我们就越高兴,因为挑战也越大。 2.从业者都知道语音不好做,因为问题很复杂,语音其实比图像处理难得多。 3.单就声音来说,可以把它类比到图像的处理,今天图像智能化能做的很多事情,声音都可以,像语音识别对应图像识别、声纹识别对应人脸识别、声音情绪感知对应图像情感分类等。 4.今天还谈不到(产品的)终极形态,更多是演进。第一是小型化,第二智能化,第三集成化。 01 通话灭噪是 产品核心的差异点 Q:目前这款灭噪耳机,你最满意的点是什么?还不满意的点是什么? 刘志:就我们团队来说,比较满意的点是用了3年时间,从商用产品——以前大家很熟悉的头戴式产品,到推出了第一款面向消费端的产品形态,更加便携,舒适性也更好。从用户反馈来看,确实感受到很多用户的喜爱。但产品改进是没有止境的,接下来会考虑怎样把它做得更加小巧、更加便携。虽然现在的形态比以前耳包式的要好,但实际上今天更多用户还是喜欢像TWS这类形态的。 这里还有很多矛盾要解决,比如怎么让使用时长更长,今天很多的场景,参加一个线上会议可能需要3-4个小时,甚至更长时间,大量TWS耳机实际上满足不了这样的需求,我们目前这款耳机现在续航时间比较久,通话10个小时,听音乐可以16个小时,而且新版的续航时间还会更长。 Q:客户对你们的认可最核心的点是什么?他们是如何使用你们的产品的? 刘志:2019年8月份成立公司,2020年推出第一款产品,在2022年前我们推了几款商用式耳机。之前我们的客户大部分都是商用客户,主要涵盖三个领域:企业办公、呼叫中心和教育教学。疫情期间全国有几万名老师使用我们的耳机产品在线授课,很多老师家里比较嘈杂,孩子、家人,有的还养狗,给学生上课的时候会担心噪声传到课堂上,用了我们的产品之后,这些完全可以避免。还有呼叫中心和很多办公场景这种非常嘈杂的场景,使用我们的产品之后,完全是安静的。 客户对我们最满意的一点就是真的灭噪,有的客户甚至跑到广场舞大妈旁边打电话给朋友测试,广场舞这么大的噪声都没有问题。灭噪级的通话效果确实打动了很多用户,而且他们在使用场景中也真的有这样的需求。我们之前的商用客户主要集中在国内,在推出消费端产品之后,去年尝试了海外的众筹,在海外的Kickstarter和Indiegogo平台上,作为音频会议类的新产品,我们取得了整个细分领域的第一名,筹到了50多万美金,大概有4000多个客户,来自全球80多个国家和地区。 Q:你们是如何产品化的?产品化探索中遇到了哪些难点问题?解决的最核心的场景问题是什么? 刘志:我是技术出身,选择去做智能硬件产品,虽然做了很多心理建设,但是真正进入到这个领域之后,就真的是「痛并快乐着」。最开始两年我们都是在做商用端的产品,当时我们的定义是不要做产品的创新,所以对标的都是像捷波朗、缤特力这些传统的商务耳机,形态是头戴式包耳,带一个麦克风杆。第一代产品内部代号叫大笨丑,没有太多工业设计上的创新,但是最核心的是技术效果——通话灭噪。虽然其他产品也有一定的降噪功能,但在绝大部分用户使用的场景中,我们完全可以做到灭噪,这是核心的差异化。 我们主打灭噪的概念,通过两年多的时间,一方面不断完善我们对产品的理解,另外最重要的是通过这个过程,我们验证了技术的价值,真的有很多场景下的用户有这样的需求,不希望周边任何杂音传到外面。对于这类用户,验证价值之后,我们发现他们实际上不是传统商用耳机定义的市场用户,很多购买者就是普通消费者,包括老师群体等,以前在线教育公司、学校会给老师进行整体采购,但是今天很多老师自己主动有这样的需求,传统耳机对他们来说使用起来很不方便,而且随着移动办公、混合办公的需求出现之后,市面上没有好的产品能够满足这样的新需求。 从2021年年底开始,在我们意识到这个问题之后,觉得有必要推出一款面向消费端的产品。但没有可参照的成熟产品,基本没有哪一款产品是为这个用途打造的。不过还是有大量好的工业设计案例可以参考,我们现在推出的这款P2000b,从2021年开始设计,我们收集了之前关于各种通话耳机产品的讨论——大概四五千条用户觉得好的和吐槽的点,也用了一些AI技术去分析产品背后用户到底觉得哪些地方好,哪些地方不行。像TWS耳机,实际上很多用户也用它通话。主要存在几个核心问题,一是通话效果在一些嘈杂场景中无法保证,第二个是续航,第三是长时间佩戴难受。而过往的头戴式耳机不便携,夏天的时候很热,舒适性特别不好。 之前也有一种产品形态是单耳的耳挂式耳机,以缤特力5200为代表,实际上降噪效果也还不错,在我们的产品出来之前它应该是降噪效果最好的,舒适性和续航都不错,但是它最大的问题是只能用于通话,没办法兼顾其它需求,想用来听音乐、运动、健身等等完全不行。所以这类产品实际上都有它的短板,而这也是我们的机会,经过半年多的市场调研以及一些潜在用户的走访,我们定义了我们这款产品的几个核心指标:首先就是随时随地清晰通话,让通话的对方听得清清楚楚;其次作为一款开放式耳机,在嘈杂场景下用户自己听不清怎么办?我们引入了一个动态调节技术,保证在地铁里通话自己也能听清;第三点,要满足一整天的续航和舒适佩戴。 作为一款开放式的耳机,开放可以满足各种场景,现在很多时候开车要接电话或开会,如果是耳塞把耳朵捂住,对安全会有影响。我们的定义是在各类复杂的噪声场景当中把目标声音清晰地进行采集,这是我们的核心能力。在应用场景上来说,噪声越复杂、越大我们就越高兴,因为挑战也越大。 Q:有可能把通话和收音降噪结合做一款耳机吗? 刘志:我们有一款头戴式的,既有通话降噪,又有听音降噪,接下来会在入耳式的TWS形态中将两者完美结合在一起。这个需求是有的,而且实现并不困难。因为收音降噪技术很成熟了。从产品形态上来看,我们会不断推出更符合用户的使用场景,但我们也观察到一个问题,没有哪款产品能解决用户所有问题,苹果也不行,但是用户的一些共性需求是我们会特别关注的。 02 AI降噪的核心是提取有用的声音 Q:有一种说法「语音是科学家的坟墓」,为什么会有这样的说法?你怎么还选择了这样一个看似没有前途的研究方向? 刘志:「语音是科学家的坟墓」差不多是我在读研究生时,20年前的一个调侃,语音、图像和文本是人工智能的三个大方向,一定有很多值得去研究的。为什么大家觉得不好做?从业者都知道语音不好做,因为问题很复杂,语音其实比图像处理难得多。我当年研究生课题选择的就是噪声环境下的语音识别,那个时候语音识别就很难,噪声环境下的更难。我们最早搞模式识别这些,其实都可以算到今天以深度学习为代表的人工智能范畴。 整个语音的发展史有五六十年,中间也历经了很多大家会觉得好像很有希望突破的点,但是最后发现效果上还是没有办法让用户满意。当年四六级的口语考试就是我们团队来承接的,我们在实验室里调得非常好的,用机器去评价学生口语的一个系统,到了真实环境一看,几十个学生坐在一起,每个孩子都生怕机器听不见,都声嘶力竭地喊,结果声音完全串在一起。这也让我们意识到,声音前端降噪灭噪的问题非处理不可,声音后端很多应用起不来跟这点也有关系。今天深度学习出来之后,像语音识别、声纹识别等一系列和声音相关的应用,其实已经在安静环境下能达到非常好的水平,但是一旦到噪声环境,实际效果还是会大打折扣。这也是未来我们的技术可以发挥作用的场景。 Q:你之前接受采访,曾经谈到:「团队认识到噪声对声音信息的严重影响,因此下定决心要解决噪声干扰的问题,历经十余年的探索,终于走出了一条行之有效的路径。」为什么花了这么多的时间,被卡在了哪些问题之上? 刘志:声音的前端处理有三个大的难点。 第一,在降噪的同时怎么保证声音的低失真,这是所有做前端处理都不可避免会遇到的问题。AirPods用的是高通CVC的技术,也是很顶级的技术。但是它有两个问题,第一个是噪声依然还存在,做不到灭噪的效果。第二它在降噪的同时,有时候会把目标声音、原始的声音变得失真。 第二个难点是,怎么在各种复杂的噪声场景中都能稳定有效。今天的噪声场景越来越复杂,各种噪声混合在一起,有稳态的非稳态的,线性的非线性的,单一的手段很难保证在各种环境中都能稳定可靠地实现降噪效果。 第三个难点是实时性,我们也有很多处理,原来像电视台、广播电台,他们有非常复杂的设备来对外场采回来的声音做降噪处理,相当于把噪声进行分门别类,分析里面都有哪些噪声种类,一个一个滤除。但这种处理要花很长时间,大部分应用是没有办法去结合的,通信也好,人机交互也好,不可能过半个小时处理完再给到用户,实际上它的应用非常受限。 这三个难点问题是相互叠加在一起的,整件事情也是在深度学习有了一定突破之后,才有了新的发展。但即便是这样,我们最后发现还是有非常多的弯路要走。单纯的深度学习有两个大的问题,第一个问题是太复杂,模型如果太小,效果不好。第二个问题是黑盒效应,很多时候我们没办法判断它的问题出在什么地方。所以我们采用的技术路线是把传统物理方法和深度学习进行了深度融合。在不断 探索的过程中,2015年才开始有所突破,但刚开始运算的复杂度还是很高,后面我们考虑怎么把它做 到小型化,做到芯片上。所以实际上是从算法原理出发到把物理模型和深度学习融合,到做小型化,到做软硬件结合的优化,这是一个漫长的历程。 刘志参与Founder