智能音箱与生成式AI结合前景展望中金公司外聘专家 时间:2023年03月26日 市场表现:上周智能音箱板块表现活跃,国光电器上涨幅度超20%,另外包括漫步者、共达电声的表现也不错。 市场热点:ChatGPT为代表的生成式AI模型与智能音箱的结合,会有何应用前景?今、明年可能推出哪些新品?给市场竞争格局和整个市场的β带来怎样的变化? 智能音箱:2014年Amazon推出了Echo后,其销量迎来迅速增长,但在2019年,全球智能音箱年销 量基本稳定在1.7~1.8亿台,国内销量稳定在3,700万台左右。2022年,国内销量同比下滑20%左右,进入增长的瓶颈期。 问:智能音箱领域现在存在哪些问题使得其不能实现渗透率持续提升? 答:Echo推出后,国内国际市场很快跟进:京东、讯飞推出叮咚音箱,哈曼卡顿和微软推出了Invoke、天猫精灵、百度、小米等也都推出了智能音箱。产品推出后销量迅速上升,与国内的补贴政策相关。 当时(供应商)的目的是希望智能音箱能够占领智能家居的入口,或者通过智能音箱和商城形成联接。但产品在实际场景中,(智能音箱)存在较多问题: 1.交互体验不好(根本性问题): 前期,受制于远场交互,远距离让交互失效、噪音让交流失效。 后期,受制于交互能力,如没有提供“免唤醒”、“多轮对话”。总体来说就是太傻了,也是主要不足。 1.应用场景单一: 主要在报天气、讲故事、听歌曲等简单应用场景,不够深入。 1.个性化能力较弱: 无法识别人的情绪、或针对性对话。 最后用户将智能音箱当作普通音箱使用,未实现智能音箱用作智能家居入口或形成商务链接。阻碍了智能音箱产品的继续发展。 问:以ChatGPT、文心一言为代表的生成式AI模型,未来对于智能音箱存在的交互体验不好,功能单一,个性化比较弱的传统痛点有哪些提升? 答:ChatGPT最大的亮点和突破是通用模型的提升、交互能力上的显著提升。ChatGPT4发布后又有了多模态(已经存在多年)的能力,除语音以外,还有视觉等多种交互形式,融进多模态技术后的ChatGPT4更为强大。 生成式AI对智能音箱的提升点: 1、交互体验提升,如理解上下文、多轮对话。因为其模型非常大,所以它已经远远超出了之前几代的 智能音箱,在对话体验上一定是非常大的升级;2、生成内容质量提升满足在真实场景中服务客户,如使用音箱做家庭旅游规划,或者协助办公。未来有可能会逐步的实现个性化和情感。但目前还不具备此能力,随着未来技术进一步提升,结合数 字人概念,可能在这方面也会有提升。 问:生成式AI模型应用到生活当中,可能拓展哪些应用场景?产品形态是不是会发生一些变化? 答:把通用语言大模型看作一个平台,可添加的要素很多。传统语音智能音箱形态受输入端和输出端使用语音决定。但ChatGPT4的技术平台是多模态的,不限于语音。可能很多人会把机器人与其做结合,以前是智能音箱,现在更愿意用机器人称呼其产品,如陪护型机器人、办公机器人,学习机等。此时,有如下形态变化: 1.1、传感器数量变多,以感知周围的环境,同时在个性化上,对人的身份进行识别; 2.2、输出端可能不局限于声音,可能有图像和文档:因为声音输出有局限性,不适合做生产效率提升。另,智能音箱不一定局限于家居场景,机器人也可以是一个数字人的形态,打通智能驾驶、家居场景 等。 问:多模态底层技术成熟但距语音视觉真正融合仍差距较大,就现在市场参与者(软件、硬件)而言,短期内的改变有哪些?是否只要在硬件上加一个api接口就能大概实现这些功能? 答:还没有到一接入马上就能产生效果、立刻产生新品的阶段。传统硬件厂商做出产品的形态有区别。虽然接入ChatGPT能提升交互体验,同时也会带来几个问题: 1.1、算力分布设计的问题:如情绪识别是放在本地处理还是传到后端ChatGPT上处理; 2.2、时延控制:平台有大量api接口的访问可能会带来较长时延,影响交互体验; 3.3、成本的问题:考虑用户调用api的付费模式; 4.4、数据安全性的问题:仅调用ChatGPT没有问题,一旦涉及到用户数据,需要依据国家规定; 5.5、突破使用场景的问题:聊天场景可能很快就能有一些明显的改善,但对场景的设计和理解(的改善)没有那么快。如果不深度挖掘使用场景,直接调用ChatGPT而不做设计,产品可能无法有质的突破。这就回到了产品形态,它也许会变成一些细分的机器人的形态来出现,而不是以一个真的完全的智能音箱的形态来出现,在目前还没有做到真正的这种全功能的人工智能的情况下,这些细分场景上的设计反而能真正解决用户的问题。 问:能否跳过智能音箱,直接用手机完成智能、智慧家居的这样一些服务? 答:不会以一个手机或一个智能音箱作为单独的入口。业界共识:以后的智能硬件终端有很多种,不可能有一个智能硬件是通识天下的,未来的智能硬件是齐头并进的:学习机、智能手表、电脑、iPad、手机等。 例如:汽车中手机不会取代车机,你的手机跟你的车机之间是可以完全联通的,信息是共享的,APP都是绑定或者是同步的。我们当然可以拿手机去控制所有的东西,但智能音箱形态比较稳定,仍会作为一个智慧家居场景的入口而存在,通过语音控制家里所有的东西。 问:语音交互的优势、劣势?语音交互的技术成熟度?答:语音交互这种形式一定是最自然最方便的;其情感表达比较直接,能负载人的情绪信息。语音交 互还存在如下问题影响其普及: 1.1、隐私性问题:比如公共场合的语音沟通; 2.2、交流效率:不如图表数据直接和迅速; 3.3、语音识别率有待提升:方言、嘈杂的环境、不同声音识别……,这些问题不能通过ChatGPT解决。引入ChatGPT后: 1、情感交互目前还没有在ChatGPT的基础上完整实现。语音交互技术从四个维度实现情感交流:情感识别(较成熟)、情感模拟(逐步完善)、情绪反应(ChatGPT还不具备这种能力)、交流内容 (ChatGPT无法较好取舍可交流的内容) 2、语音交互的智能化提升代表交流具开使具有建设性意义,有利于语音交互普及。 从技术角度,语音交互包括识别语音(ASR)、语言的处理(NLP)、输出语音(TTS)。其中ASR部分整体成熟度较高、NLP有很大的突破、TTS最早开始成熟,但在情感交互上比较难突破。 问:关于ASR,中文成熟度?竞争格局? 答:ASR国内主要的是科大讯飞、百度做得比较好,国外谷歌应该是做的最好的。现在国内国外基本上是属于同一水准了,中文国内好,英文国外好,谷歌在小语种有一些优势,但差距都不大。 问:相比智能音箱,电视机融合了视听交互是不是更适合作为一个交互的平台?智能音箱短期的市场推广? 答:电视机的智能交互一直存在,一种是在电视机上做,一种是拿遥控器交互,但电视机场景受限,很多人不看电视,所以只拿电视机来做这个事情是不够的。 智能音箱短期的市场推广,作为国光或者漫步者这样的音响厂商,因为它本身并不是一个专门的AI的公司,所以他们依然会以智能音箱形态为主去推,更多的是在场景化上还再多做工作;百度、讯飞、阿里、腾讯这种人工智能企业的选择比较多,比如在原有的产品形态上做升级:讯飞升级学习机、小米和百度升级智能音箱,它能实现的生产力效率的提升以及生活的便利程度,可能超过音响厂商。所以不同公司,因为大家的基础能力和着眼的场景完全不一样,在智能音箱领域短期内的打法会不一样,智能音箱往后发展可能反而会形成一些分化。 问:目前各家产品的时间线?国内互联网厂商未来的一个竞争格局? 答:公开信息:讯飞5月份发布新的学习机、百度文心一言会有后续产品。虽然文心一言发布了,但他的能力和ChatGPT本身还存在差距的,但这些差距很快就会缩小。因为在机器学习领域,有一个所谓的Teacher的方法,可以把ChatGPT作为老师互相训练,能赶上老师的水平,再加上国内本来就不缺数据、用户、应用场景,所以说其实它赶上ChatGPT甚至在某些领域超过它都是非常有可能的。 未来一定会产生两种类型的公司:构建AI平台的公司,比如百度的文心一言、Moss;和做平台应用的公司,百花齐放。 技术侧:百度和讯飞的技术相对比较扎实,但从应用侧:腾讯、阿里、小米的应用场景或者接触的客户群体反而更多。 问:从技术角度介绍一下,真的能够快速赶上国外水平? 答:NLP这个技术前几年是遇到很大瓶颈的,直到ChatGPT3.5之后发现他的智商水平确实提升了。这种提升有两个原因: 1.1、模型特别大,包含万亿级参数,训练成本当然也非常高; 2.2、高质量的数据。 大家担心一旦现在ChatGPT联网,可以去网上搜索信息自己学习,他学的东西是否可信,会不会开始 一本正经地胡说八道都非常有可能。 中国各大公司已经知道这个问题一定能够做出来,只是需要时间问题,因为别人也做出来了。只是需要一个训练的过程和数据准备的时间。 问:传统的硬件厂商转型的努力方向? 答:这些传统公司反而比之前更有优势。ChatGPT的开放程度,可能会让传统公司介入人工智能更加容易;传统公司有比较固定的用户群体,具有一定的品牌号召力;他们的产品设计能力其实是强于很多互联网公司的,具备global的设计能力,他们的产品经理对自己客户群体发掘非常深入,对场景的理解分析得非常透彻。 问:一些更加综合性的消费电器或消费电子集团(比如美的、TCL、创维)的机会? 答:个人观点就是他们的启动会稍微晚一点。虽然白电是刚需,人工智能的普及率很高,但是应用很少,在接入ChatGPT之后,挖掘用户价值的链条更长,会慢慢启动,享受AI的红利或者带来的益处可能会晚一点,但最终一定会实现智能化。 小结: ChatGPT在自然语言处理方面取得重大突破,带来了文字交互体验的提升,结合此类生成式AI模型的新一代智能音箱产品有望一改之前单一的场景功能,重新定义产品形态,在更多细分场景下为用户带来更好的体验、提供有价值的服务。 一方面国内生成式AI模型的发展赶上国外水平就是时间问题,国内各厂商可能会形成两种类型的公司:搭建生成式AI模型平台的公司及基于平台开发新应用的公司。另一方面,在新一代智能音箱的推广过程中,不同类型的公司发展路径各异,传统的硬件厂商也存在竞争优势,智能音箱领域短期内将百花齐放,未来可能形成分化。