面向6G的智能交互技术白皮书 (2022年) 中国移动通信集团有限公司 1 前言 随着未来6G网络技术的发展,移动网络的性能进一步提高,虚拟现实技术及下一代沉浸式业务的研究也进入到一个新的阶段,智能交互技术提供的真实性和沉浸感以及应用于虚拟现实的前景将使其成为其中一个被广泛关注的领域。 白皮书介绍了智能交互技术的概念,技术发展历程与现状,技术类型;分析了智能交互产业链布局,潜在的应用场景等,最后展望了智能交互技术的发展前景。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本文之部分或全部内容。 目录 1.智能交互技术概述1 1.1智能交互技术简介1 1.2智能交互技术的发展历程与现状1 1.3智能交互技术的类型4 1.3.1语音交互4 1.3.2眼动交互4 1.3.3体感交互5 1.3.4触感交互5 1.3.5多模态交互6 2智能交互技术产业链6 2.1语音交互产业链概述6 2.2眼动交互产业链概述8 2.3体感交互产业链概述10 2.4触感交互产业链概述11 2.5多模态交互产业链概述11 2.6智能交互技术的不足与瓶颈14 3智能交互技术的应用场景15 3.1智能家居15 3.2智能手机15 3.3全息通信16 3.4元宇宙17 3.5数字孪生19 4智能交互技术未来展望20 缩略语列表22 参考文献23 编写单位及作者24 1.智能交互技术概述 1.1智能交互技术简介 随着大数据、云计算、人工智能等新兴科技的迅猛发展,信息技术更广泛地融入社会,人们与系统之间的交互形式变得更多样化,各种交互技术也日趋成熟。本章主要对用户与系统之间进行交流操作所使用一些智能交互技术进行了相关介绍。具体包括语音交互、眼动交互、体感交互、触感交互、多模态交互等人机交互技术,这些人机交互技术都统称为智能交互技术。智能交互技术是随着新技术的发展,突破传统交互技术应运而生的产物,对智能交互技术进行研究,可以增强硬件操作设备的良好体验、虚拟环境的沉浸感与舒适感,拓展新兴科技的应用场景,促进各类新技术的发展。 1.2智能交互技术的发展历程与现状 通过对各种交互技术发展历程及现状的分析,提出了交互技术应用发展图谱,见图1。上半部分为语音交互、眼动交互、体感交互和触感交互的应用发展曲线,下半部分为智能硬件的发展时间脉络。将产业发展分为初步探索期、市场启动期、高速发展期和应用成熟期四个阶段: (a)初步探索阶段中市场刚刚起步,行业内存在少数厂商以及创新应用产品,但由于技术不够成熟以及市场同质化严重导致的竞争激烈,让行业在达到一个小峰值后逐渐冷却。 (b)市场启动阶段中由于成熟技术的广泛落地应用导致主流厂商逐步建立,成熟的商业模式开始出现。 (c)高速发展期阶段成熟产品被大规模力量生产,并得到市场认可,其余厂商纷纷入局,行业整体呈现爆发喷涌的状态。 (d)应用成熟阶段市场达到顶峰,厂商收入稳定,企业开始探索新的产品 或应用。 从图中可以看出语音、眼动、体感、触感这些交互技术都在20世纪80年代 末90年代初这个互联网开始流行起来的时代进入到初步探索的阶段,但是往后由于其技术的局限性呈现各自不同的发展趋势。 语音交互的初步探索期源于1990年声龙推出第一款消费级语音识别产品DragonDictate,拉开了语音技术落地应用的序幕。在往后的20年中,由于没有新的算法模型,使得语音交互产品一直没有办法有很高的识别率和大规模生产能力。直到2011年苹果推出的语音助手Siri拉开了人机交互的新篇章,语音市场得以重新启动。各大厂商依托深度学习算法研发出各类语音产品,2014年亚马逊推出的Echo智能音箱则让语音行业步入了高速发展阶段。现今,语音交互是唯一一个即将步入应用成熟阶段的交互技术。根据JuniperResearch的数据显示,截止2019年全球语音助理已经达到25亿个。 体感技术与眼动技术则是经过了很长一段初步探索期。1986年由任天堂和Hudson合作推出了第一款现代意义上的家用电子游戏机——红白机,这被视为是体感游戏的雏形;1991年第一家提供3D眼动追踪系统商业化制造商的SMI公司成立,标志着眼动行业的形成。但是概念与技术发展的不均衡导致到2015年左右都没有很成熟的体感或眼动产品得以应用。直到最近几年,在头部科技公司的带领下,体感与眼动市场才得以重新启动。比如2016年Google收购了专注研发眼动追踪的Eyefluence公司宣告其在眼动领域方面的布局,使得2016年眼动交互开始进入高速发展;以及2017年任天堂发布的家用机、掌机一体化设计,采用通过定位、红外相机和HD震动等技术的Switch游戏机,成为体感游戏低迷期中的一缕曙光。但是眼动与体感交互目前都仍然处于高速发展的时期,还未进入应用成熟的阶段。未来或许随着6G技术与全息技术的发展,眼动与体感交互可以得到更好的发展。 触感交互技术最初的起步是在游戏中模拟碰撞的效果开始起步,在2007年,三星首次推出了带触觉功能的手机,2008年,Apple合并“触觉控制板”设计,并将触觉反馈整合到跟踪表面中,从此触感技术搭载着智能手机的高速发展,进入一个快速发展期。2016年,HeroSurg手术机器人问世,它可以通过触觉反馈 机制,将触觉传递给主刀医生以及3D图像处理器,自此,触感技术进入到一个实用型新阶段,拓宽了行业应用领域,并且为虚实世界之间的联系创造了必要条件。随着未来元宇宙的飞速发展,触感技术也将得到更好的使用。 图1交互技术应用发展总图 1.3智能交互技术的类型 智能交互技术包括语音交互、体感交互、眼动交互、触感交互以及多模态交互等人机交互技术。 1.3.1语音交互 VUI(语音用户界面)相比起GUI(图形用户界面)最大的交互特点在于输入的方式不同,语音交互是一种以语音输入为基础的新型交互模式。语音交互解放了用户的双手,让用户可以在眼睛和手处理其他事情时,可以通过最自然的语言与机器进行交互沟通。 语音交互过程如图2所示,包括了语音识别(ASR)、语义理解(NLU)和语音合成(TTS)三项主要技术。语音识别就是把人输入的语音信号转变为相应的文本或命令;语义理解就是使用算法模型让计算机理解语言包含的内容;语音合成就是将计算机理解的结果以语音的方式反馈给人类。 图2语音交互过程 1.3.2眼动交互 眼动交互技术是利用视线信息来完成用户对计算机的控制或计算机对用户行为状态做出反馈的技术的统称,以视线跟踪技术为交互媒介。目前,眼动交互技术可分为视线反馈技术、视线点击技术和视线输入技术。[1] 图3眼动交互技术分类 1.3.3体感交互 体感交互技术是一种让人们直接使用自己的肢体动作,与机器或者环境进行不借助任何控制设备的互动,让人能够自然而然的进行交互。体感交互技术基本是通过三维拍摄、人物提取(骨架识别)以及动作识别来实现整个交互过程,如图4所示。其代表着一种全新的人机交互方式,人可以通过言语、肢体姿势和脸部表情等这些更加自然的方式实现与计算机的交互。 图4体感技术实现原理图 1.3.4触感交互 触感又称触觉感知,指人与外界环境直接接触时的重要感知功能,也是智能机器人发展中的关键技术之一。机器人通过触觉传感器模仿人皮肤的感觉功能从而获取外界环境信息,如图5所示。触觉感知包含的信息量很大,它不仅反映了机器人与环境的交互情况,而且反映了所接触目标的各种物理属性,如位置、形 状、刚度、柔软度、纹理、导热性、粘滞性等物理属性。 图5触感技术实现原理图 1.3.5多模态交互 多模态交互又称多通道交互,指人机之间通过文本、声音、图像等多种形式的信息输出整合进行的一种智能交互方式。在交互的过程中,人的感觉通道、效应通道以及计算机的输入设备和输出设备相互对应,在进行各类模态的信息传递中形成一个人-机-环境为一体的交互系统,而这个系统中涵盖了语音识别、体感交互、眼动注视以及触感等多种不同类型的交互方式,而各交互技术也能在整个多模态的人机交互系统中互补互助,提供于人自然行为模式更为匹配的用户体验,为NUI的发展打下了良好的基础。多模态交互的核心流程如图6所示。 图6多模态交互的发展流程 2智能交互技术产业链 2.1语音交互产业链概述 根据中商产业研究院发布的数据显示,2018年全球智能语音市场份额占比情况中,Nuance全球市场占有率排名第一,市场占有率达到31.6%;其次为谷歌, 市场占有率为28.4%;排名第三的是的苹果,市场占有率为15.4%。前三品牌市场份额占比高达75.4%。其后为微软以及科大讯飞分别占有8.1%以及4.5%的市场份额。值得注意的是科大讯飞已经超越老牌计算机巨头IBM位列全球第五。 经过对语音交互产业的综合分析,提出如下产业链图谱,如图7,分为上游基础层、中游技术层、下游应用层。智能语音产业链的上游参与者分为基础设备供应商、基础研究机构和数据提供商;中游参与者为将基础底层技术转化为软件或行业解决方案的机构;下游参与者为将智能语音设备提供给用户在不同应用场景下使用的服务商。 图7语音交互产业链 2.2眼动交互产业链概述 目前眼动交互产业特点如下: (a)眼动交互技术目前主要应用于VR头显、智能眼镜、眼动系统或软件和 眼动仪。 (b)国外大型企业在VR头显市场均有部署,且通过收购眼动交互科技公司以实现在该领域技术能力的迅速提升和市场份额的增长。比如Google、Facebook和苹果分别收购研发眼动追踪的技术公司Eyefluence、TheEyeTribe和SMI。 (c)为实现眼动交互技术的快速落地,眼动技术公司与硬件或综合型公司合作,以占据市场份额。 经过对眼动交互产业的综合分析,将目前的在眼动交互技术领域的公司按照硬件层、技术层、应用层进行划分,提出眼动交互技术的产业链图谱,如图8所示。上游硬件层指的是为VR头显、眼动仪等下游产品提供基础硬件设备的公司;中游技术层指的是为眼动设备提供技术支持或软件系统的技术研发公司或机构;下游应用层指的是应用眼动技术的实体产品。 图8眼动交互产业链 2.3体感交互产业链概述 体感技术目前主要应用于游戏娱乐领域,索尼、任天堂、微软三大公司占据了该领域下绝大部分的市场份额。 经过对体感交互产业的综合分析,将目前的在体感技术领域的公司按照硬件层、技术层、应用层进行划分,提出体感交互技术的产业链图谱,如图9所示。硬件层是指对开发制作基础硬件设备的公司;技术层是指为智能设备提供技术解决方案的技术研发公司或者机构,以及提供体感应用的平台与应用软件商;应用层包括体感技术应用的各个领域进行商业化应用的公司,主要为游戏娱乐、医疗健康和教育信息领域。 图9体感技术产业链 2.4触感交互产业链概述 触感技术目前主要应用于智能设备与遥操作机器人上,海外市场对触感技术的探索更超前,目前在触感技术领域的公司按硬件层、软件层和应用层进行划分,如图10所示。硬件层是指研发触觉传感器和触觉反馈设备的公司;软件层是指提供触感应用的平台与应用软件商包括系统软件和开发工具;应用层包括触感技术应用的各个领域进行商业化应用的公司,主要为现实产业和虚拟产业。 图10触感技术产业链 2.5多模态交互产业链概述 多模态交互结构共分为四层,分别是:感知层、传输层、系统层及终端层,如图11。 图11多模态交互产业结构 经过对多模态交互产业的综合分析,结合多模态交互结构分层,提出如下产业链图谱,如图12。分为上游感知传输层、中游系统平台层、下游终端应用层。感知层是感知环境、采集信息的基础组成部分并通过感知元器件收集到的数据通过无线通信技术回传;系统层是指针对感知层回传的数据信息进行分析、处理、响应、发送指令的环节;终端层是最下游,也是与使用者直接交互的模块。 图12多模态交互产业链 2.6智能交互技术的不足与瓶颈 智能交互的未来发展趋势,在于与全息器材、虚拟现实装置、增强现实设备等装置,在虚拟空间或者虚实结合的操作环境进行有机结合,形成混合多维用户界面,使用户能完成自然行为