全息通信技术白皮书 (2022年) 中国移动通信集团有限公司 前言 随着当前移动网络的带宽和时延等关键性能的进一步提高以及未来6G网络的前景越来越明朗,可以依托于高性能网络的业务研究也进入了一个新的阶段。全息通信以其无以伦比的高真实性和沉浸感以及应用于元宇宙的前景成为其中一个被广泛关注的领域。 白皮书介绍了全息技术的概念和发展历程,梳理了全息通信的应用场景,对全息通信技术链条中的内容采集、算法处理、网络传输、渲染和显示等各重要技术环节进行了分析研究。结合当前全息通信产业现状,分析了相关的技术案例,并展望了全息通信技术的发展前景。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本文之部分或全部内容。 目录 1.全息技术概述2 1.1全息概念2 1.2发展历程2 2.全息技术在通信中的应用3 2.1一对多场景:全息演讲或教学3 2.2一对一场景:私人交流4 2.3多对多场景:会议5 3.全息通信关键技术6 3.1内容采集6 3.1.1彩色相机6 3.1.2深度相机+彩色相机阵列6 3.2算法处理7 3.2.1非三维重建8 3.2.2传统三维重建算法8 3.2.3基于深度学习的三维重建12 3.3传输13 3.3.1高带宽14 3.3.2低时延14 3.3.3强安全14 3.3.4大算力15 3.4渲染技术15 3.4.1多视图立体渲染技术15 3.4.2超多视点的虚拟立体内容渲染技术16 3.4.3多平面图像渲染技术19 3.5显示技术20 3.5.1穿戴式设备20 3.5.2裸眼3D显示设备21 4.全息通信技术案例22 4.1微软(MICROSOFT)23 4.2谷歌(GOOGLE)23 4.3螳螂慧视(MANTISVISION)23 5.总结和展望24 6.编写单位和作者25 缩略语列表26 参考文献27 1.全息技术概述 1.1全息概念 “全息”(Holography)即“全部信息”,这一概念是在1947年由英国匈 牙利裔物理学家丹尼斯·盖伯首次提出,他也因此获得了1971年的诺贝尔物理学奖。全息技术是一种利用干涉和衍射原理来记录物体的反射,透射光波中的振幅相位信息进而再现物体真实三维图像的技术。它与物理学、计算机科学、电子通信及人机交互等学科领域有着密切的联系。 1.2发展历程 自1947年由丹尼斯·盖伯发明了全息术,全息技术总共经历了三个大的阶段,分别是:传统光学全息(Traditionalopticalholography),数字全息 (Digitalholography)与计算全息(ComputationalHolography)。在每一个时期内,存在着一些分支技术的发展,以及全息术与各个领域结合产生的新技术。 传统光学全息:光学全息的全部过程分为信息数据采集与信息图像重构两个阶段,采集阶段相当于照相机的拍摄过程,而信息图像重构阶段相当于洗照片的过程。 数字全息:由于全息图只是对物体的物光束和参考光波进行相干叠加时产生的一些列干涉条纹进行了记录,而要得到物体的再现像,就必须对全息图进行重新处理,数字全息是利用电荷耦合器件来代替传统的光学记录材料来记录全息图,将物体的物光信息数字化记录,便于存储、数字处理以及重现。它最早是由Goodman在1967年提出的。 计算全息:计算全息最早是由Kozma和Kelly提出,但是限于当时计算机技术水平的不足,计算全息一直没有发展起来,直到21世纪初期数码照相机的普及和计算机技术的发展成熟才又进入了发展时期。计算全息是一种数字全息领域的分支,这种新型的方法是利用计算机去模拟物体的光场分布,用算法去进行全息图的制作,该方法可以不依赖实物,而是基于该物体的数学描述进行全息图制作,实现了全息术从实际物体到虚拟物体的突破。计算全息三维显示技术是近 年来将全息术、光电技术及计算机高速计算技术相结合发展起来的最具潜力的三维显示技术,与传统光学全息术相比具有灵活、可重复性好的特点。 2.全息技术在通信中的应用 广义上说,全息通信业务是高沉浸、多维度交互应用场景数据的采集、编码、传输、渲染及显示的整体应用方案,包含了从数据采集到多维度感官数据还原的整个端到端过程,是一种高沉浸式、高自然度交互的业务形态。结合6G技术,进行扩展与挖掘可获得包括数字孪生、高质量全息、沉浸XR、新型智慧城市、全域应急通信抢险、智能工厂、网联机器人等相关全息通信场景与业务形态,体现“人-机-物-境”的完美协作。 本文所涉及的内容为狭义上的通信概念,即指人与人之间通过某种媒介进行的信息交流与传递。 目前,远程通信用户面临的痛点主要为:语音通话、视频通话存在着临场感差和交互通道单一等弊端;受限于通信网络性能,视频通话常存在网络波动影响通讯质量等问题;传输高质量的视觉通讯内容受制于传输带宽而难以实现的问题。其中全息通信主要解决第一个问题,而诸如6G等高性能网络主要解决后两个问题,赋能全息通信应用。 基于全息通信具有真实度高、参与感强和沉浸感佳的特点,全息通信可以应用于以下三类场景:一对多场景、一对一场景和多对多场景。 2.1一对多场景:全息演讲或教学 当前,远程演讲或教学越来越多的应用于现实生活,重要信息的传播可以不受地域限制。相较于传统的通信方式,全息的高真实性特点使受众专注度大为提升,学习效果进一步贴近线下演讲或教学。 此应用场景具有如下特点:信息流重要程度通常不对等,下行流重要性(演讲者或授课者的信息)大于上行流(受众的反馈),信息流呈现辐射状。 基于以上特点,初期的业务端到端解决方案可采用下行全息显示、上行高清显示的方式,利于在全息技术和6G等高速网络技术发展的初期部署。业务场景 如图1所示: 图1一对多场景 2.2一对一场景:私人交流 随着网络的发展,从语音交流到视频交流,人们对于通信中的沉浸感要求越来越高,远在异地的亲朋好友可以通过全息通信获得近似面对面交流的体验,真正做到天涯若比邻。 此应用场景具有如下特点:信息流重要程度对等,双向都需要全息显示,通信模式为点对点通信。 基于以上特点,业务端到端解决方案需要采用对称的双向全息模式,每个用户既是被采集者同时也是接受者,此种模式对网络带宽的需求较高。业务场景如图2所示: 图2一对一场景 2.3多对多场景:会议 当全息技术和大带宽网络技术发展到一定阶段,可以构筑高质量的互动通信。在视频会议这一场景中,线上参会人员的人物数据将会被实时采集,通过全息显示技术构建高真实度的参会场景,实现身临其境般的线上会议感受。 此应用场景具有如下特点:信息流重要程度对等,每个人的面前都需要显示所有其他人的全息影像和声音,是一对一场景的复杂形式。 基于以上特点,业务端到端解决方案中每个用户既是被采集者也是接受者,作为接受者时,同时获取来自其他用户的全息影像和声音。此种模式对网络带宽的需求很高。业务场景如图3所示: 图3多对多场景 3.全息通信关键技术 全息通信的关键技术包括内容采集、算法处理、传输、渲染和显示。 3.1内容采集 全息通信所需的动态三维内容又称作“体积视频”(VolumetricVideo),其采集方式可以分为纯彩色相机阵列采集和深度相机+彩色相机阵列采集。 3.1.1彩色相机 用几十甚至上百个彩色相机从多个角度捕捉人像和其动作,为了后期方便数据提取,通常会在周围布置绿幕。拍摄时,通过时间控制器控制相机阵列同步启动拍摄。 根据应用场景等不同,彩色相机阵列又可分为局部围绕式和360°围绕式。当仅需采集单面人体时,可以搭建小于180°的相机阵列,仅用单反相机围 成半圈甚至更小的范围。如果要采集人体360°全方位的数据,需要将相机阵列围成一圈,做成影棚的形态,这样可以同时采集人体各个角度的影像。 3.1.2深度相机+彩色相机阵列 相较于纯彩色相机阵列,目前市场上的主流做法是通过深度相机搭载彩色相机阵列来完成。和单纯用彩色相机相比,加上深度相机后,生成的人物三维数据更加精细,细节表现会更好。例如脸部的三维效果更明显,可以清晰看到鼻梁的高度、嘴唇的轮廓等细节。 另外,如图4所示,深度相机+彩色相机阵列的采集方式无需布置绿幕,对场地要求也比较灵活。 图4深度相机+彩色相机阵列 彩色相机 红外相机 红外投射器 掩膜编码结构光深度相机包括一组深度相机(红外发射器+红外相机)和两个彩色相机,可以同时采集人物的深度信息和彩色信息,如图5所示。 图5掩膜编码结构光深度相机 3.2算法处理 非三维重建处理主要指自由视点技术,自由视点技术对于不同的视角显示不同的图像,是一种相对“粗糙”的处理方式。 三维重建处理包括基于深度学习的三维重建和传统的三维重建。近年来,基于深度学习的三维重建算法的发展有雨后春笋之势,在某种程度上,它们预示着未来全息通信技术的发展方向——实时重建+减少对多相机的依赖,更加“轻便”、“快捷”。而传统三维重建方式比基于深度学习的三维重建更加稳定成熟,但也更依赖于硬件结构,如相机阵列等。当然,将深度学习与传统三维重建算法相结合,可以提高其性能和效果,这也是未来发展的可能方向之一。 3.2.1非三维重建 自由视点技术一般采用此种方式处理,可以理解成多相机之间的“切换”,也就是切换成观看者想要看到的视角。当然,也会通过生成“虚拟视角”的方式以弥补相机的密集度不足。 “虚拟视角合成”是指利用已知的参考相机拍摄的图像合成出参考相机之间的虚拟相机位置拍摄的图像,这样能够获取更多视角下的图片,是让自由视点观看方式变得“自由”的关键。其合成方式为利用相邻两个相机成像上的差异——即视差图,在同一行上平移虚拟相机位置,从而生成新的视角图像。 假设相邻两个相机拍摄的图像像素点的视差值为1,我们要生成两个相机正中间虚拟相机的视角,则可以将左边相机拍摄图像的像素点均向右移0.5,或者将右边相机拍摄图像的像素点向左移动0.5。以此类推。 合成虚拟视图既可以利用左参考图像和对应的左视差图,也可以利用右参考图像和对应的右视差图,更好的是都利用上得到两幅虚拟视点图像,然后做图像融合,比如基于距离的线性融合等。 3.2.2传统三维重建算法 传统三维重建算法可分为两大类:纯彩色相机阵列的被动式和深度相机加彩色相机的主动式。 被动式三维重建算法是直接根据2D图片信息,不依靠发射信号,对物体进行重建。传统的被动式三维重建算法,如SFM主要是通过还原点云进行三维重建。SFM是一种全自动相机标定离线算法,以一系列无序的图像集作为输入,估计出的相机参数矩阵和稀疏点云为输出。由于SFM算法得到的点云是稀疏的,因此需要再进行MVS算法对稀疏点云进行处理,转换为稠密点云。 主动式三维重建算法需要通过传感器对物体发射信号,然后通过解析返回的信号对物体进行重建。代表性的算法有结构光、TOF等。其中,以红外结构光为例,依靠红外投射器将编码的红外光投射到被拍摄物体上,然后由红外相机进行拍摄,获取被拍摄物体上编码红外光的变化,将其转换为深度信息,进而获取物体三维轮廓;TOF法通过投射器向目标连续发送光脉冲,然后依据传感器接收到返回光的时间或相位差来计算距离目标的距离。主动式算法如结构光法和TOF 法能够精准构建3D模型,但二者都需要较为精密的传感器。 图6为一组三维重建的过程:先是生成密集点云,再由密集点云生成面片网格三维数据,最后贴上彩色照片。 图6三维重建过程 3.2.2.1被动式三维重建算法SFM SFM,StructurefromMotion,顾名思义,用于从“动作”中重建3D结构,也就是从时间系列的2D图像中推算3D信息。 人的大脑可以从动的物体中取得其三维的信息,是因为大脑在动的2D图像中找到了匹配的地方,即重叠区域。然后通过匹配点之间的视差得到相对的深度信息,在这一点上,原理和基于双目视觉的三维重建相同。 SFM的输入是一段动作或者一时间系列的2D图群,然后通过2D图之间的匹配可以推断出相机的各项参数。重叠点可以用SIFT,SURF来匹配,也可