三维沉浸视频技术白皮书(2024) Three-DimensionalImmersiveVideoTechnologyWhitePaper(2024) UHDWorldAssociation世界超高清视频产业联盟 前言 本文件由UWA联盟xxx组织制订,并负责解释。本文件发布日期:2024年11月13日。 本文件由世界超高清视频产业联盟提出并归口。 本文件归属世界超高清视频产业联盟。任何单位与个人未经联盟书面允许,不得以任何形式转售、复制、修改、抄袭、传播全部或部分内容。 本文件主要起草单位: 中国移动通信集团有限公司、咪咕文化科技有限公司、北京大学深圳研究生院、上海交通大学、中国电子技术标准化研究院、中国信息通信研究院、中央广播电视总台、国家广播电视总局广播电视规划院、华为技术有限公司、北京七维视觉科技有限公司、北京元客方舟科技有限公司、深圳市洲明科技股份有限公司、利亚德光电股份有限公司、寰宇信任(北京)技术有限公司、新国脉数字文化股份有限公司、上海数字电视国家工程研究中心有限公司、杭州当虹科技股份有限公司、深圳市沉浸视觉科技有限公司、珠海南方数字娱乐公共服务中心、北京市博汇科技股份有限公司、北京虚拟动点科技有限公司、北京华录新媒信息技术有限公司、深圳市奥拓电子股份有限公司、北京声响节拍科技有限公司 本文件主要起草人: 李琳、贝悦、王荣刚、徐嵩、王琦、郑彬戈、周效军、单华琦、杜江、赵璐、毕蕾、丁凌、李康敬、金晶、程志鹏、宋利、李婧欣、陈曦、翟云、杨春晖、彭瑞、熊凯强、鲁国、闵雄阔、贾子恒、朱博成、邱溥业、李岩、王子建、郏涛、孙琳、王志刚、朱家悦、郭宇洁、张鸿宇、邱逸文、许炜、殷元江、刘耀、刘博文、张林华、谭胜淋、白建军、刘莉、赵鹏、冯振华、宫苏辉、王尧、殷惠清、陈家兴、谢亚光、王振宇、韩冰杰、杜义堂、程利军、郭忠武、张家斌、崔超、王吉、张现丰、严振航、宁黎、周凯旋 免责说明: 1,本文件免费使用,仅供参考,不对使用本文件的产品负责。 2,本文件刷新后上传联盟官网,不另行通知。 目录 1.三维沉浸视频概述1 1.1三维沉浸视频概念1 1.2背景和意义2 1.3三维沉浸视频的技术演进路线3 2.三维沉浸视频技术体系4 2.1三维沉浸视频内容采集5 2.2三维沉浸视频内容重建10 2.3三维沉浸视频内容编码20 2.4三维沉浸视频内容传输27 2.5三维沉浸视频渲染交互29 2.6三维沉浸视频终端显示34 2.7三维沉浸视频质量评价38 3.三维沉浸视频发展趋势46 3.1当前存在的问题46 3.2前沿技术概述47 3.33D全真视频50 4.标准化建议52 4.1三维沉浸视频标准52 4.2标准化建议54 5.附录56 5.1三维沉浸视频应用56 5.2缩略语65 5.3参考文献67 1.三维沉浸视频概述 1.1三维沉浸视频概念 三维沉浸视频通过采集真实世界的数据,并结合计算机视觉、视频编解码、深度学习等技术,旨在模 拟并重现现实场景的完整视觉信息,使观众能够获得立体、真实、沉浸式的视频体验。相对于传统的二维平面视频,三维沉浸视频具有以下特点: 从平面感知到立体感知:三维沉浸视频通过立体影像技术使观众能够感受到真实场景的三维结构。与传统的平面二维视频不同,三维沉浸视频通过立体显示设备,如虚拟现实头显、裸眼3D屏幕等,能够让观众感知到物体的空间位置关系及深度信息。 从单一视角到自由视角:传统视频限制了观众只能从固定的视角观看内容。三维沉浸视频致力于提供自由视角,观众通过触摸屏幕、转动头部、手势等交互方式,使观众视角能够在场景中自由移动,仿佛置身于真实世界。 从有限时空分辨率到任意时空分辨率:传统视频受时空分辨率的限制,三维沉浸视频力求提供更高的时间分辨率和空间分辨率,以更完整、精细地呈现场景。 复刻现实场景完整视觉信息:三维沉浸视频试图模拟并重现现实场景的所有视觉信息,包括颜色、光照、深度、运动等方面,通过照片级真实的渲染技术,创造更为真实沉浸的视觉感官体验。 总体而言,三维沉浸视频是一种持续发展创新的视觉技术,经历了一系列的发展阶段,最终目标是通过整合先进的技术和设计理念,使观众能够在虚拟环境中获得真实、身临其境的感受。 图1三维沉浸视频的特征 1.2背景和意义 能够完整复刻真实场景全部视觉信息的三维沉浸视频一直存在于人们美好的想象中。相对于传统的2D 视频,三维沉浸视频可以给予观众全新的体验。一方面,观众能够沉浸在近乎全真的虚拟环境中,获得深度的观看体验,为教育、文化、医疗和娱乐等诸多领域带来视觉上的变革。另一方面,三维沉浸视频使观众能与内容直接互动,观众从被动观看变成积极参与,拉近了数字世界与现实生活的距离,为个体提供更为个性化的体验。但是,硬件设备、软件算法、人机交互、内容创造等多方面的瓶颈都制约了三维沉浸视频的发展。 近年来,随着数字技术的高速发展,元宇宙的概念逐渐深入人心,相关研究和产品呈现爆炸性增长,为三维沉浸视频的最终实现创造了条件。一方面,图形处理单元的运算性能不断提高,能够实时渲染高质量的图像和视频;高分辨率的平面显示器、头戴显示设备、裸眼3D设备则能显示更加清晰、逼真和立体的图像;各种传感器设备如陀螺仪、加速度计、触摸传感器等,使得设备能够更准确地捕捉用户的动作和交互。这为三维沉浸视频的发展提供了硬件基础。另一方面,人工智能技术(AI)的浪潮,打破了传统算法所能达到效果的上限,降低了传统方法的硬件成本。例如,使用AI算法在改进图像的清晰度、颜色饱和度和帧率方面都超过了传统方法的效果,能够提供更真实和引人入胜的观看体验。AI还可以用于新视点合成、三维重建等,实现了更好的实时性和更高的渲染质量,为沉浸视频的发展提供了软件算法的基础。 作为一项面向未来的技术,三维沉浸视频技术将对中国科技创新和产业升级产生巨大的推动作用,有利于强化国家战略科技力量、增强技术自主可控能力。因此,沉浸式视频的技术研究和产业应用已经写入国务院、工信部、科技部、广电总局和多个地方政府的政策性文件,《国家十四个五年规划和2035年远景目标纲要》提出要推进沉浸式视频应用。《“十四五”数字经济发展规划》则提出要发展互动视频、沉浸式视频、云游戏等新业态。2023年12月17日,工信部等七部门联合印发《关于加快推进视听电子产业高质量发展的指导意见》,再次提出要加快4K/8K超高清、高动态范围、沉浸音视频、裸眼3D等技术应用。 根据《2024中国沉浸产业发展白皮书》,到2023年,中国沉浸产业消费市场规模达到927亿元,总 产值1933.4亿元,预计2024年能突破2400亿元。但作为一个新兴产业,三维沉浸视频的技术尚未成熟,产业正处于探索和发展阶段,大众对于三维沉浸视频的认知尚不足,亲身体验者更是寥寥。由于三维沉浸视频的技术复杂性,行业内缺乏完善的标准,硬件方面存在兼容性和互操作性问题,庞大的数据面临压缩和传输的挑战,制作和渲染未形成统一的解决方案。为此,本白皮书将梳理三维沉浸视频技术的演进路线和技术体系,展示典型的应用场景和产业需求,为三维沉浸视频技术提出标准化建议。 1.3三维沉浸视频的技术演进路线 三维沉浸视频的技术发展不是一蹴而就的,需要经历多个阶段,不断引入新的技术和方法,以提供更 为逼真、沉浸和交互的体验。如图2所示,三维沉浸视频的技术演进经历了以下几个阶段。 图2三维沉浸视频的技术演进 双目立体技术:双目立体是三维沉浸视频早期的实现方式。通过两台摄像机模拟人眼的双目视觉,使观众能够感知到深度,其缺点主要是需要佩戴特殊的眼镜或者头戴式显示设备,并且在视点数量和视觉舒适性方面存在局限性。 多视裸眼3D技术:裸眼3D技术突破了传统双目立体设备的限制。通过特殊的显示屏技术,观众在不使用额外辅助设备的情况下仍然能够感受到深度。但单视点的裸眼3D显示只能在屏幕前某个固定的位置上感受到3D图像,视点有局限性。为此,使用水平方向上多台摄像机围绕拍摄,同时生成并显示多个视点的图像,就能在屏幕前的多个位置或是一个较大的范围观看到3D图像。 全景3D技术:全景3D视频结合了全景视频和立体影像技术,观众可以像身临其境一样感受到环绕式的观看体验,并且可以在不同的方向上自由转动视角。这种技术通常需要特殊的摄像设备来采集全景视频,并使用立体影像技术来处理和呈现立体效果。 自由视点技术:自由视点技术是一种允许观众从外部场景观看视频时自由选择视点的技术。它通过从多个视点采集视频或者利用计算机合成虚拟视点来实现。在观看视频时,观众可以通过交互式界面或者设备自由选择不同视角,从而获得更加个性化和沉浸式的观影体验。 体积视频技术:体积视频是一种采集和呈现三维空间中动态场景的技术。体积视频通常由一系列包含深度信息的帧组成,常见的表示形式包括点云、3D网格等。这些三维模型在时间上连续排列,从而形成一个可以从不同视角观看的完整视频。当前,体积视频虽然能够提供六自由度(DoF,DegreesofFreedom)的观看体验,但拍摄难度大,仅适用于室内小场景,渲染质量不够高,也没有形成广泛接受的标准。 2.三维沉浸视频技术体系 三维沉浸视频的技术体系包含了内容采集、内容重建、内容编码、内容传输、渲染交互、终端显示、质量评价等七个核心组成部分。内容采集阶段通过各类相机获取场景的视觉信息。然后利用双目立体视觉、多视立体视觉等技术将这些数据转化为具有立体感和几何结构的场景。接着,对数据进行压缩和编码,以便在传 输和存储中减少数据量。渲染交互阶段将编码后的数据解码,并通过视点合成等技术渲染成沉浸式的视觉体验。最后,终端显示为用户提供了沉浸视频的观看方式。这六个部分协同作用,创造出立体、沉浸式的视觉体验。此外,质量评价可以帮助确定三维沉浸视频的整体质量。本章将对相关技术进行详细介绍。 图3三维沉浸视频技术体系 图4技术体系与技术演进关系图 2.1三维沉浸视频内容采集 内容采集是三维沉浸视频制作的第一步,旨在捕捉场景的视觉和几何信息,为后续的三维重建和渲染 提供基础数据。不同的采集方式适用于不同的场景和需求,能够提供不同范围的场景信息,从而影响对视频的处理方式以及最终呈现效果的真实性和沉浸感。三维沉浸视频内容采集包括图像的采集和深度信息的采集,图像采集可以通过多视点的方式,使用双目相机、阵列相机或全景相机完成。而深度信息的采集既可以通过被动式采集即多目相机通过后期计算获得,也可以通过深度相机、激光扫描仪等通过物理的方式直接获得。 图5内容采集方式 1.双目相机采集 单目相机通常基于针孔模型来描述相机的成像过程。它假设相机具有一个光学中心和成像平面,光线从物体通过光学中心投影到成像平面上形成图像。焦距表示光学中心到成像平面的距离,而透视投影描述了物体在图像中的投影位置。相机参数包括焦距、成像平面尺寸、畸变参数等,用于校准相机并计算像素与物理空间之间的关系。单目相机的针孔模型是理解和分析相机成像的基础,它与多目相机系统共同构成了计算机视觉和摄影学中的重要工具。 图6针孔相机模型 双目相机内容采集是一种利用两个单目相机同时拍摄同一场景的方法,以获取更加丰富和准确的视觉 信息。在双目相机系统中,左右两个相机分别模拟人类的两只眼睛,两个镜头通常被安装在一个固定的平台上,以保证它们的空间位置和朝向一致。在内容采集过程中,双目相机需要同时获取两个摄像机的图像数据,并确保它们的时间同步和空间校准,以保证后续处理的准确性。另外,为了实现对场景深度的感知,需要通过分析两个摄像机图像之间的视差信息来计算物体到相机的距离。因此,双目相机内容采集不仅可以提供立体感觉,还能够实现对场景深度的测量和感知。下图为理想的双目深度相机成像模型,只需要获得一个空间点在左右相机中的视差,就可以计算出该点的深度信息。 图7理想双目相机模型 2.阵列相机采集 阵列相机是一种使用多个摄像机排列在一起的成像系统,旨在获取更广阔的视野和更丰富的场景信息。如下图所示为阵列相机的几种典型几何排列方式,包括水平或垂直的线性排列、环绕排列、2