移动场景扩展现实超高清技术白皮书 TechnicalWhitePaperonUHDExtendedRealityinMobileScenarios UHDWorldAssociation世界超高清视频产业联盟 移动场景扩展现实超高清技术白皮书 前言 本文件由UWA联盟虚拟现实工作组组织制订,并负责解释。本文件发布日期:2024年12月31日。 本文件由世界超高清视频产业联盟提出并归口。 本文件归属世界超高清视频产业联盟。任何单位与个人未经联盟书面允许,不得以任何形式转售、复制、修改、抄袭、传播全部或部分内容。 本文件主要起草单位: 中央广播电视总台、华为技术有限公司、咪咕文化科技有限公司、深圳创维数字技术有限公司、北京字节跳动网络技术有限公司、中国电子技术标准化研究院、中国信息通信研究院、杭州微帧信息科技有限公司 本文件主要起草人: 李岩、张钰、郎凤岐、周子丰、赵海龙、朱家悦、杨友庆、毕蕾、陈文斌、陈春明、张月川、胡超、耿一丹、徐遥令、翟云、陈曦、汪立民 免责说明: 1,本文件免费使用,仅供参考,不对使用本文件的产品负责。 2,本文件刷新后上传联盟官网,不另行通知。 移动场景扩展现实超高清技术白皮书 目录 1.移动场景扩展现实超高清技术概述1 2.移动场景扩展现实超高清关键技术1 2.1内容生产2 2.2内容编码6 2.3内容传输8 2.4内容播放9 3.移动场景扩展现实的应用场景11 3.1消费者场景11 3.1企业场景15 4.移动场景扩展现实面临的挑战20 4.1沉浸式体验20 4.2丰富的内容22 4.3便携和续航22 5.技术标准化与产业政策建议23 5.1关键技术标准化及发展方向23 5.2产业政策建议25 6.发展趋势展望26 7.附录29 7.1缩略语29 参考文献30 1.移动场景扩展现实超高清技术概述 移动场景扩展现实超高清技术是指在移动蜂窝网络下使用扩展现实设备(XR)的超高清技术,XR涵盖了虚拟现实(VR)、增强现实(AR)和混合现实(MR)等多种形式、应用场景包含个人消费者场景及企业用户场景。 5G自2019年正式商用以来,截至2023年全球已拥有超过15亿用户,提供了远高于4G的用户体验,5G技术同时也在推动制造业、能源、公共事业、医疗保健、媒体和娱乐等行业的转型,成为迄今为止增长最快的移动技术。截至2024年上半年中国累计建设近375万个5G基站,基本完成全国覆盖。2024年5G-A的第一个标准版本3GPPRel-18正式冻结,标志着5G-A进入商用元年,全球领先的13大运营商联合宣布成为5G-A网络先锋,中国移动更是率先在杭州启动了世界上第一个商业5G-A网络,并计划在年底前扩展到全国300多个城市,标志着5G-A从技术验证步入商用部署阶段。 国际市场在2024年上市了其首款混合现实(MR)头显设备,该设备主打超高清观影体验。采用MicroOLED屏幕,单眼分辨率达到4K以上,并且支持8K超高解析度,为用户提供了出色的图像质量,它还集成了流媒体服务,支持高质量的8K内容播放,为用户带来沉浸式的观影体验,让观看超高清电影真正走向了移动场景。与此同时,整个产业链都在积极跟进,高通发布了支持单目4K,双目8K的芯片,国内创维、玩出梦想等终端厂家也发布了双目8KMR样机,咪咕上线咪咕视频-Vision等软硬件产品。 5G/5G-A快速的发展为移动场景下的超高清视频提供了强大的网络支持,扩展现实超高清视频技术则在显示和音频方面带来了革命性的体验,共同推动了移动场景下超高清视频的发展,为超高清技术发展提供了新的发展方向。 2.移动场景扩展现实超高清关键技术 随着5G/5G-A持续演进和创新,将提供更高的带宽、更低的时延,移动网络下扩展现实设备观看超高清视频将进入快车道,对超高清内容生产、编码、传输、播放等整个端到端的技术都带来新的挑战。超高清视频包含MPEG、MV-HEVC等多种格式,包含双目3D视频、全景视频、体积视频等多种形态,本白皮书将基于近期发展快且已经有商用高码率8K视频发布的MV-HEVC格式双目3D视频进行介绍。 2.1内容生产 图1移动场景扩展现实超高清内容系统 移动网络场景下的超高清技术相对传统平面超高清技术为用户提供了更加丰富和沉浸的观看体验,这不仅需要更高的分辨率和帧率,同时还要考虑全景拍摄、3D效果、用户交互和多视角切换等问题,通常需要专门的软硬件来支持,随着空扩展现实类产品的发布,空间视频和空间音频开始受到广泛关注。 1、空间视频的定义:左、右眼分别传送不同的视图,会带来更丰富的用户体验,向用户的左眼呈现一幅图像,同时右眼呈现另一幅相关的图像,以产生立体视觉效果,大脑同时接收来自两只眼睛的视觉刺激而产生的深度感知,空间视频能够存储除视频本身的额外深度信息。 2、空间视频关键技术及产品演进:为提升空间视频体验,目前在技术上可以提供XR平台类工具套件,为开发者提供激光测量(LiDAR)场景重建、人体运动捕捉跟踪、垂直和水平平面检测、图像检测、3D对象检测、3D对象扫描、4KHDR视频捕捉等底层技术,利用MV-HEVC(MultiviewHighEfficiencyVideoCoding)的视频编码可显著提升3D视频观看体验。用户还可以对某一真实物体进行扫描建模,并通过对象追踪功能 (ObjectTracking)实时精准定位物体位置。部分产品在功能上可以通过对象捕捉(ObjectCapture)进行3D模型创建,实现空间视频录制。使用更新的空间音频功能,可根据个人的身体生理结构定制出不同的空间音频效果。 3、非专业的空间视频制作流程:随着科技的发展,日常空间视频制作已经开始逐渐普及并且操作更加简单。一些产品可以基于人类的双目立体视觉原理,通过手机主摄像头与超广角摄像头模仿人眼采集具有一定水平视差的双目画面,生成MV-HEVC编码视频。空间视频拍摄方式和常规二维视频拍摄方式类似,用户打开手机相机APP,选择视频模式并横置,点击空间视频图标符号,点击录制按钮即可拍摄空间视频。 图2手机拍摄空间视频 4、专业的空间视频制作过程: 1)URSACineImmersive(单个镜头8160x7200分辨率、90fps、16档动态范围),该设备拍摄视频文件格式为BlackmagicRAW,其存储了相机元数据、镜头数据、白平衡、数字板信息和自定义LUT,以确保拍摄现场和后期制作过程中图像的一致性。视频文件可实时同步到BlackmagicCloud和DaVinciResolve。作为专业视频编辑软件,DaVinciResolve的沉浸式视频查看器允许编辑者在2D监视器或VisionPro上平移、倾斜和翻滚剪辑,以获得更加沉浸式的编辑体验。 图3URSACineImmersive结构 图4空间视频拍摄现场 2)NXImmersiveDesigner:该技术将产品工程解决方案与XR技术相结合,提供沉浸式设计和协作,让创作者在完全沉浸式的环境中更直观地进行创作,让其在虚拟世界和现实世界之间自由移动,与世界各地的同事进 行实时的协调合作。 图5NXImmersiveDesigner 5、空间视频呈现及交互:目前各厂商已陆续推出各类沉浸式视频短片。相比传统电影的视野范围(40°-60°),这种沉浸式视频可以提供180°视角的8K画面,同时配合耳机的空间音频功能,整个观看体验更加身临其境。结合佩戴设备上8K分辨率显示器和高效眼追踪系统,将MV-HEVC编码视频分别呈现给人的左眼和右眼,最终产生具有空间立体感的3D画面,同时通过交互功能,用户与空间视频画面进行实时互动。当前咪咕视频、腾讯视频等多个内容制造商开始出品此类节目,多赛多屏同看(咪咕视频-Vision)、王者荣耀沙盘(腾讯视频- Vision)等交互场景已开始应用。 图6多赛多屏同看功能 图7王者荣耀沙盘功能 6、空间视频生产设备发展情况:目前,iPhone15Pro及以上型号、VisionPro、QuestPro、Quest3、PICO4Ultra等新型终端设备大幅提升硬件运算能力,开始支持空间视频和空间音频,并支持拍摄和预览MV- HEVC编码标准的空间视频,让空间视频制作逐步实现便携化。 表1支持空间视频制作的主流头显设备参数对比 参数 AppleVisionPro PICO4Ultra MetaQuest3 QuestPro 近眼显示 屏幕 2x1.42"Micro-OLED(内屏) OLED(外屏) 2x2.56"Fast-LCD 2x2.56"Fast-LCD 2x2.48"Fast-LCD 单眼分辨率 3680x3140 2160x2160 2064x2208 1800×1920 光学方案 3PPancake Pancake Pancake Pancake FOV 100° 105° 110° 106° PPD 34 20.6 19.6 16.9 刷新率 90/96/100Hz 72/90Hz 72/80/90/120Hz 72/90Hz HDR 支持 不支持 不支持 不支持 瞳距调节 51-75mm 58-72mm 53-75mm 55mm-75mm 空间交互 操作系统 VisionOS AndroidOS HorizonOS HorizonOS 追踪方案 6DoF空间定位方案,Inside-Out(12 颗摄像头) 6DoF空间定位方案,Inside-Out 6DoF空间定位方案,Inside-Out(4颗 摄像头) 6DoF空间定位方案,Inside-Out 手柄 无 无光环6DoF手柄 无光环6DoF手柄 无光环6DoF手柄 手势 支持 支持 支持 支持 摄像头数量 12(2300万像素RGB主相机×2,下视角相机×4,外侧视角相机×2,眼球 追踪红外相机×4) 7(3200万像素RGB摄像头×2;iToF深度感知摄像头×1;环境追踪摄 像头×4) 4(黑白摄像头×2; 400万像素RGB摄像头×2) 10(红外摄像头 ×2;1600万像素RGB摄像头×1) 传感器数量 5(原深感测镜头;LiDAR感测器;四个惯性测量单元(IMU);闪烁感测器;环境光线感应 器) 13(1颗IMU传感器;12颗红外传感器) 4(重力感应器;距离传感器;加速度感应器;陀螺仪感应器) 4(重力感应器;距离传感器;加速度感应器;陀螺仪感应器) 面部追踪 支持 不支持 不支持 支持 眼动追踪 支持 不支持 不支持 支持 手部追踪 支持 支持 支持 支持 空间视频制 作 支持 支持 支持 支持 性能续航 芯片 AppleM2(8核CPU、10核GPU、 16核神经网络引擎)AppleR1(12ms延迟,256GB/s内存 带宽) 高通骁龙XR2Gen2(两个2.05GHz核心、四个2.36GHz核心) 高通骁龙XR2Gen2 (两个2.05GHz核心、四个2.36GHz核心) 高通骁龙XR2Gen1 RAM 16GB 12GB 8GB 12GB ROM 256GB/512GB/1T 256GB 128GB/512GB 256GB 电池容量 外接3166mAh 内置5700mAh 内置4879mAh 内置5000mAh 其他 头显重量 600-650g(电池重 353g) 含顶部绑带585g 含肩带和面部接口515克 722g WIFI Wi-Fi6 Wi-Fi7 Wi-Fi6E Wi-Fi6 扬声器 支持空间音频 双立体扬声器,支 持3D空间音效 双立体扬声器 双立体扬声器 麦克风 6个 4个,支持空间音频 录制 2个 3个 发布时间 2023年6月6日 2024年8月20日 2023年10月10日 2022年10月12日 3.1内容编码 当前移动场景扩展现实设备超高清视频主流编码方式为多层格式高效视频编码(MV-HEVC/3D-HEVC)。 1、MV-HEVC/3D-HEVC定义:不同于传统的AVC/HEVC单层3D上下/左右方式,MV-HEV