2024年11月 版权声明CopyrightNotification 未经书面许可禁止打印、复制及通过任何媒体传播 ©2024IMT-2030(6G)推进组版权所有 目录 前言1 一、实时通信网络发展历史与演进驱动力2 (一)实时通信网络发展历史2 (二)实时通信网络演进驱动力2 1.科技创新驱动2 2.用户需求驱动2 3.网络演进驱动3 二、面向6G的泛在实时通信网络愿景与场景需求分析3 (一)面向6G的泛在实时通信网络愿景4 (二)面向6G的泛在实时通信网络场景需求4 1.沉浸式泛在实时通信5 2.AI使能泛在实时通信8 3.多维连接泛在实时通信11 三、面向6G的泛在实时通信网络关键技术15 (一)智能全感16 1.分离式计算与媒体渲染16 2.低功耗AR环境感知17 3.意图/语义识别与交互17 4.分布式AI19 5.AI模型协同训练能力20 (二)多维连接21 1.轻量控制机制21 2.高效媒体传输22 (三)数字身份23 1.数字身份管理23 2.数字资产管理23 3.泛在实时通信ID连接24 四、总结与展望25 缩略语列表26 参考文献28 贡献单位29 图目录 图1URCN全融合沉浸式实时通信与协作5 图2URCN裸眼3D通信6 图3URCN多模态通信7 图4URCN个人智能助理9 图5URCNAI智能代答11 图6URCN意图识别与交互19 图7URCN联邦学习系统框架20 表目录 表1沉浸式泛在实时通信网络需求7 表2个人智能助理应用场景分类9 表3智能代答应用场景分类10 表4AI使能泛在实时通信网络需求11 表5多维连接泛在实时通信网络需求15 前言 伴随XR、多模态通信、AI大模型等创新技术的涌现,未来的实时通信网络将向“虚实共生、沉浸多感、类人智能、万物智联”的发展方向演进。实时通信网络是运营商提供实时通信业务的基础通信设施,本研究报告基于相关研究,提出对于面向6G的实时通信网络(UbiquitousReal-timeCommunicationNetwork,URCN)发展驱动因素、网络愿景、场景需求的最新研究成果,分析网络演进所需关键技术和产业发展建议。希望能够为业界开展未来实时通信网络演进提供参考和指引。 1 一、实时通信网络发展历史与演进驱动力 (一)实时通信网络发展历史 实时通信网络历经了从模拟到数字、从2G到5G的发展过程,实时通信网络技术的发展不仅是速度的提升,更是服务能力和应用场景的拓展,每一代实时通信网络的演进都带来了更好的通信质量和更丰富的业务形态,推动着移动通信行业不断发展和创新。随着实时通信网络技术的进步,其所提供的业务形式从2/3G的文本消息和窄带语音,到4G高清音视频通话和多媒体业务,并逐渐扩展到5G时代支持实时互动和实时协作的交互式业务。 (二)实时通信网络演进驱动力 1.科技创新驱动 伴随科技的不断进步,人工智能、算力网络、元宇宙等创新技术的涌现以及跨学科融合技术的发展为实时通信网络的发展提供了新的机遇和挑战。 人工智能:人工智能技术能高效解决复杂问题,提升生产效率,创新服务模式。以AIGC技术为依托的各类产品呈现出快速增长的态势,AI未来将作为生产力工具来推动实时通信网络发展,为用户提供更加丰富的个性化内容体验。 虚实融合:元宇宙等虚实融合技术可构建包括虚拟社区、虚拟经济和虚拟身份在内的全新虚拟世界,满足用户自由探索、交互需求并创造新的体验。 跨学科融合创新:信息通信技术边界持续扩张,跨学科新技术接连出现,生命科学和信息技术交叉融合,叠加算力、人工智能等技术促进网络向沉浸交互、智能通信方向发展。 2.用户需求驱动 随着全球数字化水平的提高,人们对通信网络的个性化需求日益提升,高速、 2 稳定的网络传输和互听声音、互视影像的沟通已经成为基础需求。随着无线能力及终端设备多媒体能力的不断发展,通信业务需求呈现出沉浸式、一致性、虚拟化体验等的特点,未来网络需通过自然逼真的听觉、视觉还原和多维立体感官交互,更好地满足人与人、人与物、物与物之间的实时通信需求。 沉浸式需求:用户希望通信业务体验能不断增强和提升,实现真实场景的再现;交互方式引入多维度多感官,包括语音、手势、表情、眼神等;场景体验趋向全方位、多角度,包括虚拟现实、增强现实、混合现实和全息影像等;此外随着人工智能的蓬勃发展,用户希望通过人工智能与实时通信业务的结合有效提升业务体验。 一致性需求:由于未来实时通信业务需要针对不同场景和不同业务需求提供多样化的业务体验,场景、终端和接入技术的差异化会更加明显,因此沉浸式通信业务的提供更加需要满足一致性业务体验。比如家庭场景可能使用基于WiFi接入的电视和VR头显,而户外场景可能使用基于5G接入或卫星的手机终端或头盔,面向不同接入设备和接入技术用户需要获取一致的沉浸式通信体验。 虚拟化体验:与传统音视频业务不同,未来实时通信通信业务除了为用户提供虚拟化的业务体验,构建虚实结合的业务环境以外,还需要通过人或物的虚拟化,为用户提供虚拟形象或身份,拓展用户体验的社会和社交属性空间。 3.网络演进驱动 5G时代之后,运营商基于IMS/VoLTE进行网络架构和应用创新迭代,发布了5G新通话,通过实时通信能力平台和实时通信媒体面的提供,构建交互式网络基础能力底座,使能一系列通话增强服务和创新应用,但当前IMS/实时通信网络中仍存在网元数目众多,网络维护复杂度高;接口种类复杂,异厂家互结构困难,交互流程冗长,注册呼叫机制不够灵活高效等待解决问题。 二、面向6G的泛在实时通信网络愿景与场景需求分析 3 (一)面向6G的泛在实时通信网络愿景 在科技创新、用户需求以及网络演进三重驱动下,“虚实共生、沉浸多感、类人智能、万物智联”将成为未来实时通信的发展愿景。为实现该愿景,需要构建一种全新的、无处不在的实时通信网络,即面向6G的泛在实时通信网络 (UbiquitousReal-timeCommunicationNetwork,简称URCN)。面向6G的泛在实时通信网络愿景包含四层含义: 感知泛在 沉浸式通信将成为未来实时通信的核心业务诉求之一,为了使用户在使用通信业务的过程中真正体验到沉浸感,就需要全方位调动视觉、听觉、味觉、嗅觉、触觉等各个感官,进而要求通信网络能够高效准确地传递多模态信息数据,实现感知无处不在。 智能泛在 人工智能技术将全面应用于实时通信网络,如借助AI进行媒体处理,通过AIGC进行业务内容自动生成,甚至网络的逻辑控制也可以由AI进行辅助决策,通信网络中将实现智能无处不在。 数字身份泛在 在未来实时通信网络中,用户的“身份”将不局限于手机号码,而将是涵盖了更多个人信息、更加个性化、人性化的种种属性,以及业务自定义标识,这些属性和标识分散在不同的业务系统当中,共同构成用户的数身份,即数字身份无处不在。 多维连接泛在 未来实时通信业务中进行数据交互的实体,即“终端”,将不再局限于手机、平板、智能手表等设备,任何具备产生数据、处理数据和通信能力的个人穿戴、家庭智能、行业定制设备都可接入网络,实现通信终端无处不在。实时通信网络与接入无关,用户通过空天地海任意接入方式连接到网络,随时随地使用实时通信业务,实现接入方式无处不在。 (二)面向6G的泛在实时通信网络场景需求 4 1.沉浸式泛在实时通信 1.1.沉浸式泛在实时通信场景需求 面向6G的泛在实时通信网络,可以为用户提供运营商网络端到端原生的、可全球互联互通的、具备体验一致性的沉浸式实时通信体验,在手机原生实时音视频通信场景和运营商自身码号基础上,通过引入XR和裸眼3D等新型实时通信终端,结合多模态通信与转换、生成式AI等创新技术,为物理世界与数字世界的沉浸式实时通信提供新入口。 1.1.1全融合的沉浸式会议与协作 伴随XR、多模态通信、裸眼3D等创新技术的涌现,未来实时通信网络将提供全融合的沉浸式实时通信与协作,涵盖多种类型的沉浸式终端,包括VR头显,AR眼镜,裸眼3D设备等,同时兼容普通手机。 图1URCN全融合沉浸式实时通信与协作 全融合的沉浸式会议与协作基于运营商自身的ID体系(比如MSISDN),使企业用户远程实现面对面沉浸式会议体验,提高办公效率,缩减差旅成本,同时可以为个人用户带来个性化、趣味性、无障碍的交互式通信体验。 沉浸式共享空间:将用户完全置身于虚拟世界中,用户以个性化数字人形象出现,高写实人物模型可以根据不同的会话场景实现人物模型的风格变化。用户可以感受到身临其境的感觉,与虚拟环境进行互动,这在游戏、教育和娱乐等领 5 域具有巨大的潜力。 听声辨位:基于精确的声音定位,使得用户可以根据声音的来源来判断方向和距离,从而增强沉浸感和真实感。 眼对眼交流:通过虚拟现实技术实现眼对眼交流,使用户能够在虚拟环境中与其他用户进行面对面的交流。 协同展示和设计:多个用户可以同时进入同一个虚拟环境中,进行实时协同工作,这对于团队合作、产品设计和虚拟展览等协同展示工作非常有用。 1.1.2裸眼3D通信 裸眼3D技术可以让用户在不佩戴偏振光眼镜的情况下就可以从任何角度观看影像的不同侧面,都呈现真正的3D影像,其可应用于游戏娱乐、视频通话、医学成像、3D直播、工业设计和教学辅助等多种场景。 图2URCN裸眼3D通信 目前比较成熟且可应用于日常通信场景的裸眼3D显示技术是基于双目视差的裸眼3D和基于光场的裸眼3D。通信过程中的3D内容实时采集则依赖于深度摄像头,涉及结构光技术、TOF技术和双目立体技术。裸眼3D的显示技术和内容采集技术应用于通信,可以给用户带来真人大小的面对面交流、多视角观察等极致的通话体验;其在交流过程中产生出屏和入屏的视觉效果,可以使屏幕对端的人呈现的更有体积、深度和阴影,增强画面的真实感和立体感。此外,该技术不需要佩戴专业的3D眼镜或头盔,避免了眼镜带来的不适感、重量感、疲劳感等,从而让用户在交流过后对细节有更生动的回忆。 根据同时观看的用户数目以及观看内容的角度,裸眼3D有单/多视点以及单 /多视角的区别。裸眼3D视频通话的初始应用场景在于单人单视角的立体视频通话,长远来看则具备向多视点多视角通话演进的应用能力。 6 1.1.3多模态通信 利用内生AI,在通话过程中,引入多模态通信、多模态转换等技术,可以增强人与人通信的沉浸感。此外,利用内生AI,实现人与数字世界(如数字人,第三方业务,机器人)的交互,最终实现物理世界与虚拟世界之间的多模态通信。 图3URCN多模态通信 多模态通信基于多种输入/输出方式,如语音、图像、文字、肢体、表情、触感等,来实现信息传递的技术。伴随设备智能化程度的提升,该技术可为用户提供更清晰的意图表达和更加丰富的用户体验。多模态通信结合语音识别、语音合成和手语识别等技术,可以帮助残障人士实现无障碍交流。具体来说,网络侧可完成手语、语音和文字等多种形式的转化,并结合数字人的呈现,从而实现多方的无障碍通话。在多模态通信过程中,网络还可以根据用户正在使用的终端设备的能力,网络覆盖情况等因素,将信息在不同模态间转换以实现最佳的用户体验。 1.2.沉浸式泛在实时通信网络需求 通过沉浸式实时通信场景分析,识别网络相关具体需求如下表: 表1沉浸式泛在实时通信网络需求 类型 具体需求 通信需求 传输速率:单用户100Mbps~Gbps量级。端到端时延:亚ms至10ms量级。 7 实时通信网络计算/智能需求 1.分布式的弹性的边缘AI和媒体渲染能力力;分离式3D渲染和处理,以减轻本地AR设备的计算负担,降低设备的能耗和热量产生,延长设备的续航时间。2.模态转换需要多模态大模型实现语音、视频、文字、手势等信息间的实时和准确的转换,且存在多流并发,对实时通信网络AI算力需求高,传输端需提供高速稳定网络连接。 3.提供数字身份ID分配与管理能力。 实时通信网络感知需求 需要感知不同的终端类型,提供多维度感知(位置、动作轨迹、触感、脑机接口信