前言 本白皮书在2023年《下一代泛在实时通信网络需求、能力与架构理念白皮书》的基础上,结合对于下一代泛在实时通信网络架构发展驱动因素的分析,提出网络架构设计的总体研判、核心理念和关键要素,形成“三层五面”总体架构设计、并对该架构核心层面功能进行分析,最后为下一代泛在实时通信网络的研究方向和产业发展提供了建议。希望能够为业界开展下一代泛在实时通信网络架构研究提供设计层面的参考和指引。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1.下一代泛在实时通信网络架构发展的驱动因素-1- 1.1新场景驱动-1- 1.2新科技驱动-2- 1.3网络演进驱动-4- 2.下一代泛在实时通信网络架构设计理念-5- 2.1总体研判-5- 2.2核心理念-6- 2.3关键要素-7- 3.下一代泛在实时通信网络总体架构-9- 3.1 网络总体架构 -9- 3.2 统一控制面 -10- 3.3 统一数据面 -14- 3.4 智能面 -19- 3.5 统一媒体面 -22- 3.6 应用面 -28- 4.产业发展建议 -30- 缩略语列表 -31- 参考文献 -33- 1.1新场景驱动 在新科技的驱动下,未来实时通信网络应面向个人智能助理、沉浸式通信、多模态通信、多维连接等多感官、全媒体、多形态业务场景,助力实时通信业务的高质量发展,促进垂直行业数字化转型,提升个人业务沉浸式体验,驱动商业模式从用户经营、流量经营向价值经营演进。 端到端智能化 随着AI的蓬勃发展,用户日渐期待AI与实时通信深度融合,比如基于AIGC和智能媒体优化形成更为丰富的高质量内容,或通过自然语言处理、用户意图识别等,让实时通信业务端到端体验更为智能化。个人智能助理和AI智能通话是典型的实时通信网络端到端智能化业务场景。其中,个人智能助理是一种基于人工智能技术的虚拟助手,可通过语音、文字、手势等与用户进行实时交互,并根据用户需求提供相关信息、建议,执行对应的任务。而AI智能通话可为用户提供通话前智能代答、通话中意图智能分析,通话后记录智能推送等功能。 真实虚拟融合化 AR眼镜、裸眼3D等沉浸式体验和多维感知终端为实时通信带来更丰富的业务交互体验。AR眼镜通过第一人称视角,将数字内容与现实世界完美融合,使数字内容成为现实景观和体验的一部分,涵盖用户的驾驶、旅行、健康和教育等各类生活场景,成为连接虚拟与现实的交互枢纽和入口。裸眼3D通过自动立体显示、全息显示等,通过优化图像呈现,实现无需佩戴眼镜即可观看三维效果,提供高度真实感的立体视觉体验。 多维感知沉浸化 多模态通信结合语音识别、语音合成和手语识别等技术,可以基于多种输入/输出方式,如语音、图像、文字、肢体、表情、触感等,实现人机交互和信息实时传递。随着数字人理论和技术的日益完善,数字人与多模态通信的充分结合,可为用户带来商务会议、数字人分身通话 等更加丰富的通信体验。基于用户上传的个性化形象或多角度视频,网络侧可构建高写实人物模型,并根据不同的会话场景实现人物模型的风格变化。未来实时通信网络需要引入多模态大模型,简化多模态信息与用户意图的识别,实现多模态信息的转换和生成。 1.2新科技驱动 随着人工智能、元宇宙、跨学科融合等新科技的不断涌现,驱动未来实时通信网络从2D向3D/全息、从物理向虚拟、从音视频向全媒体演进。人工智能融合LLM、MLLM、AIAgent等,通过时空智能、具身智能感知世界、理解世界,分析多模数据、识别人类意图。元宇宙结合XR、裸眼3D、全息、数字身份、AI等技术,实现物理世界和数字世界的真身与“化身、分身”融合可信通信。ICT、空天、算网等跨学科创新,驱使实时通信泛在化、全域化。 人工智能技术 人工智能技术能高效解决复杂问题,提升生产效率,创新服务模式。以AIGC技术为依托的各类产品呈现出快速增长的态势,其应用场景不断扩大,AI未来将作为生产力工具来推动实时通信网络发展,为用户提供更加丰富的个性化内容体验。 LLM(LargeLanguageModels,大型语言模型):具有数十亿甚至数千亿参数的人工智能模型,在大量文本数据上进行训练,能够理解和生成自然语言,基于LLM所构建的AIAgent具备与未来实时通信网络结合的无限潜力。 结合RAG(Retrieval-AugmentedGeneration,即检索增强生成)、工具等构建AIAgent,还可进一步确保生成内容的准确性、避免偏见和不当内容的产生等。 MLLM(MultimodalLargeLanguageModel,多模态大模型):能够处理和分析多种类型的数据输入,不仅限于文本,还包括图像、视频、音频和传感器数据等,这种跨模态的理解能力使得模型能够更全面地感知和解释世界,执行更多高阶实时通信任务。 AIAgent:以LLM/MLLM为核心,实现任务拆解,进行推理决策、反思和自主学习等,通过RAG等技术实现短期和长期数据存储,将该数据作为上下文输入到LLM/MLLM中,并通过工具集(Tools),完成特定任务。 沉浸式通信技术 沉浸式通信技术结合了虚拟现实、增强现实、3D建模等先进技术,可构建一个包括虚拟社区、虚拟经济和虚拟身份在内的全新虚拟世界。用户可以自由探索、交互并创造新的体验,极大地丰富我们的生活和工作方式。 沉浸式终端和交互技术:随着AR眼镜MicroLED光机和光波导镜片等核心技术迅速走向成熟,轻量化、低功耗的AR眼镜将逐步成为广泛普及的增强现实体验终端,并借助自然语言、手势等多维交互能力,为运营商的实时通信业务开辟新的发展机遇。此外,VR终端可以带来沉浸式共享空间,裸眼3D可以带来真人效果的数字分身,结合听声辨位、眼对眼交流、多视角观察、协同展示等功能,带来更丰富的通信体验。这些沉浸式终端,将成为未来虚实世界通信的统一入口。 虚拟身份:用户在元宇宙中通常需要多个虚拟身份,如化身(Avatars),代表他们在虚拟世界中的自我。这个虚拟身份与用户物理世界身份有关联关系,需要提供全球唯一的虚拟身份来标识该用户,需要构建虚拟身份管理系统支撑运营商、互联网以及应用间开放且安全的互通。 多学科融合创新技术 跨学科新技术接连出现,生命科学和信息技术交叉融合,叠加算力、人工智能及通感一体等技术将有效扩展信息通信技术边界。 ICT融合:沉浸式通信交互、个人智能助理等要求实时通信网络提供低时延、大容量、高可靠的服务,网络业务需要能够加速迭代创新,那么实时通信网络架构需要引入前沿的IT技术。5GCSBA架构开启了电信网络向服务化演进的大门,未来网络会向全服务化(HSBA,HolisticService-BasedArchitecture)架构持续演进。在全系统、全网元范围内进一步贯彻服务化设计理念,优化服务设计、消除原子服务之间的耦合性;引入新的协议及服务化技术的增强,如引入HTTP/3、Serverless机制、函数服务等更多的服务化技术;同时需要与算力网络深度融合,形成算网一体化的新型基础设施,为用户提供低时延、高可靠的算力连接。可见电信网络的服务化、融合IT技术优秀实践,是大势所趋。 泛在连接:下一代泛在实时通信网络在接入侧,需支持6G、固定、WiFi、卫星等各种接入技术;在终端侧既支持兼容传统SIP终端,也支持未来AR眼镜、手表、裸眼3D、机器人等新形态终端。 1.3网络演进驱动 实时通信业务发展初期网络采用电路交换技术,随着以太网、TCP/IP、互联网的崛起,网络趋向IP化,由电路交换向分组交换转变。为了保证语音业务的持续演进,3GPP提出了IMS (IPMultimediaSubsystem,即IP多媒体子系统),基于“LTE+IMS”架构,运营商在4G阶段实现了全球普遍使用的VoLTE。5G时代之后,运营商又发布了5G新通话,构建交互式网络基础能力底座,使能一系列通话增强服务和创新应用,进一步丰富了实时通信业务体验。但当前IMS/实时通信网络中仍存在以下待解决问题: 网元数目众多 IMS网络中网元类型众多,进而导致网络故障风险点多,网络维护和功能升级复杂度高。 接口种类复杂 现网使用SIP、H.248、Diameter、DNS、HTTP等多种协议,涉及接口众多,网络运行和维护难度高。 交互机制冗长 当前的注册/呼叫机制不够灵活高效,如媒体协商与会话信令强绑定、SIP状态机要求严格、业务触发机制僵化等问题,均将影响XR等超低时延业务极致体验的实现。 创新迭代困难 终端与网络业务耦合,会话控制与网络业务逻辑耦合。通过SIP信令交互实现上层业务控制,使得新业务上线或特定业务更新往往需要扩展SIP参数和基础网络频繁升级,协同改造过程复杂,从而导致新业务上线困难。 2.1总体研判 面向多维感知沉浸化、真实虚拟融合化、端到端智能化等未来实时通信业务需求,结合人工智能、沉浸式通信等技术创新与IMS现网痛点问题,对下一代泛在实时通信网络演进架构作出“五大研判”。 (一)沉浸式通信技术日趋成熟,下一代泛在实时通信网络应面向虚实融合、多模态通信等业务需求,提供沉浸、多感的融合通信。 未来虚实融合、多模态通信等新业务要求未来实时通信网络在基础音视频之外,还需支持满足低时延、高速率、高确定性的姿态、触觉、嗅觉等多模数据感知、编码和传输,以及多流协同能力,同时需要网络基础设施具备空间计算、视频渲染、算力调度、帧粒度识别等更高阶的能力。 (二)融合AI大模型、AIAgent等新科技,下一代泛在实时通信网络感知世界、理解世界,将基于AI实现物理世界和数字世界的“真身、化身、分身”智能通信。 为全面赋能真身、化身、分身、意图通信、语义通信等多元化应用场景,亟需构建可以有效融合AI大模型技术(如LLM、MLLM),内置AIAgent、多模态意图识别等创新能力的未来实时通信新型网络架构。AI功能需根植于网络架构中,形成完善的智能即服务(AIaaS)模式,才能提供更加优化的用户体验和资源分配,为未来业务和应用生态创新提供智能支撑。 (三)当前网元数目多,协议接口复杂,部署周期长,下一代泛在实时通信网络未来应采用至简架构设计。 网络复杂度已成为IMS网络向新业务、新场景深入的重要制约因素,面向未来新场景、新应用,下一代泛在实时通信网络需要引入网络架构至简化的核心设计理念。网络架构层面,需结合网元数目众多的痛点问题,实现网元融合,将各面网元功能进行逻辑归纳;考虑打破localbreakout漫游机制,规避运营商复杂互操作,通过归属网络均质化、网络分布式部署设计实现 就近提供统一服务。网络协议层面,以网内全服务化为基础理念,使用统一化协议提升信令流程灵活度。交互机制层面,结合业务触发机制灵活性需求与媒体重协商流程优化需求,考虑将基础会话控制与业务逻辑解耦,媒体协商与会话控制解耦,实现交互流程至简化。 (四)传统实时通信网络架构生态较为封闭,网络能力扩展不够灵活,下一代泛在实时通信网络架构需支持网络从“通话工具”向“平台生态”演进,驱动新产业链快速建立。 传统实时通信网络作为运营商提供音视频通话服务的基石,其稳定性与可靠性在过往岁月中得到了充分验证,然而,随着6G时代的曙光初现,通信网络正步入一个前所未有的变革期。当前基于IFC机制的网络架构在维持网络稳定性的同时也带来了产业链条和业务迭代周期长的问题,下一代泛在实时通信网络架构设计需考虑网络能力敏捷化,实现能力外挂向动态加载转变,推进网络从“通话工具”向“平台生态”演进,从而实现网络功能快速迭代、敏捷可扩展,灵活引入新应用和新能力。 (五)面向未来泛在接入、泛在终端等需求,下一代泛在实时通信网络架构需同步考虑传统和新型终端接入,空天地海接入,以及现网兼容与互通性的需求,实现面向未来实时通信网络的代际平滑演进。 传统实时通信网络是运营商音视频通话的基础网络,面向6G演进的下一代实时通信网络需要支持存量SIP