AI智能总结
前言 实时通信网络是运营商提供实时通信业务的基础通信设施。伴随XR、多模态通信、A大模型、裸眼3D、数字生等创新技术的涌现,未来实时通信网络将向“虚实共生、沉漫多感、类人智能、万物智联”的发展方向演进。基于对实时通信网络演进驱动力和未来场景需求的分析,本白皮书提出下一代泛在实时通信网络(UbiquitousReal-timeCommunicationNetwork,URCN)应具备的智能全感、多维连接和数字身份等关键能力,并以此为基础阐述了泛在实时通信网络架构的关键设计理念。希望能够为业界开展未来实时通信网络架构研究提供设计层面的参考和指引。 目录 01实时通信网络演进驱动力 1.1.科技创新驱动011.2.用户需求驱动021.3.网络演进驱动02 02未来实时通信场景需求分析 2.1.多模态通信EO2.2.裸眼3D通信042.3.AI智能通话052.4.个人智能助理052.5.多终端个人连接062.6.多形态行业连接06 03下一代泛在实时通信网络愿最与关键能力 3.1.1分离式计算与媒体洁染083.1.2低功耗AR环境感知093.1.3意图识别与交互103.1.4分布式媒体AI11 3.2.多维连接能力12 3.2.1超大容量连接能力123.2.2超低成本连接能力123.2.3超低时延连接能力133.2.4空天地海连接能力13 3.3.数字身份能力143.3.1数字身份的统一认证能力143.3.2数字身份的跨域互信能力143.3.3数字资产管理能力143.3.4泛在行业ID连接能力153.3.5个人数据联邦学习技术15 04下一代泛在实时通信网络架构设计理念 4.1.架构至简化174.2.智能原生化174.3.全域协同化184.4.功能插件化18 05总结与展望19 下一代泛在实时通信网络需求、能力与架构理念白皮书 实时通信网络演进驱动力 01 买时通信网络演进驱动力 截止目前,实时通信网络的发展历经了从模拟到数字、从2G到5G的过程。每一代网络的发展都带来了更好的通信质量和更丰富的业务形态,推动着移动通信行业不断发展和创新。可提供的业务形式从初期的文本消息和窄带语音,到高清音视频通话和多媒体业务,并逐渐扩展到支持实时互动和实时协作的交互式业务。从发展历程来石,新科技的涌现、用户需求的提升以及网络痛点问题的解决,均为实时通信网络提供了演进驱动力。 1.1科技创新驱动 伴随科技的不断进步,人工智能、算力网络、元宇宙等创新技术的涌现为实时通信网络的发展提供了新的机遇和挑战。同时,多学科融合创新技术也促进网络向沉浸交互、智能通信、泛在连接等方向发展。 *人工智能技术:人工智能技术能高效解决复杂问题,提升生产效率,创新服务模式。以AIGC技术为依托的名类产品呈现出快速增长的态势,其应用场景不断扩大,AI未来将作为生产力工具来推动实时通信网络发展,为用户提供更加丰高的个性化内容体验。 元宇宙技术:元宇宙技术结合了虚拟现实、增强现实、3D建模等先进技术,可构建一个包括虚拟社区、虑拟济和虚拟身份在内的全新虚拟世界。用户可以自由探索、交互并创造新的体验,极大地丰富我们的生活和工作方式。 →多学科融合创新技术:信息通信技术边界持续扩张,跨学科新技术接连出现,生命科学和信息技术交叉融合,叠加算力、人工智能及通感一体等技术或将实现人类数字永生。 实时通信网络演进驱动力 1.2用户需求驱动 象的沟通已经成为基础需求。随看无线能力及终端设备多媒体能力的不断发展,未来的沉漫式通信将通过自然逼真的听宽、视完还原和多维立体感官交互,更好地满定人与人、人与物、初与物之间的实时通信需求。沉漫式通信业务需求呈现出增强式体验,一致性体验和虚拟化体验的特点。 首先,用户希望通信业务体验能不断增强和提升,,比如音视频通话质量达到超清,实现真实场景的再现;交互方式引入多维度多感官,包语音、手势、表情、眼神等;场景体验趋向全方位、多角度,包拮虚拟现实、增强现实、混合现实和全息影像等。沉漫式通信业务涉及通信技术、计算机图形学、人机交互、传感器技术等多种技术的融合应用,需要结合不可的通信模式和信息传输方式来满足不同的业务需求。此外随着人工智能的薄勃发展和逐步广泛的应用,用户希望通过人工智能与实时通信业务的结合,以有效提升业务体验。比如基于AIGC和智能媒体优化形成更为丰富的高质量沉漫内容和体验,或者通过自然语言处理、智能助理、用户意图识别等能力,让实时通信业务体验更为智能化 其次,由于沉漫式通信需要针对不同场景和不同业务需求提供多样化的业务体验,场景、终端和接入技术的差异化会更加明显,因此沉漫式通信业务的提供更加需要满足一致性业务体验。比如家庭场景可能使用基于WIF接入的电视和VR头显,而户外场景可能使用基于5G接入或卫呈的手机终端或头盔,面向不同接入设备和接入技术用户需要获取一致的沉漫式通信体验 最后,与传统音视频业务不同,沉漫式通信业务还需要能够为用户提供虚拟化的业务体验,比如通过VR、AR等技术为用户构建完全虚拟或者虚实结合的业务环境,扩展用户体验时空范围;或者通过人或物的虚拟化,为用户提供虚拟的形象和身份,拓展用户体验的社会和社交属性空间。 1.3网络演进驱动 通信业务发展初期网络采用电路交换技术,随着以太网、TCP/IP、互联网的幅起,网络趋向IP化,由电路交换向分组LTE+IMS"架构,运营商在4G阶段实现了全球普追使用的VoLTE。进入5G时代之后,运营商又发布了5G新通话,通过卖时通信能力平台和实时通信媒体面的提供,构建交互式网络基础能力底座,使能一系列通话增强服务和创新应用,进一步丰需了实时通信业务体验。但当前MS/实时迪信网络中仍存在以下待解决问题: +交互流程穴长:当前的注册呼叫机制不够灵活高效,如呼叫中多业务时的审行触发,媒体路径选择不够优化等问题,均将影响XR等超低时延业务极致体验的实现。 →新业务上线效率低:网络层级众多,终端与网络协同改造较复杂,业务发布或更新往往需要终端联动升级,导致产业链条和业务选代周期长。 下一代泛在实时通信网络需求、能力与架构理念白皮书 未来实时通信场景需求分析 02 未来实时通信场景需求分析 以科技创新、用户需求和网络演进为核心驱动力,未来实时通信应面向多模态通信、裸眼3D通信、AI智能通话、个人智能助理等沉漫式体验和多终端个人连接、多形态行业连接等场景需求,助力实时通信业务的高质量发展,促进垂直行业数字化转型。 2.1多模态通信 多模态逼信是指基于多种输入/输出方式,如语音、图像、文字、肢体、表情、触感等,来实现人机交互和信息传送 多模态通信结合语音识别、语音合成和手语识别等技术,可以帮助残障人士实现无障碍交流。具体来说,网络侧可完成手语、语音和文字等多种形式的转化,并结合数字人的呈现,从而实现多方的无障碍通话。 随若数字人理论和技术日益完善,应用领域和场景持续扩大,伴随元宇审概念激发的产业需求和各企业的积极参与,我国数字人市场规模必将快速增长。数字人与多模态通信结合,可为用户带来商务会议、数字人分身通话等更加丰富的通信体验。基于用户上传的个性化形象或多角度视频,网络侧可构建高写实人物模型,并根据不同的会话场景实现人物模型的风格变化。在呼叫过程中,基于用户上行的音/视频流或者表情/肢体动作数据实现数字人的驱动和染,以满足呼叫方的定制化需求。 除了基于语音、手势、视频等多模态信息驱动的数字人应用,未来将诞生AI自主驱动的数字分身应用,比如数字分身可以代表用户参加会议,与其他与会者进行实时通信。它可以根据用户事先确定的意图自主决策何时发言、提出问题或回答问题,以及如何与其他与会者进行互动,从而帮助用户可同时参与多个会议。 随着XR终端的不断普及,多模态通信基于XR终端可以提供沉浸式共享空间,听声辨位,协同展示和设计等功能使得企业员工在远程即可获得面对面会议体验,提高效率,缩减差旅成本。此外,该技术还可以为个人用户带来个性化、趣味性、无障碍的交互式通信体验。 下一代泛在实时通信网络需求、能力与架构理念白皮书 2.2裸眼3D通信 课眼3D技术可以让用户从任何角度观看影像的不同侧面,都呈现真正的3D影像。公众对极致的裸眼3D体验经常来自于影视作品,也被称为“全息”,一般认为该技术除了能够满足360度自由观测之外,还具备空气中无介质投影,可穿速,可交互等特点。 投影、佩珀尔幻象、曲面屏等伪全息技术,通过利用人眼的错觉来实现,有各种使用约束,一般应用于综艺、营销等场景与普迪大众的目常生活距离较远。更加成然且可以应用于目常通信场景的显示技未是基于双目视差的裸眼3D和基于光场的裸眼3D +基于双目视差的裸限3D:人对物体产生立体知觉的成因有多个,最主要的成因是双目视差,由于右眼与左眼相更约65mM,由此导致右眼与左眼看到的景象会有若干差异,在此基础上可以通过光屏障式和柱状透镜等技术实现眼3D。 +基于光场的裸眼3D:光场是空间中光线的分布,光场显示技术是再现物体的发光特性。基于光场的裸眼3D技术是一种用于在不需要特殊眼镜或视觉辅助设备的情况下观右立体影像的方法。这种技术的关键思想是模拟光线在进入人眼时的行为,通过控制每个点的发光强度和方向,使不同角度的光线同时进入人眼,人眼品状体自动调焦特定点,形成立体视觉。常见的实现方式有多视投影阵列、集成成像等。 通信过程中3D内容的实时采集,依款于深度摄像头,涉及结构光技术、TOF技术和双目立体技术,上述裸眼3D的显示和采集技术应用于通信,可以给用户带来真人大小的面对面交、多视角观察等极致的通话体验;其在交流过程中产生出屏和入屏的视觉效果,可以使屏幕对端的人呈现的更有体积、深度和阴影,增强画面的真实感和立体感。此外,该技术不需要佩戴专业的3D眼镜或头盈,避免了眼镜带来的不适感、重量感、疲劳感等,从而让用户在交流过后对细节有更生动的回忆。 根据同时观石的用户数目以及观石内容的角度,裸眼3D有单/多视点以及单/多视角的区别。裸眼3D视频通话的初治应用场景在于单人单视角的立体视频通话(见图2),长远来看则具备向多视点多视角通话演进的应用能力(见图3) 2.3AI智能通话 运营商的实时通话业务具备手机原生免安装免注册,通信质量可保证,通话数据安全可靠,更好的互通性、可达性和扩展性等独特的优势。未来基于A技术的智能通话,将为所有用户提供通话助理,以满足用户提高效率和使用便利性的诉求。 面向通话前的智能代答场景,可将原有的骚扰电话拦截功能升级为A智能通话助手的代接功能。通过此功能用户还可以实时查石代接详情(比如将代接内容以文字的形式实时反馈给用户),以便中途再次接管此次通话。通话完或后,通话助手将完整对话以消息、邮件等形式推送给用户。此外,A智能追话能在用户手机关机、无信号、无人接听时提供代接服务,避免遗漏重要来电。智能代答支持由用户自主选择通话音色,比如低沉男声、优雅女声、稚嫩童声等。同时还支持声音复刻功能,用户只需简单录制一段语音,即可基于录制内容通过深度学习训练出个性化模型,从而使智能助手在代答过程中模拟的音色、语调、语速等堪比用户本人。 在通话中的场景下,A智能通话还支持两人或者多人通话的文字转写和通话文字记求,用户可阿时唤醒A助手加入到通话中。AI助手还可以向生活助理、业务办理等更丰富的业务形态演进,并提供通话纪要整理,待办事项,智能防诈,翻译等功能。 2.4个人智能助理 个人智能助理是一种基于人工智能技术的虚拟助手,旨在为个人用户提供各种服务和支持。它可以通过语音、文字、手势等方式与用户进行交互,并根据用户的需求和指令提供相关的信息、建议和执行任务,其使用场景不仅限于语音和视频迪话。 AR眼镜相对于手机等终端,具备解放双手和第一视角的优势,将成为未来个人智能助理的一个重要接入形态。解放双手意味着智能眼镜作为可穿数设备,适用于移动性强且需双手操作的场景;第一视角则指智能眼镜摄像头位于眼部附近,所拍摄的画面与佩贼者基本属于同一视角。 随着ChatGPT等AI模型