通算融合共生:关键技术和系统设计思考 中国移动研究院李男 业务和技术双重驱动无线接入网演进 业务和技术双重驱动无线接入网络架构不断演进 2G3G4G5G5G-A/6G 移动eMBB:XR智慧泛在 服务化(SBA)、智能化(AI/ML)、通算融合共生 云化(SDN,NFV,MEC) IP化 业务需求语音 互联网 视频直播 定位URLLC:车联网 通感一体 技术趋势架构演进 mMTC:工业互联网数字孪生 无线接入网基站和终端设备向算力化演进 基站设备向异构算力方向演进 1.方式1:专用硬件扩展通用算力板卡,算力卡+软件包形式提供通算融合服务 2.方式2:通用服务器扩展5G加速卡,服务器+软件包 形式提供通算融合服务 方式1方式2 通用算力 加速板 空间池化 1:N算力资源插花组网多站复用算力资源 时间池化 基站服务能力软件快速重构硬件资源时分复用 业务池化 CT+IT+OT融合部署运维形成边缘云网一体服务 基站算力资源池化可提升硬件基础设施利用效率,节约建设投资、复用运维资源,已成为无线产品演进方向 终端呈现海量、多样化、轻量化特点,部分终端算力快速增强 个人终端 (1Tops~1000+Tops) (十亿级:手机,亿级:PC/平板,千万级:智能车) 家庭终端 (<10Tops) (亿级:网关,千万级:摄像头、路由器) 行业终端 (1Tops~1000+Tops) (百万级:工业网关、边缘设)备 通算融合潜在应用场景 网络智能化是通算融合的重要场景,产业链条较短,较容易实现运营商内部闭环,可作为通算融合应用突破口基于基站的2C/2B算网业一体服务也是重要的拓展场景 基站算力池化组网,运维优化AI下沉,业务体验保障,增强感知能力 关键业务体验保障:基于基站本地业务识别,优化和保障关键业务体验(如:医院场景中的支付应用、医院自由应用app的业务体验保障) 基站AI优化:基于信道的基站定位计算,实现精细化网络覆盖感知和优化 网络AI运维下沉:智能故障与隐患识别、高负荷小区优化 基站/网络协作AI(如:分布式推理、协同推理、联邦学习等)、空口协作AI 网络智能增强 2C2B 基站边缘云服务可复用大网运维资源,通过大网服务体系降低边缘云运维成本,实现云网一体运维,基站算力池化共享组网满足极低时延/大带宽应用本地计算需求 基于大模型的内容生成和个人AI代理 虚拟环境构建:XR本地业务渲染、元宇宙等 新型服务模式:云手机、云游戏、手势/动作识别、轨迹追踪等 面向2B本地化场景的通信计算业务一体服务,灵活敏捷,降低综合成本 园区:工业视觉AI检测(智能终端协作的分布式学习)、智能安防、智能巡检等 车联网:智能碰撞预测、路口视觉融合、自动驾驶仿真等 无人机:路径管理、入侵检测等 服务能力拓展 生成式人工智能成为下一代通信服务的核心场景 无线网络与智能终端的通信和计算协同将助力打开新型信息服务产业价值空间 生成式AI涌现,逐步向个性化服务演进 多模态内容生成 成本趋近于0的生成内容在网络中爆发 历史对话信息环境/场景信息 用户习惯信息位置信息 个人专属AI代理 用户场景化数据和AI大模型在网络中频繁交互 手机大模型推理能力加速增强 终端能力快速增强,形态多样化 智能体间协作控制需求扩大 *Nvidia DriveOrin自动驾驶芯片,单片254TOPS 联发科天玑9300 AI处理器APU790 运行330亿参数模型内存硬件压缩技术AIGC端侧LoRA融合秒级文生图 **TeslaFSDHW4.0, 单片约200TOPS 高通骁龙8Gen3AI处理器HexagonNPUAI算力超过73TOPS。运行100亿参数大模型每秒处理20Tokens 0.6秒生成StableDiffusion图片 •端侧推理需要网络提供稳定大模型文件传输 •端侧可支撑分布式模型学习或端/边/云协同学习 •将涌现大量的低时延的多智能体间协作 •结合网络提供的计算能力和通感服务,确定性的端到端时延保障 智能汽车*人形机器人**家庭终端 AI原生可穿戴形态产品涌现 •智能可穿戴设备作为AI代理实体,依靠网络或云端实时计算推理 胸针吊坠 眼镜•具有多模态数输、低延迟、个性化、低功耗的需求 从内容数据传输到10GB-100GB体量大模型的传输 LLAMA2-13B模型文件13GB,StableDiffusion模型几GB到十几GB不等 生成式AI大规模应用带来的业务需求 低延时和个性化的AI代理服务带来跨应用、场景化的信息收集和 频繁大模型微调 多智能体协作和AI原生可穿戴设备要求靠近用户的AI计算和 低时延高可靠通信 核心技术难点和系统设计问题 核心技术难点 •通算资源角度:如何发挥泛在无线接入网基础设施价值,以有效满足技术发展需求? •无线通算融合异构平台 •网络功能角度:面向无线网络高动态环境、计算能力的空时波动和碎片化等特性,及通算资源受限约束,如何实现通算智一体服务和保障? •计算感知的无线协议功能和接口流程设计 •通感算智多维资源一体调度和控制 •无线用户面动态虚数据拟锚点和转发 •无线封闭数据的实时/按需/跨域采集、关联挖掘和安全开放 •服务能力角度:如何实现无线通信、计算和智能资源/功能/服务协同动态按需编排和开放? •RANdomain的通算智服务编排、开放机制及与中心编排系统的协同 系统设计问题 通算融合性能指标体系 面向通信计算融合的无线系统,除了网络通信指标外,如何考量系统的计算性能? 通算融合的系统架构 如何在连接的基础上,基于统一系统架构弹性高效实现对多种计算业务(如AI训练/推理业务、感知类业务的支持? 高动态多设备协作组网 针对无线系统通信环境变化和计算资源的不同状态, 如何设计合理的计算协同模式,高效执行计算任务? 技术探索1-1:无线通算融合异构基础设施平台 构建适配无线网络和多样化业务需求的高效异构平台,对无线算力资源实时共享、分配和管理 ①硬件抽象和虚拟化:针对CPU、GPU和DPU等异构硬件的资源管理和调度 ②服务扩展:从物理和虚拟资源到FaaS/TaaS,构建无线领域的FaaS/TaaS ③数据平面增强:基于算力路由和微服务,通过软硬件卸载来加速service-mesh性能 ④云管和调度:利用分布式/混合/边缘设备云管系统和插件,支撑通信和计算联合调度 SERVICE TASKTASKTASK RICxApp Communication-Aware TaaS 2 SERVICE FaaS XaaS XaaS Function FunctionFunction FunctionFunctionFunction AIaaS RANaaS XaaS vDU vCU OrchestrationofCompute 4CloudManager SERVICE PaaS VIRTUALIZATION VM... VMContainer... Container Container Coroutine/Thread... coroutine/thread Coroutine/Thread Code/ImageRepo ServiceMesh3 ObservibilityTools22 XaaS DesignFramework SDN ControllerwithSRv6 Virtual LAYERHypervisor Runtime managementPluginsAgentsvDriversOthers InfrastructureManager OPERATINGSYSTEM&DRIVER LINUXKERNEL GPU 1 Driver DPU Driver IPU Driver FPGA Driver SmartNICDriver OtherDriver PhyiscalInfrastructureManager HARDWAREX86ARMRISC-V GPU DPUIPU FPGA SmartNIC Others:Switch/Router,RU, etc 技术探索1-2:基于业务模型的无线算力度量 不同业务应用在不同计算硬件的计算能力有较大差异,算力资源调度需考虑业务模型与计算硬件的适配能力 •度量方式1:基于硬件资源模型的度量,可增加扩展考虑能耗因素 •示例1:2CPUcores,4Gmemory,128GStorage,2*10GE@Serverconfiguration:Skylake-D2177……etc. •示例2:GPUTF32120TFLOPS,CPU795GFLOPS •度量方式2:业务模型或原子功能驱动的计算能力度量 •示例1:AITraining4830Samplespersecond 无线通算联合编排与服务开放 •示例2:LDPCdecodingcapability20Gbps 多种AI模型在不同硬件的推理处理能力测试 AI服务请求 无线通算融合网络功能层 计算任务实时控制与调度 服务拆解 任务生成 计算性能映射模型 无线网络功能 GPUn VendorN SSDResNet-34training InceptionV3Inference 通算联合调度 渲染、定位... 虚机/容器编排管理 Hypervisor/ContainerRuntime 操作系统 多种AI模型在不同硬件的模型训练处理能力测试 GPU2 GPU3 VendorC GPU1 VendorA VendorB 无线基础设施 技术探索2-1:计算能力/任务的实时感知及控制 无线接入网扩展对终端和基站的计算能力和任务实时感知,通信计算资源联合控制保障用户体验 •问题:AI、感知等新服务能力,需要本地化的网络计算功能支持 •技术方向: •基站扩展计算控制功能(CCF),实现终端算力资源感知和计算任务感知,同时支持计算执行 •CCF可接入核心网总线,使能核心网感知无线基站和终端算力信息 计算控制CCF •问题:传统面向移动性管理保障通信的连续性,通算融合场景,还要考虑计算任务的连续性和任务多维度质量要求 •技术方向: •多维要素考量:相邻小区通信状态,例如,用户数,信道环境,业务负载;算力资源状态,例如任务所需算力资源,基站/终端可用资源等 •决策锚点选择:分布式站间CCF协商、集中式如无线算力池内CCF,核心网决策 计算执行 Loop2:站间计算感知 核心网 Loop3: 终端/基站/核心网计算感知 核心网CN控制任务在 •通信和计算联合决策 •连接和计算任务按需解耦迁 移,保障业务端到端体验 •算力类型多样 •网络高动态变化 CCF1和CCF2迁移 1 CCF1控制无线算力池 Loop1: 终端基站计算感知 Opt1:SRB*承载算力和计算任务信 2 CCF间协商完 成任务迁移 连接切, 计算也切 4 计算控制功能CCF 通算实任务实时通算资源时感知控制联合调度 计算不切 Opt2:CRB承载算力和计算任务信息 息SRB0~4 SRB*DRB SRB0~4CRB DRB 3 连接切 控制面用户面 技术探索2-2:通算资源一体调度典型用例 面向VR场景的无线通算一体编排终端和基站协同AI推理IoV场景下的通算联合调度 目标:最大化满足端到端延迟要求的VR用户数量 通信需求计算需求 通信和计算约束 目标:最大化系统AI推理精度 通信:基站时频资源分配比例因子 通信:基站时频资源分配比例因子 模型切分:模型切分点和退出点 推理:模型退出点 目标:最大化工作完成率,最小化总体低时延和成本变量:子任务与计算节点的适配关系 约束:传输速率和计算资源约束 基站的算力和带宽约束 设置业务帧率60、90、120FPS&背景用户数50,,帧压缩后2Mb,无线环境设置UMa场景时,无线算网联合编排算法相比于VR用户就近接入方式提升60FPS接入VR用户数10% 以20个AI推理任务为例,覆盖较好场景下(SNR20dB到30dB),相比基准算法至少可以提升0.4%系统推理精度,系统可以提升11%的AI推