您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:中国移动算网一体技术创新与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

中国移动算网一体技术创新与实践

2023-08-15陆璐中国移动研究院J***
中国移动算网一体技术创新与实践

中国移动算网一体技术创新与实践 陆璐 中国移动研究院 2023年8月 算力已成为数字经济核心驱动,直接影响数字经济发展的速度,决定社会智能的发展高度 ①算力成为数字经济核心生产要素②算力直接带动数字产业化发展③AIGC使公众对算力的认知不断提升 水 网 电 算 计算机等设备制造 其他制造业批发零售业 互联网、软件和信息服务 金融业能源供应 科研和技术服务住宿餐饮业 文教卫生与社会服务环境和公共设施管理 直接带动产出 间接带动产出 005.115.2 算力规模平均每增长一个百分点,带动数字经 济增长0.4个百分点、GDP增长0.2个百分点 电力 100年前 点亮 算力 现在 催生 ChatGPT等大模型的火爆,让算力越来越受关 注,“海量数据+大算力+大模型”成为未来 人工智能发展标配 中国移动充分把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年多来持续开拓创新,全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络 建设和发展 主线一 面向算网基础设施构建 物理空间、逻辑空间、异构空间、多主体算力融通 “4+N+31+X”布局,1000边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座 主线二 面向业务融合创新 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态 产品算力化和算力产品化发布算网服务1.0 构筑算网大脑 主线三 面向创新技术引领 实现创新技术引领,打造原创技术策源地 三横两纵体系架构 三十二个核心技术形成技术体系构建试验网CFITI,打造科学装置 4 算力网络的发展经过三个阶段的发展,逐渐深化 起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生 运营服务 编排管理基础设施 一站服务:一站开通算网服务协同运营:云网运营双入口拉通 协同编排网随算动 融合服务:产品融合、确定性服务统一运营:统一入口、统一平台 智能编排算网融合 一体服务:多层次智简无感服务模式创新:多方算力可信交易 2025~ 十五五阶段及更长期 智慧内生算网一体 2021-2023 十四五阶段 2024-2025 5 算网一体是算力网络发展的目标阶段,是计算和网络两大学科深度融合形成的新型技术簇,是融合贯通多要素的一体化服务,是实现算力网络即取即用社会级服务愿景的重要途径 ——中国移动《《算网一体网络架构与技术体系展望白皮书》 AI大模型应用 科学计算 产业数字化智能化升级 算网一体化 服务新需求 算力泛在 分布式算力(边) 分布式算力(中心) 网络极致 分布式算力(边) 分布式算力(中心) 分布式算力(端) 算网一体化 分布式算力(网) OTN/OXC 统一IP算网底座 OTN/OXC 分布式算力(网) OTN/OXC 分布式算力(端) 全光底座 绿色低碳 算网一体化 发展新约束 算网一体 设施新基础 以网强算构建算网共生一体化新型信息基础设施,实现融合贯通多要素的一体化服务 算网一体通过“联合感知”“混合控制”“极致互联”构建面向智能化时代的数字基础设施 联合感知 混合控制 网络信息 拓扑信息 拥塞状态 算力信息 CPU利用率 异构算力 前提 集中式控制 分布式控制 SLA指标 算力规模 消费侧 节点1节点2节点4 支撑 作用 任务分解与调配 节点3 1.算力路由 关键技术 创新互联网架构协议,基于算网资源联合感知实现动态融合决策选路 CSP4 CSP3 CSP2 CSP1 ISP2 极致互联 ISP1 2.在网计算 3.广域RDMA 网络内生算力,基于集中式控制,实现计算任务跨云、网、边、端分布式协同 突破RDMA长距传输瓶颈,实现广域高性能互联 可管、可控的算网基础设施 •ISP:网络服务提供者;CSP:算力服务提供者4.算网数字孪生基于网络大模型的算网数字孪生构建可视、 7 2018年开始研究算网融合技术,面向云边协同和边边协同的“性能反转”等问题,提出在路由域引入计算信息进行联合调度 发现问题 云边以及边边调度之间出现“性能反转” 问题本质 计算和网络是独立系统,算的负载和网的拥塞信息没有产生关联 算:降低负载、计算资源预留... 解决思路 在路由中引入计算信息,进行联合调度, (1)感知:路由系统感知计算资源 (2)路由:综合网络和计算信息寻址选路 中心云 边缘节点 -计算负载高及网络队列 形成算力感知网络CAN的核心方向-算力路由 边缘节点 深的条件下,边缘响应平均时延及尾时延远大于中心云 -算的负载状态以及网的拥塞情况均是问题来源 造成大量计算资源的闲置 网:增加带宽、配置专线... 增加网络建设、运维成本 通过仿真发现在路由中引入算力信息在低、中、重载情况下均有一定的优化效果 批量100个客户端通过http连续访问服务端程序 历经4年,中国移动在IETF发起成立算力路由工作组(CATS,Computing-AwareTrafficSteering)并担任主席,是IETF路由域近10年由中国高校/公司牵头成立的两个工作组之一 https://datatracker.ietf.org/wg/cats/about/ CATS面向AR/VR、车联网等新型多节点部署服务的场景,考虑网络边缘节点如何引导服务的客户端和提供服务的站点之间的流量的问题,制定算力路由的场景、需求、架构标准 范围 •基础工作:问题声明、场景、需求、技术分析等 •总体架构:定义、组网、功能模块等 •其他基础工作:计算指标的分析、控制面和数据面的定义、基于现有协议的实现、潜在新协议需求的分析 里程碑/计划 •2023年7月,采纳问题声明、场景、需求、技术分析等基础文稿 •2024年7月,采纳架构文稿 •2025年11月,提交架构文稿至RFC发布序列 9 1、算力路由CATS(3/4) CATS已经召开二次会议,目前已经完成场景和需求立项,聚焦在架构、需求、计算指标定义等工作 CATS架构 CATS核心组件 IngressCATS-Router: •CATSTrafficClassifier(C-TC):区分是否是CATS流量,决定服务节点 •CATSPathSelector(C-PS):选择网络转发路径 EgressCATS-Router: •CATSNetworkMetricAgent(C-NMA):收集和分发网络指标 •CATSServiceMetricAgent(C-SMA):收集和分发服务和计算指标 CATS-controlcenter: •CATSComputinginformationBase(C-CIB):维护细粒度的计算信息 •CATSNetworkMetricinformationBase(C-NIB):维护细粒度的网络信息 •CATSPathCalculationUnit(C-PCE):计算最合适的网络路径和选择服务节点 •CATS-SBIinterface:CATS-controlcenter与CATS-Router的接口 https://datatracker.ietf.org/wg/cats/document/10 算力路由系统根据网络部署情况,支持集中式、分布式、混合式等多种组网方案。从集中式组网方案开始,分阶段逐步开展算力路由实验验证 4 总体测试方案 阶段I集中式方案 1 2 3 4 5 1 分布式: •完成算网控制器和算力路由网关原型样机开发,构建业内首个集中式算力路由验证系统 •推进广东珠海现网试点验证,验证业务承载量提升 30%以上,算网综合资源利用率提升32%以上 算网控制器 算力路由网关 3 集中式: 用户 阶段II端到端算力路由系统验证 •开展规模性部署的CATS技术方案验证 •开展CA-BGP等新型协议的验证测试 分布式算力感知 Restful 分布式网络感知 集中式算网一体感知集中式多策略调度 算网一体感知协议CA-BGP-LS 3 算力路由转发 BGP-LS TelemetryBGPSRv6 PolicyBGP-FS Netconf 2 4 5 5 CA-BGP CA-BGP 算力路由网关 应用APP 2 算力路由网关 1 云资源池 5 CA-BGP 算力路由网关 CA-BGP 应用APP 云资源池 算力路由网关 算力路由网关 算网控制器 云管理平台 •分布式算力路由样机已进入平台测试阶段 分布式算力路由样机 《算网一体技术体系关键技术创新案例》荣获CCSATC6102022年度“最佳实践案例” 《算力感知和算力路由构建算网一体化调度》荣获工信部2022年ICT优秀案例“卓越科技创新奖” 《算力感知和路由方案》通信世界全媒体“2023年度算力应用案例十大标杆” 《面向算网一体的算力路由技术攻关和标准突破》方案成功入选2023届未来网络领先创新科技成果11 通信开销已成为分布式AI模型训练的性能瓶颈,严重制约系统规模扩展现有的网络侧及端侧解决方案仍面临负载不均衡、难以动态调度等问题 通信时间 模 型 参 数 总 量 计算时间 Client Client Switch ① ③ ② Server Server Server 发送 100% 接收 发送 0% 接收 背景问题问题根源及现有方案的不足 •Tensorflow在128张卡下训练InceptionV3模型(参数量2000多万),节点间通信时间已接近系统总处理时间的50% •GPT-3模型已增长至1750亿参数,训练预估需要5000张GPU卡,通信瓶颈问题将被进一步放大 ECMP等网络侧调度策略无法适应智算网络差异化的流量特性,造成网络链路负载严重不均衡 MPI集合通信的实现方式并未和物理网络联动设计,网络中存在大量冗余信息 在网计算主要优势 在网聚合,数据消冗与求和 网内处理,实现Sub-RTT通信 线速处理 通信复杂度: MPI_Reduce()规约 缩短传输路径 流量压缩 MPI_Broadcast()组播 大模型训练的模型同步与数据同步算法 通信复杂度: 交换机Tbps处理能力 大模型训练常用的梯度聚合算法 以在网计算实现MPI接口广播及规约操作为例,说明在网计算对AI模型训练系统性能提升12 12 开发不友好 封闭化 产业实践 学术研究 在网聚合 在网组播 在网聚合 SHARP COMHPC’16 IBbasedMPI-Bcast IPDPS’04 ATP NSDI’21 Trio SIGCOMM’22 NetReduce ASPLOS’23 基于IB智能网卡和IB交换机,实现在网聚合 基于IB交换机的硬件组播能力,实现MPI_Bcast 面向AI训练场景,多基于NP交换机实 级交换机参与PS参数现PS参数聚合,基交换机实现传输层 基于FPGA和商用 向量聚合,基于IP协于UDP协议设计 议设计ATPHeaderTrio-MLHeader 透明的参数在网聚合 挑战 现有在网计算设计面向单一场景,在 协议设计、硬件实现等方面不通用 基于InfiniBand网络协议栈及专用网络硬件实现在网计算,成本昂贵 应用程序开发模式和网络开发模式不匹配,开发者学习门槛高 竖井式 在网计算在学术和产业上已经有一定的研究基础,仍然面临竖井式、封闭化、开发不友好等挑战 中国移动提出在网计算NACA架构(NetworkAssistedComputingAcceleration),通过重塑应用处理和开发模式,实现系统加速,提升算网资源利用率 NACA架构发布在网计算(NACA)技术 AI训练/推理 大数据 HPC 同步/异步控制 多对一通信 一对多通信 多对多通信 统一通用的在网计算通信库、实现分布式应用逻辑与物理通信高效映射,重构应用计算、开发模式 分布式应用 白皮书 在网计算通信库 INC可靠传输 RoCE INC拓扑感知 Infiniband Omni-Path INC标识转