算网一体技术研究及发展探讨 孙滔 中国移动研究院 2023年7月 1算网一体提出的背景 2算网一体新技术探索 3总结与展望 2 一年多来持续开拓创新,全力推进算力网络发展,形成一系列创新成果,在业界取得了广泛共识 算力网络是以算为中心、网为根基,网、云、数、智、安、边、端、链(ABCDNETS) 等深度融合、提供一 提出新概念 发布新理念融入新战略 成为“5G+算力网 开创新方向 发布《算力网络技术白皮书》, 开启新征程 发布《算力网络创新成果》;CFITI试验网与中 迈向新阶段 完成CFITI试验网一期总结验收,形成案例集;发布世界最长距离400G光传输试验网络; 体化服务的新型信息基础设施。 ——中国移动《算力网络 杨杰董事长提出“算力网络”概念与愿景 发布中国移动 《算力网络白皮书》和发展倡议 络+能力中台”新 型信息基础设施的关键一环 提出十大技术方 向 国算力网、信息高铁三 方互联,打造科学装置 2022.12 成立算力网络子链专家委员会 ,成立14支攻关战队 2023.3 白皮书》 2021.8 2021.112022.12022.6 算力网络的发展经过三个阶段的发展,逐渐深化 起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生 运营服务 编排管理基础设施 一站服务:一站开通算网服务 协同运营:云网运营双入口拉通协同编排 网随算动 融合服务:产品融合、确定性服务统一运营:统一入口、统一平台 智能编排算网融合 一体服务:多层次智简无感服务 模式创新:多方算力可信交易 2025~ 十五五阶段及更长期 智慧内生算网一体 2021-2023 十四五阶段 2024-2025 4 算网一体通过“联合感知”“混合控制”“极致互联”构建面向智能化时代的数字基础设施 联合感知 混合控制 网络信息 拓扑信息 拥塞状态 算力信息 CPU利用率 异构算力 前提 集中式控制 分布式控制 SLA指标 算力规模 消费侧 节点1节点2节点4 支撑 作用 任务分解与调配 节点3 架构关键技术 突破RDMA长距传输瓶颈, 广域吞吐敏感网络 实现广域高性能互联 CSP4 CSP3 CSP2 CSP1 ISP2 极致互联 ISP1 •ISP:网络服务提供者;CSP:算力服务提供者 算力路由 在网计算 创新互联网架构协议,基于算网资源联合感知实现动态融合决策选路 网络内生算力,基于集中式控制,实现计算任务跨云、网、边、端分布式协同 5 1算网一体提出的背景 2算网一体新技术探索 3总结与展望 6 2018年开始研究算网融合技术,面向云边协同和边边协同的“性能反转”等问题,提出在路由域引入计算信息进行联合调度 发现问题 云边以及边边调度之间出现“性能反转” 问题本质 计算和网络是独立系统,算的负载和网的拥 塞信息没有产生关联 中心云 边缘节点 算:降低负载、计算资源预留... 解决思路 在路由中引入计算信息,进行联合调度, (1)感知:路由系统感知计算资源 (2)路由:综合网络和计算信息寻址选路 -计算负载高及网络队列 形成算力感知网络CAN的核心方向-算力路由 边缘节点 深的条件下,边缘响应平均时延及尾时延远大于中心云 -算的负载状态以及网的拥塞情况均是问题来源 造成大量计算资源的闲置 网:增加带宽、配置专线... 增加网络建设、运维成本 通过仿真发现在路由中引入算力信息在低、中、重载情况下均有一定的优化效果 批量100个客户端通过http连续访问服务端程序 历经4年,中国移动在IETF发起成立算力路由工作组(CATS,Computing-AwareTrafficSteering) 牵头在IETF召开首次算力 路由研讨会sidemeeting 召开第二次、第三次算力 路由研讨会sidemeeting IETF113次会议,牵 头召开第一次BOF IETF116次会议,牵 头召开第二次BOF IETFCATSWG成立, 中国移动担任主席 2019.11 2020.11~2021.03 2022.03 场景和需求达成共识 2022.11 2023.03 获取关注,凝聚初步共识 讨论技术路线,工作组章程 里程碑 并担任主席,是IETF7大领域133个工作组中近10年由中国高校/公司牵头成立的两个工作组之一 CATS面向AR/VR、车联网等新型多节点部署服务的场景,制定算力路由的场景、需求、架构标准 当前,许多服务会创建多个服务实例,这些实例通常在地理上分布在多个站点。CATS工作组主要考虑网络边缘节点如何引导服务的客户端和提供服务的站点之间的流量的问题。——CATSWGCharter https://datatracker.ietf.org/wg/cats/about/ 范围 •基础工作:问题声明、场景、需求、技术分析等 •总体架构:定义、组网、功能模块等 •其他基础工作:计算指标的分析、控制面和数据面的 定义、基于现有协议的实现、潜在新协议需求的分析 里程碑/计划 •2023年7月,采纳问题声明、场景、需求、技术分析等基础文稿 •2024年7月,采纳架构文稿 •2025年11月,提交架构文稿至RFC发布序列 8 CATS目前已经有20篇文稿,即将在IETF117召开第二次会议,聚焦在架构、需求、计算指标定义等 CATS架构核心组件 IngressCATS-Router: •CATSTrafficClassifier(C-TC):区分是否是CATS流量,决定服务节点 •CATSPathSelector(C-PS):选择网络转发路径 EgressCATS-Router: •CATSNetworkMetricAgent(C-NMA):收集和分发网络指标 •CATSServiceMetricAgent(C-SMA):收集和分发服务和计算指标 CATS-controlcenter: •CATSComputinginformationBase(C-CIB):维护细粒度的计算信息 •CATSNetworkMetricinformationBase(C-NIB):维护细粒度的网络信息 •CATSPathCalculationUnit(C-PCE):计算最合适的网络路径和选择服务节点 •CATS-SBIinterface:CATS-controlcenter与CATS-Router的接口 https://datatracker.ietf.org/doc/draft-ldbc-cats-framework/https://datatracker.ietf.org/doc/draft-yao-cats-awareness-architecture/ CATSWG目前的个人文稿 场景:draft-yao-cats-ps-usecases-00,即将立项 draft-an-cats-usecase-ai-00,CATS+AI大模型场景 需求:draft-yao-cats-ps-usecases-00, draft-yuan-cats-end-to-end-problem-requirement-00draft-huang-cats-ps-and-requirements-of-l2-cats-01 架构:draft-ldbc-cats-framework-01 draft-yao-cats-awareness-architecture-00 计算Metric:draft-du-cats-computing-modeling-description-00 draft-dunbar-cats-edge-service-metrics-00 其他: •draft-ddcb-cats-sfc-bgp-applicability-00(sfc-bgp方案) •draft-jaehwoon-cats-mobility-00(cats支持移动性方案) •draft-wang-cats-green-challenges-00(cats绿色低碳考虑) •draft-shi-cats-ipv6-based-con-00(cats与IPv6的应用) https://datatracker.ietf.org/wg/cats/document/9 算力路由系统的实现根据网络部署情况,支持集中式、分布式、混合式等多种组网方案。从集中式方案开始,分阶段逐步推进算力路由实验验证 总体测试方案 阶段I集中式方案 4 1 2 3 4 5 1 分布式: •完成算网控制器和算力路由网关原型样机开发, 构建业内首个集中式算力路由验证系统 •推进广东珠海现网试点验证,验证业务承载量提升 30%以上,算网综合资源利用率提升32%以上 算网控制器 算力路由网关 3 集中式: 用户 阶段II端到端算力路由系统验证 •开展规模性部署的CATS技术方案验证 •开展CA-BGP等新型协议的验证测试 分布式算力感知 算网控制器 Restful 分布式网络感知 集中式算网一体感知 集中式多策略调度 算网一体感知协 议CA-BGP-LS 3 算力路由转发 BGP-LS TelemetryBGPSRv6 PolicyBGP-FS Netconf 2 4 5 5 CA-BGP CA-BGP 算力路由网关 应用APP 2 算力路由网关 1 云资源池 5 CA-BGP 算力路由网关 CA-BGP 应用APP 云资源池 算力路由网关 算力路由网关 云管理平台 •分布式算力路由样机已进入平台测试阶段 分布式算力路由样机 《算网一体技术体系关键技术创新案例》荣获CCSATC6102022年度“最佳实践案例” 《算力感知和算力路由构建算网一体化调度》荣获工信部2022年ICT优秀案例“卓越科技创新奖” 《算力感知和路由方案》通信世界全媒体“2023年度算力应用案例十大标杆” 10 海量数据跨广域网传输的场景越来越多,数据异地上云、云迁移等场景的数据规模越来越大 •东数西存 东数西算需求 •东数西训 •东数西渲 2025年中国数据量将达到48.6ZB,其中适合东数西算的温、冷数据占比95% •... 数据上云需求 自动驾驶训练数据上云 单车日产数据几TB至十几TB,完成L3训练预计产生8EB数据,L4训练预计产生20EB数据 综艺原始素材上云 综艺原始素材总量一年达500PB,10TB~100TB量级/日/节目 基因测序数据上云 国内某基因企业基因测序数据年数据100PB,TB~100TB量级/次 FAST观测数据上云 FAST每年200+以上观测项目,产生数据15PB左右,TB~PB量级/次 •自动驾驶 •影视制作 •科学计算 •云迁移 为保证数据的安全存储以及有效管理,云灾备市场规模不断扩大,2019年达到了32 亿元,2023年达到了51亿元,年复合增长率约为12.4% 云迁移需求 •多云灾备 •多云协同计算 •... 11 实现高吞吐、高可靠、低时延、低算力损耗“两高两低”特性的算网高性能互联网络 广域网TCP传输吞吐受限 时延由1ms增加到10ms时,吞吐下降10倍 原生RDMA丢包敏感,难以直接用于广域网 丢包率达到0.5%,有效吞吐接近为0 广域吞吐敏感网络 4个关键技术,实现长距高吞吐传输 ①新型拥塞控制算法,提升吞吐,降低丢包 ②丢包快速恢复算法,减少重传,降低时延 ③丢包精确重传机制,实现RDMA有损部署 ④数据安全加密协议,实现数据高安全传输 ①人工硬盘快递:操作复杂、流程繁琐、占用人工多,且快递过程中存在硬盘损坏、丢失等风险 ②在线网络传输:“低带宽等不起,高带宽用不起”,公网传输速率太慢,专网按月付费模式性价比低 12 运营平台算网大脑 实现海量数据长距传输即送即达,满足数据高效低成本搬运和安全迁移的需求 多 数据量大 资源自动分配 数据源 (私有云/公有云) 智算/超算中心 广域互联 云PE 云PE 数据快递站 弹性带宽 负载均衡 安全加密 普算中心 任务下发 (机房/营业厅) TB~P