您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:运营商算力网络发展及技术探讨2023 - 发现报告
当前位置:首页/行业研究/报告详情/

运营商算力网络发展及技术探讨2023

运营商算力网络发展及技术探讨2023

运营商算力网络发展及技术探讨 孙滔 中国移动2023.3 中国移动洞悉算力发展趋势,把握算力时代脉搏,积极响应国家东数西算战略,充分发挥 运营商网络领先优势,以网强算提出“算力网络”全新理念,一年多来持续开拓创新,全力推进算力网络发展 算力网络是以算为中心、网为根基,网、云、数、智、安、边、端、链(ABCDNETS) 等深度融合、提供一体化服务的新型信息基础设施。算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”,逐步推动算力成为与水电一样,可“一点接入、即取 即用”的社会级服务,达成“网络无所不达,算力无所不在,智能无所不及”的愿景。 算为中心以网强算多要素融合一体化服务 •算是业务与服务的原动力表达 •从通信网络向信息网络变革 •算力从有界变成无界 •网络从刚性变成柔性 •算网从分立变成一体 •技术要素(存/算/网) •能力要素(AI、安全等) •资源要素(局址、能源等) •资源式到任务式 •端到端质量保障 •算力交易、算力并网 算力网络发展分为泛在协同、融合统一和一体内生三个阶段,最终推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务,赋能数字经济高质量发展 跨越:一体内生 起步:泛在协同 一站服务、协同运营 协同编排网随算动 发展:融合统一 融合服务、统一运营 智能编排算网融合 一体服务,模式创新智慧内生 算网一体 十四五阶段 阶段一 阶段二 十五五阶段及更长期 阶段三 主线一 面向算网基础设施构建 实现算力在物理空间、逻辑空间、 异构空间的融通,打造领先算网基础设施 主线二 面向业务融合创新 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态 主线三 面向创新技术引领 实现创新技术引领,打造原创技术策源地 中国移动持续完善“4+N+X”数据中心布局,推进边缘算力覆盖,加快泛在算力基础设施构建 推进数据中心覆盖和互联,实现不同地域泛在算力在物理空间的融通。对接东数西算国家算力枢纽规划完善“4+N+X”数据中心布局,数据中心机架超120万架 物理融通 推进云、边、端协同,实现中心、边缘、端侧算力在逻辑空间的融通。从300余个区域和省级中心云逐步延展,建设超过1500个CDN边缘节点,推进超1000余个边缘云节点建设 哈尔滨 呼和浩特京津冀区域 中卫 庆阳 成渝区域 长三角区域 贵阳 粤港澳大湾区域 逻辑融通 异构融通 推进算力多样化,实现通用算力和专用算力在异构空间的融通。x86、ARM等多样化算力服务器规模超60万台,通过合营/转售、API对接、云原生等方式加快社会算力并网纳管 6 以算力为中心打造骨干(20ms)、省域(5ms)、地市(1ms)三级时延圈,提升网络确定性能力 省级/区域算力 城市边缘算力 1ms地市时延圈 端侧算力 5m省域时延圈 20ms骨干时延圈 枢纽算力 向算而生构建网络新架构 枢纽算力 •扩大网络覆盖,DCI云专网覆盖超320个地市 •提升网络Mesh度,减少流量绕转,降低时延 省内DCI网络 SD-WAN 骨干DCI网络 CMNet城域/省网 SPN 城域 OTN省干 OTN国干 OTN 接入 城市 省域/区域 骨干 •提升网络带宽,向400G/800G演进 技术创新打造网络新能力 •通过SRv6/G-SRv6技术提升网络调度能力,实现多种业务的差异化保障 •网络切片提供确定性连接服务 •新一代SD-WAN高效分发算力服务 算网大脑是算网共生发展的关键系统,通过对算力和网络资源的统一编排调度和管理运维,融数注智,向下实现泛在算力的跨层跨区域融通和网的跨域跨专业拉通,向上实现多要素融合能力供给和算网一体化服务支撑 算力网络运营层 统一运营入口、融合类业务支撑 业务需求解析 算网大脑一体化运营支撑能力 1 算网能力开放中心 2 算网能力仓库 算力网络协同编排中心 业务 3 算力网络智慧中心 业务设计中心 算网产品中心 生命周期管理 策略管理 ··· ··· 4算网跨域调度 5算网感知平台 算网资源拉通、控制命令下发、状态交互、API原子能力开放 算力网络基础设施层 ... 安全使能 网络使能 算力使能 数据数据 存储共享 数据数据 采集处理 API管理 接入管理 智能感知 智能编排 智能优化 业务需求解析 业务能力开放 业务指标监控 效能评估呈现 算网服务目录 统一资源呈现 算网能力开放 算网原子能力融合供给 算网融合编排 多要素一体编排 算网跨域调度 跨领域、跨专业统一调度 算网智能化 意图感知、网络自智 算网数据感知 算网全域感知,端到端服务质量保障 以产品算力化和算力产品化为主线,融合多要素,重塑产品能力,创新服务模式,打造更可靠、更高效、更智能、更便捷的算网服务体系 AZ1 AZ3 AZ2 3AZ高品质资源池 运营商首个自研3AZ架构,布局全网5大区8个节点 提供L6级同城双活、异地容灾服务 ①以网强算 让业务品质更可靠更安全 一站式入云服务 •10+方式一跳入云 •5G/SPN端到端切片上云 云上云下互联组网 •租户百G带宽,百T容量 •超低时延,安全可靠 超大规模云内网络 •网元亿级并发百G吞吐 •3000万pps转发性能 上云 PTNOTNPON 云专线云专线云专线 SPN 切片云专线 云间 云互云组 联网 云网一体产品 云专网节点覆盖全国所有地市 全网用户一跳入网、算力高速互联 5G 云梯 ②算网融合 让客户体验更高效更便捷 5G╳云新型算网解决方案 远程手术 数字孪生AI算法 行业 AR远程辅助 切片 边缘渲染 中国移动算力网络 建模仿真 位置 物联网 影像回传 视频 加速 全息课堂 工厂质检 云游戏 城市大脑 5G*云,双引擎持续赋能行业 以算力驱动生产力,推动千行百业数智蝶变 融合ABCDENETS能力,任务式服务,算力即取即用 ③算网赋能 让服务模式更灵活更多元 运营服务层 融合服务技术 编排管理层 算网基础设施层 算力提升技术 以网强算技术 云原生 OTN灵活光电联动 400G/800G 全光高速互联 算网SPN承载 PON高速全光接入 新一代 S D-WAN SRv6/G-SRv6 算力卸载 多样性算力 确定性网络 应用感知 在网计算 存算一体 算力度量 星云算力 算力路由 智算中心 算力原生 智能网络调度 泛在调度 算网智能化 算网多要素融合编排 算网数据感知 数据流通 算力交易 绿色 低碳能源 数据中心节能 服务器节能 芯片节能 安全 隐私计算 安全编排 全程可信 中国移动对算力网络的关键技术进行体系化的梳理和深度挖掘,重点布局算力提升技术、以网强算技术和融合服务技术,横向映射三层架构,纵向串联各技术栈,形成创新技术体系,推动技术簇的共同成熟 广域网 随着东数西算国家战略的实施,大容量数据在广域网传输的需求越来越多,同时多云数据备份、数据异地上云等场景对在线数据迁移的有效吞吐提出了更高要求,实现海量数据在广域网高吞吐传输成为迫切需求 IP网络 光底座 东部温、冷数据 海量数据广域网传输 西部通用、智算数据中心 东数西训、东数西渲、东数西存等场景通过广域网将温、冷数据(占全部数据95%)迁移至西部,实现数据高效利用,降低能耗和成本。为将源源不断的数据按时保质迁移,对网络吞吐有较高要求 多云数据备份、多云协同计算、数据异地上云等场景通过广域网实现海量数据迁移,满足不同云业务需求。网络有效吞吐决定了数据迁移成本,同时有时延、安全、可靠等性能保障要求 智算、超算中心智算、超算中心 当前广域网大数据迁移存在的问题 •FTP类传输协议吞吐量不高,如果数据量几百TB或者PB级别,一般选用人工快递硬盘方式,耗时长,数据丢失、损坏风险高 •原因1:物理带宽不高,存在带宽上限。通过建设超宽骨干网,消除物理瓶颈 丢包类拥塞控制 典型算法:Reno、CUBIC等 缺陷:丢包=拥塞,发送速率过调整,吞吐受限 RTT类拥塞控制 典型算法:FAST、Vegas等 缺陷:RTT变大=拥塞,发送速率过调整,吞吐受限 带宽类拥塞控制 典型算法:BBR、GCC等 缺陷:可用带宽变化调整发送速率,欠调整,丢包率高 •原因2:现有广域网拥塞控制算法准确度不高,有效吞吐存在瓶颈 广域网拥塞控制算法按照拥塞判断依据分为丢包类、时延类、带宽类等,随着广域网拓扑日益复杂、业务越来越多样,设备类型越来越异构,拥塞控制算法也在不断完善,期望达到物理带宽的吞吐量 拥塞控制算法要综合考虑准确性、公平性、扩展性等, 目标是充分利用物理带宽,提升用户体验 12 超高速率的数据传输驱使TCP/IP协议处理由内核卸载至网卡,RDMA成为数据高效传输首选技术 ①“数据中心税”算力损耗居高不下 ②CPUTPS有限,吞吐存在瓶颈 ①零复制:在应用内存与内核之间复制数据 ②内核旁路:应用程序无需执行内核内存调用就可向网卡发送命令 ③无CPU参与:应用程序访问远程内存,而不占用远程机器CPU RDMA技术 高速数据传输带来的问题 RoCEv2协议易部署、性能高,但应用在丢包率较高的广域网中需要优化其原生实现 2.RoCEv1/v2:高性能、部署成本低 ①广域网丢包率较高,RDMA原生Go-back-N丢包重传机制,少量丢包即可导致吞吐大幅下降 ②IBTA没有针对RDMA定义数据加解密算法,缺乏数据安全机制 1.Infiniband:高性能、部署成本高 3.iWARP:低性能、部署成本低 RDMA三大实现协议RoCEv2应用在广域网中的挑战 提出广域吞吐敏感网络(WGSN)总体架构,实现高吞吐、高安全、低算力损耗的广域网络数据传输 丢包检测 可用带宽检测 时延测量 实时吞吐检测 广域拥塞控制 丢包快速恢复 数据安全加密 丢包精确重传 性能计算 功能集合 参数 状态 能力 云专线SDWAN企业专线 基础协议IP协议UDP协议RDMA协议 东数西算数据灾备数据上云协同计算 应用服务层 应 用 服•东数西算:东数西存、东数西渲等大数据迁移场景 务•数据灾备:多数据中心间的备份数据迁移场景 层•数据上云:数据产生端向异地智算、超算中心迁移场景 网络功能层 •分布式计算:异地多数据中心间的实时数据同步 网 络•基础协议:基于传统IP/UDP协议,保持现网兼容性,同时 功基于RDMA扩展适应广域部署 能•性能计算:对丢包、时延、带宽、吞吐等网络性能指标实 层时计算,为功能实现提供数据 •功能集合:插件式功能集,各功能间解耦,系统可根据不同应用需求调用不同功能 基础设施层 基础 设•云专线:实现多云之间广域互联 施•SDWAN:实现多用户和云数据中心广域互联 层•企业专线:实现企业与企业或数据中心广域互联 网络 高吞吐 算力 低损耗 数据 高可靠 广域吞吐敏感网络目标 •在有限网络和算力资源下,实现网络高吞吐、数据高可靠、算力低损耗三者的动态平衡和综合最优 关键技术 ①新型拥塞控制技术:基于单向时延和可用带宽的高精度测量,设计扩展性强、准确性高的广域拥塞控制算法 ②精确丢包重传技术:基于高效、准确的丢包检测,设计精确丢包重传机制,消除RDMA原生Go-Back-N丢包重传缺陷 ③快速丢包恢复技术:设计基于前向纠错码的丢包恢复算法,既可降低链路丢包概率,又不增加重传时延,大幅降低丢包对传输性能的影响 云间数据迁移服务市场规模近百亿美元,并持续以25%的年增长率递增*。受限于网络吞吐不足,目前TB级别的数据迁移多采用人工快递硬盘方案,效率较低。广域吞吐敏感网络通过提升网络有效吞吐,期望TB甚至PB级别数据线上迁移时,效率更高,成本更低,用户体验更好。 ④数据安全加密技术:基于传输层加密技术,路由协议无关,确保数据安全传输 15 *SNSInsider云迁移服务报告(2022年) 2018年开始研究算网融合技术,面向云边协同和边边协同的“性能反转”等问题,提出在路由域引入计算信息进行联合调度