对算力网络新型智算和开放DPU发展的思考和实践 中国移动研究院段晓东 2023.08 目录 01 中国移动算力网络总体进展 02 围绕GPU,打造NICC新型智算中心 03 围绕DPU,构建开放解耦产业生态 中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年来持续开拓创新,全力推进算力网络发展,在业界取得了广泛共识,引起了巨大反响。 算力网络是以算为中心、 网为根基,网、云、数、智、安、边、端、链 (ABCDNETS)等深度融合、提供一体化服务的新 型信息基础设施。 ——中国移动《算力网络白皮书》 提出新概念 杨杰董事长提出“算力网络”概念与愿景 发布新理念 发布中国移动《算力网络白皮书》和发展倡议 融入新战略 成为“5G+算力网络+能力中台”新型信息基础设施的关键一环 开创新方向 发布《算力网络技术白皮书》,提出十大技术方向 打造新平台 启动算力网络试验网CFITI1.0,发布算网服务体系1.0 构建新装置 发布《算力网络科技创新成果》,CFITI试验网与中国算力网、中科院信息高铁联合打造科学装置 组建新战队 算力网络子链组建14支攻关战队联合攻关产业问题 5G 算力网络 智慧中台 运算网运营 营 服意图感知统一运营能力开放 融合统一的运营服务 层 务TaaS 算网自智 意图网络 数字孪生 算力解构 一体编排泛在调度 数据湖 算网统一编排 编排管理层 算网基 础 算力并网 算网大脑 基础算网管理 算网底座 分布式算力(边)分布式算力(中心) MaaS 算网智能化 人工智能引擎 分布式算力(边)分布式算力(中心) 绿安融数注智的算网大脑 色全 算网一体的基础设施 施 设分布式算力(端)分布式算力(网) OTN/OXC 层 统一IP算网底座 OTN/OXC 全光底座 分布式算力(网)分布式算力(端) OTN/OXC 中国移动从算网基础设施构建、业务融合创新、创新技术引领三条主线体系化推进算力网络建设和发展,取得了一系列重大成果 主线一 面向算网基础设施构建 “4+N+31+X”布局,1000余边缘节点构建E级超大规模单体智算中心 打造20ms、5ms、1ms三级时延圈 主线二 面向业务融合创新 产品算力化和算力产品化 创新服务体系,发布算网服务1.0融数注智构筑算网大脑1.0 主线三 面向创新技术引领 三横两纵总体架构 创新提出十大技术发展方向布局攻关三十二大核心技术 中国移动持续推动算力网络技术的创新突破,构建算力网络核心技术体系,打造原创技术策源高地。 算力网络核心技术体系算力网络创新技术突破 提出十大技术发展方向和核心技术体系加强关键核心技术攻关和原创技术突破 新型智算 打造算力高峰 全调度以太算力原生 突破无损以太性能瓶颈实现应用跨架构迁移 算力路由 突破互联网架构协议 在网计算 打破算网边界 移动算力 5G、6G新增计算面 存算一体 突破冯氏架构 广域RDMA 突破广域传输性能瓶颈 DPU400G/800GSRv6/G-SRv6空芯光纤 多算力形态统一底座超高速大容量全光网络统一IP承载协议新型光纤介质与系统 OIF牵头成立全球首个CFN开源社区,IETF主导成立算力路由工作组并担任主席 数据体量激增、结构多样,对计算效率提出了更高要求,以数据为中心的多样化新型计算架构迅速兴起,中国移动围绕CPU+GPU+DPU三大芯片全面发力,推动多样性算力发展成熟 数据中心计算架构由CPU向CPU+XPU异构化演进 “3U”一体推动多样性算力发展 面向x86、ARM、RISC-V三大CPU架构,系统性打造“芯巢”算力孵化平台,从标准制定、芯片评估、行业赋能等多种途径,促进多样性算力成熟 CPU CPU 内存 总线 网卡 存储 CPU 内存 总线 网卡 存储 CPU为主的通用计算 CPU+GPU+DPU等混合的异构计算 CPU CPU ... ... CPU CPU GPU ... ... GPU GPU GPU 存储 ... ... 存储 存储 存储 加速器 加速器 ... ... 加速器 加速器 行业数字化转型带来多样化的海量数据处理需求,传统以CPU为中 心的计算架构面临瓶颈,以数据为中心的新型计算架构迅速兴起, GPU、DPU相继成为数据中心第二、第三颗大芯片 围绕GPU性能的极致利用,以新型智算为核心,打造智能算力高峰。构建新型智算技术体系,打造E级超大规模单体智算中心,支撑通用AI大模型的训练与孵化 通过DPU实现极致性能极低损耗,构建业内首套DPU软硬解耦系列标准,形成“1+5+4”标准化体系,成立“DPU创新开放实验室”,推动DPU技术成熟和产业繁荣发展 NetworkFabric DPU DPU DPU DPU ...... GPUDPU 目录 01 中国移动算力网络总体进展 02 围绕GPU,打造NICC新型智算中心 03 围绕DPU,构建开放解耦产业生态 智能算力将成为未来算力主流,中国移动加快发展智能算力, 以新型智算中心为发力点,打造算力高峰,推动算力网络实现智能跃迁 九天 AI应用使能 智算框架 TesnsorFlow PyTorchPaddlePaddleDeepspeed... 智算原生 “芯合”算力原生 跨架构编译器算力抽象运行时 ROCmCUDACANN ... 智算运营 编排调度计量计费 算力交易 管 能力开放 裸金属实例 异构算力池化 虚拟机实例 容器实例 智算设施算 GPU集群算力 CPUGPU 存多元融合存储 网 FCAPS日志资产 管理管理管理 文件 对象块 高速无损网络 高性能 全以太 RoCE 算力存储网络 管理管理管理 智算基建 液冷 整机柜 高效供电 冷却水系统 效 新型智算中心NICC (NewIntelligentComputingCenter) 以GPU、AI加速卡等智能集群算力为核心集约化建设的E级超大规模新型算力基础设施,软硬件全栈环境,支撑AI大模型的高效训练, 支撑行业数智化转型升级 NICC新型智算中心技术体系 传统风冷,单机柜7KW 面向大模型孵化,实现“算、存、网、管、效”五大核心技术全面升级,构建标准统一、技术领先、兼容开放的智算底座 GPU为主,单机8卡,扣卡互联,最高带宽600G 新型智算中心 算 算力以CPU为主,单机双路 NFS、Posix、S3多协议融合,海量非结构化数据 传统云数据中心 存 单一存储协议,结构化数据为主 RoCE高速无损网络,200G/400G 网 普通以太网络,10G/25G GPU池化,算力原生跨架构迁移 管 CPU虚拟化、容器化 风液结合,冷板或浸没液冷,单机柜40KW 效 算管效 算力原生 网 全调度以太网 算网效 算力路由 面向中远期,中国移动提出具有中国特色的三大原创技术,推动新型智算中心在算、存、网、管、效五个方面 融合创新,引领技术突破 打破异构算力技术生态竖井,实现应用跨架构迁移 新一代全调度以太网技术生态,形成端网协同新型智算中心网络 改变互联网基础架构,协议上实现算力与距离向量叠加融合 中国移动原创提出算力原生技术,着力打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署 统一编程模型及源源转换 基于SYCL的单源编程模型范式 跨架构综合编译机制 多级IR互转,图算融合编译优化 原生程序格式规范 Host侧、Deivce侧指令元语及执行策略的一体承载 原生运行时算力抽象 跨厂商运行时接口/指令集的可变力度映射机制 ①发布《面向智算的算力原生白皮书》提出“两层架构”和“三大核心技术” •三大核心技术:算力抽象、跨架构编译优化、原生运行时 •三阶段发展路径:异构算力资源池化、应用跨架构迁移、全局泛在融通 繁冗开发、复杂适配、各自为栈 一次开发、一次封装、跨芯迁移 ②OIF成立开源工作组,牵头国内外多项标准立项 •牵头在OIF成立算力原生子工作组 •牵头在ITU、CCSA进行标准立项 ③进行算力原生技术理念原型验证 •探索“芯合”beta平台,实现视频分析、图像识别两类智算应用在GPUT4、MLU370间的跨架构部署迁移 12 全调度以太网突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,构建标准开放技术体系,助力产业发展 与传统以太网相比,全调度以太网主要有分发粒度、发流模式及管控模式三大机制变化,实现高效、精确和可靠的网络 从“流”分发到“容器”分发 •基于虚拟容器的逻辑转发单元 •逐“容器”的动态负载均衡机制 从“推”流到“拉”流 •VOQ调度,最大限度避免拥塞 •精细反压机制,避免HOL等问题 从分布式管控到集中式管理 •集中式全局网络信息维护及调度 •分布式管理面、控制面及数据面 发布业界首个《全调度以太网技术架构白皮书》,展开芯片、协议、设备、管控及架构等关键技术攻关 中国移动携手中国信通院、腾讯、鹏城实验室、清华大学、华为、中兴、锐捷、新华三、中信科、思博伦、Intel、Marvell、盛科等十余家合作伙伴,联合发布 《全调度以太网技术架构(GSE)白皮书》13 14 创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度进行算网资源全局优化,实现用户体验、资源利用率和网络效率的最优组合 算力路由的提出 算力路由组网架构 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 ②CA-BGP-LS:出口节点向算力控制节点通告算力状态信息 ①CA-BGP:采集算力信息,通过扩展BGP协议进行通告 ③CA-OSPF:在域内泛洪算力信息为路由提供参考 ⑤CA-Restful/json:通过restful协议接口收集Json消息算力信息 ④CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置 ①发现问题 云边以及边边调度之间出现“性能反转” ②问题本质 计算和网络是独立系统 算的负载和网的拥塞信息没有产生关联 ③解决思路 在路由中引入计算信息,进行联合调度 2023年3月CATSWG成立暨首次会议,是路由域最受欢迎的工作组之一 算力路由协议簇 工作组范畴和计划 目录 01 中国移动算力网络总体进展 02 围绕GPU,打造NICC新型智算中心 03 围绕DPU,构建开放解耦产业生态 DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座, 实现低损耗、高性能、高灵活、强安全,支撑算力网络多样化业务需求 算力服 务管理 编排 虚拟机 算力服务形态 容器裸金属 CPU、GPU、AI芯片…… 管理运 维系统 DPU 业务网络、存储网络 算 力节 点 业务 场景 智能计算 •AI训练 •科学计算 远程控制云游戏 •远程驾驶•传统云游戏 •工业控制•云VR游戏 视频渲染 •云XR •全景视频 … 低损耗 CPU“零”损耗 算力资源极致利用 高性能 线速转发、极低时延 无损网络 高灵活 裸金属弹性发放 网络可编程 强安全 防火墙等安全功能加速 虚拟化安全能力增强 当前各自为营、定向适配的集成模式不利于DPU产业的健康发展, 亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态繁荣 技术体系 云计算的需求决定DPU技术体系,云计算新技术、新场 景迭代频繁,使得DPU的“易用性”成为落地关键 技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高 技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步 产业生态 DPU与云平台、服务器三位一体共同构成端到端