打造创新技术策源高地推动算力网络纵深发展 中国移动黄宇红 2023.08 算力是数字经济的核心生产力 ①事关核心生产要素升级 ②事关数字经济增速 ③事关双碳目标实现 算 电 网 水 计算机等设备制造 其他制造业批发零售业 互联网、软件和信息服务 金融业能源供应 科研和技术服务住宿餐饮业 文教卫生与社会服务 环境和公共设施管理 直接带动产出 间接带动产出 资料来源:国家统计局中国信息通信研究院 00.511.52 我国算力规模平均每增长一个百分点,带动数字经济和GDP将分别增长1.6‰和0.8‰ 80000中国数据中心耗电量及占全社会电量比 70000 2.71% 3.00% 2.42% 2.50% 60000 2.16% 50000 40000 30000 20000 10000 0 1.96% 2.00% 1.76% 1.86% 1.47% 1.50% 1.00% 0.50% 0.00% 2014201520162017201820192020 数据中心耗电量 全社会用电量 数据中心耗电量占比 过去十年,数据中心用电量以每年超10%速度递增,2020年约占全社会用电量的2.71% 2 算力网络发展回顾 3 算力网络体系架构 运 营意图感知 服 算网运营 统一运营 能力开放 融合统一的运营服务 务TaaS算力并网MaaS 层 算网大脑 排 编算网统一编排算网智能化 管一体编排泛在调度算力解构数字孪生意图网络算网自智 理 层数据湖基础算网管理人工智能引擎 绿安融数注智的算网大脑 色全 算算网底座 网分布式算力(边)分布式算力(边) 基分布式算力(中心)分布式算力(中心)算网一体的基础设施 施 础设 OTN/ OXC 层 分布式算力(端) 统一IP算网底座 OTN/OXC 全光底座 分布式算力(端) OTN/OXC 4 算力网络发展路径 起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生 算+网互调 (算网协同的资源式服务) 大脑对算网等能力编排调度 (多要素融合的任务式服务) 算网从协议和系统层面开始融合 (极致体验的智能化服务) 协同编排网随算动 智能编排算网融合 智慧内生算网一体 2021-2023 十四五阶段 2024-2025 2025~ 十五五阶段及更长期 5 算力网络发展主线 中国移动从算网基础设施构建、业务融合创新、创新技术引领等多方面系统化推进算力网络建设和发展 主线一 面向算网基础设施构建 物理空间、逻辑空间、异构空间、多主体算力融通 “4+N+31+X”布局,1000边缘节点构建E级超大规模单体智算中心 打造20ms、5ms、1ms三级时延圈 主线二 面向业务融合创新 实现算网高效协同,支持CHBN业务融合发展,打造算网全新生态 产品算力化和算力产品化 创新服务体系,发布算网服务1.0构筑融数注智算网大脑 主线三 面向创新技术引领 实现创新技术引领,打造算力网络原创技术策源地 三横两域体系架构 创新提出十大技术发展方向布局攻关三十二大核心技术 6 构建核心技术体系,打造创新技术高地 中国移动持续推动算力网络技术的创新突破,构建算力网络核心技术体系,打造原创技术策源高地 算力网络核心技术体系 提出十大技术发展方向和三十二大核心技术 算力网络创新技术突破 加强关键核心技术攻关和原创技术突破 运营服务层 方向七:可信共享算网服务 绿色 算力交易 数据流通 安全 方向一:泛在智能新型算力 方向六:融数注智算网大脑 方向八:方向九: 端到端能力内生 绿色低碳新安全 多要素融合编排算网智能化 编排管理层 算网数据感知 方向三: 光电联动全光网 芯片节能全程可信 泛在调度算网原生编排智能网络调度 服务器节能 算网基础设施层 方向二: 多构 样性计算架 方向五:算网深度融合 方向四:确定性IP网络 安全编排 数据中心算力原生云原生算力路由OTN光电联动应用感知节能 算力卸载算力度量 在网计算 400G/800G 全光高速互联 确定性网络 空天地星云算网算网SPN切片承载 方向十: 新一代SD-WAN 低碳能源 隐私计算 2022年6月发布 存算一体智能算力 空天地一体PON超宽全光接入SRv6/G-SRv6 新型智算中心 算力原生 GPU存算 通用数据中心 边算力 算力路由 算力路由 通算一体 通算一体 通算一体 新型智算:NICC新型智算中心架构 算力原生:融通异构生态 存算一体:突破冯氏架构 算力路由:突破互联网架构协议通算一体:无线通算融合共生 7 1、新型智算:构建新型智算中心技术体系,打造算力高峰 面向基础通用大模型孵化,中国移动构建NICC新型智算中心技术体系,围绕存、算、网、管、效五大核心技术特征全面推进,打造标准统一、技术领先、兼容开放的新型智算底座 九天 AI应用使能 算 制定扣卡服务器的统一技术和评测标准,构建多样性算力格局,丰富产业生态 存 创新提出多元融合存储技术方案,实现块、文件和对象三种存储方式统一,降低成本,提升存储效率 网 原创提出全调度以太网GSE技术,打造开放解耦、高性能的数据中心无损网络 管 创新基于API转发的GPU池化方案,实现资源的细粒度分配和跨资源池一体调度,提升智算资源分配灵活性和利用率 NICC新型智算中心技术体系重点工作 智算框架 TesnsorFlow PyTorch PaddlePaddl e Deepspeed ... 智算运营 编排调度 智算原生 跨架构编译器 “芯合”算力原生 算力抽象运行时 计量计费 ROCm CUDA CANN ... 算力交易 管 能力开放 裸金属实例 异构算力池化 虚拟机实例 容器实例 智算设施 算 FCAPS 管理 GPU集群算力 存多元融合存储 网 日志资产 管理管理 CPU GPU 文件对象 块 高速无损网络 高性能 全以太 RoCE 算力存储网络 管理管理管理 智算基建 液冷 整机柜 高效供电 冷却水系统效 效 引入服务器冷板式液冷方案,推进服务器和机柜的解耦,有效降低数据中心PUE 8 2、算力原生:智算应用跨架构迁移部署 中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,目标打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署。 应用层 框架层工具链 Pytorch…… 应用层框架层 编程模型转换、编译、优化 Pytorch…… 跨架构流转的原生程序 •统一编程模型及源源转换 基于SYCL的单源编程模型范式 •跨架构综合编译机制 多级IR互转,图算数融合编译优化 硬件层 XXXX 无法互识跨架构流转 CANN oneAPI CUDA ROCm NeuWare …… 算力原生层 工具链硬件层 原生运行时 程序加载动态链接 CANN oneAPI CUDA ROCm NeuWare …… •原生程序格式规范 Host侧、Device侧指令元语及执行策略的一体承载 •原生运行时算力抽象 跨厂商运行时接口/指令集的可变粒度映射机制 繁冗开发、复杂适配、各自为栈一次开发、一次封装、跨芯迁移 ①发布《面向智算的算力原生白皮书》原创提出“两层架构”和“四大核心 技术” 三阶段发展路径:异构算力资源池化-应用跨架构迁移-全局泛在融通 ②OIF成立开源工作组,牵头国内外多项标准立项 ③打造“芯合”算力原生原型平台beta版,进行技术理念验证 实现视频分析、图像识别两类智 算应用在GPUT4、MLU370间 的跨架构部署迁移 9 牵头在OIF成立算力原生子工作组牵头在ITU、CCSA进行标准立项 3、通算一体:无线算网融合共生 从“功能独立、资源隔离”到 “通算共生化” 无线系统 核心网络应用 计算执行 AIAI计算 计算面功能 计算控制 能 通算通算 管理编排层本地 网络功能层 训推..应用 练理x 算力需求 感知感知 联合QoS力 调度监控开 服务开放 资源编管 无线计算 AI 从“烟囱式设计”到 .放编管服 务 “网络平台化” 连接用户面功能连接控制面功能注 虚拟资源 数册 编排 联合通算 据/ 连接计算数据模型管发 开 理现 从“单一能力”到 基站边缘云 中心云 服/算 “服务多样化” 基础设施层 务 智能终 联合编排 智能终 联合编排 联合编排 SaaS RAN网 放 大 FCAPS 管理编 排脑 端端协同协同协同 ①发表/录用多篇SCI论文,提出无线通算融合共生的新型无线网络架构和关键技术体系 ②联合产业开展面向5G-A和6G的标准研究,凝聚产业共识,推进技术方案标准化 CCSATC5WG6立项业界首个无线算力网络项目,开展应用场景、关键技术和参考架构研究 IMT-2030,面向6G无线网络设计,无线通算融合的技术特征写入《6G无线系统总体概念》 ③联合产业界开展无线通算融合外场实验,初步验证无线通算融合技术的可行性和价值 基于宏站的无线算力编排,下行中远点基于云小站的无线算力共享,业务总 吞吐量提升10%,频谱效率提升4%耗时降低46%、传输耗时降低70%10 4、算力路由:推动算网一体创新发展 中国移动创新提出算力路由体系,将算力信息引入路由域,通过统一控制和调度进行算网资源全局优化,实现用户体验、资源利用率和网络效率的最优组合 ②CA-BGP-LS:出口节点向算力控制节点通告算力状态信息 ①CA-BGP:采集算力信息,通过扩展BGP协议进行通告 ③CA-OSPF:在域内泛洪算力信息为路由提供参考 ①发现问题 云边以及边边调度之间出现“性能反转” 算力路由的提出 算力路由组网架构 算力路由协议簇 ⑤CA-Restful/json:通过restful协议接口收集Json消息算力信息 ④CA-Netconf/yang:通过Netconf协议下发Yang模型算力配置 ②问题本质 计算和网络是独立系统 算的负载和网的拥塞信息没有产生关联 ③解决思路 在路由中引入计算信息,进行联合调度 历时4年推动IETF成立算力路由工作组CATS,中国移动担任主席 2019~2022年5次研讨会2023年3月CATSWG成立暨首次会议,是路由域最受欢迎的工作组之一 工作组范畴和计划 11 5、存算一体:突破冯氏架构,实现极致算效 传统架构AI芯片能耗问题日益严峻,存算一体新范式突破访存瓶颈,有望实现计算能效百倍提升,可 中国移动积极攻关存算一体技术,构建存算一体产业生态 端 低功耗、高算力,支持AI模型本地化部署,有效保护终端隐私 边 解决复杂边缘计算场景散热需求,提升边缘系统的智能化程度 云 有望实现AI运算能效提高1~2个数量级,大幅降低电力成本 低算力 可穿戴智能摄像头移动终端 边缘网关/5G云小站 自动驾驶 数据中心 高算力 <1Tops~5Tops10~50Tops <100Tops500~1000Tops>1024Tops 攻关存算电路、芯片架构、软件工具、算法模型、应用场景等存算一体关键技术,发布业界首个《存算一体白皮书》 算法模型应用场景 联合清华大学共同研发业内首款基于忆阻器的存算一体SoC芯片,大幅提升芯片算效比 基于忆阻器的存算一体SoC芯片 实现SRAM、RRAM、NORFLASH等存内计算,保证最优计算能效 设计芯片架构及SoC方案,提供大算力芯片 SDK仿真模拟 张量单元 向量单元 标量单元 寄存器 buffer 缓存 控制 指令 接口 研发SDK、仿真模拟等软件,推动软件生态链 适配AI算法模型,提升产品能力,加快生态构筑 搭建应用场景并验证,护航产品化落地与应用推广 SoC芯片12 SoC芯片测试系统 (集成300万个忆阻器) 构建创新试验网CFITI,打造科学装置 科学装置, “1+9+9”节点布局打造算力网络科学装置 1个中枢节点 北方国际信息港 9个集团级节点 广东 江苏 浙江 山东 河南 山西 甘肃