您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ODCC]:2023中国算力调度发展研究蓝皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023中国算力调度发展研究蓝皮书

信息技术2023-12-20ODCCH***
2023中国算力调度发展研究蓝皮书

中国算力调度发展研究蓝皮书ODCC-2023-05003 I [编号ODCC-2023-05003] 中国算力调度发展研究蓝皮书 开放数据中心委员会2023-08发布 中国算力调度发展研究蓝皮书ODCC-2023-05003 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 中国算力调度发展研究蓝皮书ODCC-2023-05003 编写组 项目经理: 吴美希中国信息通信研究院工作组长: 郭亮中国信息通信研究院 贡献专家: 阮迪中国信息通信研究院 温小振中国信息通信研究院 常金凤中国信息通信研究院 张慷中国电信股份有限公司上海分公司 桑洁丽中国电信股份有限公司上海分公司 储伟伟中国电信股份有限公司上海分公司 II 中国算力调度发展研究蓝皮书ODCC-2023-05003 前言 2023年2月,中共中央、国务院印发了《数字中国建设整体布局规划》(以下简称《规划》),明确了“2522”的整体框架。其中,特别提到:“系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局。”东西部算力高效互补和协同联动的实现离不开算力调度。近年来,《关于加快构建全国一体化大数据中心协同创新体系的指导意见》、《全国一体化大数据中心协同创新体系算力枢纽实施方案》、《新型数据中心发展三年行动计划 (2021-2023年)》等文件明确了算力调度的重要意义,国家东数西算工程的推进和实施更是离不开算力调度。 为梳理当前算力调度的概念、技术和应用现状,中国信通院云大所数据中心团队联合上海电信基于前期研究成果编制了《中国算力调度发展研究蓝皮书(2023年)》。本蓝皮书聚焦了算力调度技术的最新研究进展,分析了目前现有的算力调度技术,对比国内各厂商算力调度平台应用情况,从而更好地指导和建议业界判断行业发展趋势,为未来算力调度发展提供思路。 如对蓝皮书有建议或意见,请联系:dceco@caict.ac.cn。 III 中国算力调度发展研究蓝皮书ODCC-2023-05003 目录 版权声明I 编写组II 前言III 一、算力调度概述1 (一)算力与异构算力1 (二)算力网络与算网融合1 (三)算力调度2 二、算力调度技术研究3 (一)跨区域算力调度技术3 (二)闲置算力调度技术4 1.闲置算力的调度方法4 2.集群调度器的分类5 (三)超算算力调度技术8 1.算力调度平台架构8 2.超算中心主流HPC调度器9 (四)边缘算力调度技术10 1.调度技术与算法现状10 2.边缘算力调度技术架构11 3.典型应用场景12 三、现有算力调度平台分析13 (一)中国联通算力调度平台13 1.算网一体化编排调度平台13 IV 中国算力调度发展研究蓝皮书ODCC-2023-05003 2.天穹算力运营调度平台14 3.中国联通边缘计算平台15 (二)中国电信算力调度平台16 1.甘肃省算力调度平台16 2.“息壤”算力分发网络平台18 (三)中国移动混合算力感知调度AI平台20 (四)中科曙光一体化算力交易调度平台21 (五)华为公共多样性算力服务平台22 (六)浪潮AI计算系统及推理平台24 (七)北鲲云一站式云超算平台25 (八)趋动云AI平台26 四、异构计算调度系统分析27 (一)典型异构计算平台27 1.阿里云震旦异构计算平台27 2.百度百舸AI异构计算平台28 3.FPGA异构计算平台29 (二)异构AI算力操作平台30 1.操作平台定义30 2.技术架构31 (三)异构计算调度技术32 1.分布式异构计算调度技术32 2.面向FaaS的算网异构算力调度技术33 五、总结34 V 中国算力调度发展研究蓝皮书ODCC-2023-05003 中国算力调度发展研究蓝皮书 一、算力调度概述 (一)算力与异构算力 算力是服务器通过对数据进行处理后实现结果输出的一种能力,最常用的计量单位是每秒执行的浮点运算次数(FLOPS)。算力主要包括通用算力、智能算力、超算算力、边缘算力四类。其中通用算力以CPU芯片输出的计算能力为主;智能算力以GPU、FPGA、AI芯片等输出的人工智能计算能力为主;超算算力主要以超级计算机输出的计算能力为主;而边缘算力主要以就近为用户提供的实时计算能力为主,是以上三种算力形式的组合。 异构算力是指CPU、GPU、FPGA、ASIC等多种算力协同的处理体系,能够满足不同场景中的应用需求,实现计算效力的最大化。在市场需求的驱动下,算力的发展一方面呈现多样性,打破传统的单一架构的算力形态,实现了异构算力以应对不同场景下的数据处理应用;另一方面又呈现出异构算力下的能力开放和统一管理,不论是芯片厂商还是平台厂商目前都围绕自身的产品系统,将底层的异构算力能力进行融合,从而吸引更多的产业链上下游企业共同打造生态环境。 (二)算力网络与算网融合 算力网络是一种根据业务需求,在云、网、边、端之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。 1 中国算力调度发展研究蓝皮书ODCC-2023-05003 它的本质是一种算力资源服务,为企业客户或个人用户提供网络和云资源以及灵活的计算任务调度。 算网融合是以通信网络设施和计算设施的融合发展为基础,通过 计算、存储及网络资源统一编排管控,满足业务对网络和算力灵活泛在、弹性敏捷、智能随需应用需求的一种新型业务模式。算网融合能够解决现有TCP/IP网络体系结构存在的技术瓶颈,增强泛在算 力一体化管理能力,满足业务场景对于低时延、高可靠网络的需求。随着网络云化、云网融合趋势的不断加强,算网融合成为云网融合发展重要阶段,其技术创新主要体现在新架构、新协议和新度量三方面。在架构方面,由算、存、网分离,向算、存、网深度融合演进。在协议方面,由网络调度,向网络和计算联合调度优化演进。在度量方面,由网络性能度量,向算力度量体系演进。 (三)算力调度 算力调度是通过对不同业务的算力资源和算力需求进行匹配,使合理的算力去处理相应数据的一种方式。算力调度是高效利用算力资源的关键。算力调度更多是指调用合理的算力去处理相应的数据。 目前算力调度存在许多问题,例如算跨AI框架的应用无法直接调度,需要应用代码迁移;算法适配具有高度的专有性,不同的加速芯片适配技术复杂多样;跨厂商的作业调度生态支持能力弱,异构芯片适配标准不统一等。 2 中国算力调度发展研究蓝皮书ODCC-2023-05003 二、算力调度技术研究 (一)跨区域算力调度技术 跨区域算力调度是以算网大脑作为算力网络的核心系统,重点在 构建分层分域管理的算网架构。 通过专网构建跨区域分布式算网大脑。分层算网大脑架构在总部 部署总部中心算网大脑,分布式控制调配全网算力资源。同时,在省内部署区域中心算网大脑,实现区域的集中控制、本地优先。总部中心与各省的算网大脑通过专用网络实现算力协同,共同构成覆盖全国的超级分布式算网大脑。算力分层分级调度如图1所示 图1算力分层分级调度 算网大脑基于开放资源矩阵进行算网地图建模。基于算网请求的 多维约束条件和权重短阵动态并行计算TopN候选结果,然后以资源利用率、成本、能耗等多目标进行求解后得到最终优选的算和网,并建立网络路径和流量引流,最终实现算网资源双均衡效果。算网地图建模如图2所示。 3 中国算力调度发展研究蓝皮书ODCC-2023-05003 图2算网地图建模 全国范围集中管控算力资源带来巨大的计算量需求,需要从算力资源和管理方面集中评估算力资源的调配。在跨省调度效益方面,跨省资源选择“东数西算”枢纽资源,而社会泛在算力资源只在省 内调度,可确保跨省调度效益最大化。在管理方面,将路径计算分成用户所在省、全国骨干网、云资源所在省三段,算力评估时各自计算路径,使计算分布式,提高效率、优化管理流程。 不同厂商的网络设备实现互通可有效助力算力网络需求匹配。 其中一种有效方法是,复用现有的通用网络协议。主要实现两大大目标:一是有效降低对路由器软件和性能的要求;二是实现了尽可能少的对路由器进行改造,从而充分利用现有资源,降低迭代、运维成本,加快算力网络落地进度。 (二)闲置算力调度技术 海量闲置算力的调度技术,重点聚焦方法研究,重点聚焦于算力调度的各种方法和集群调度器研究两大分类。 1.闲置算力的调度方法 4 userid:529794,docid:149010,date:2023-12-19,sgpjbg.com 中国算力调度发展研究蓝皮书ODCC-2023-05003 空闲算力调度模型分为Monolithic统一调度、Two-Level两级调 度、SharedState共享状态调度。 Monolithic统一调度:通过集群状态信息,负责统一的资源和任务的调度。统一调度也被称为云计算中的调度,属于静态资源分区调度方式。资源集合的全面控制。部署在专门的,静态划分的集群的一个子集上。或把集群划分为不同的部分,分别支持不同的行为。 Two-Level两级调度:通过资源动态划分,使用中央协调器来确定每个子集群可以分配的资源,每个子调度器不具备全局资源视图,只是被动的接收资源,中央协调器仅将可用的资源推送给各个框架,各框架自主选择使用或拒绝这些资源。一旦框架接收到新资源后,再进一步将资源分配给其内部的各个应用程序,即调度策略下放到各个应用程序调度器,进而实现双层调度。 SharedState共享状态调度:系统同时存在多个调度器,每一个调度器都可以访问整个集群状态,共享全局资源视图,当多个调度器同时更新集群状态时使用乐观锁并发控制。 2.集群调度器的分类 (1)统一调度架构典型系统 Kubernetes:Kubernetes是一个容器集群的编排管理系统,主要面向跨Docker主机场景之下容器集群的统一管理,用于自动部署、扩缩和管理容器化应用程序,提供资源调度、部署管理、服务发现、扩容缩容、监控、维护等一整套功能。 5 中国算力调度发展研究蓝皮书ODCC-2023-05003 Borg:Borg是Google内部自研的一套资源管理系统,用于集群 资源管控、分配和调度等。通过准入控制,高效的任务打包,超额的资源分配和进程级隔离的机器共享,来实现超高的资源利用率。能够支持高可用应用,并通过调度策略减少出现故障的概率。 Swarm:Swarm是Docker公司的一套管理Docker集群的工具。 架构包含Manager和Node,Manager是SwarmDaemon工作的节点,包含了调度器、路由、服务发现等功能,负责接收客户端的集群管理请求,然后调度Node进行具体的容器工作,如容器的创建、扩容与销毁等。 Torca:Torca是腾讯Typhoon云平台的关键系统。一个Torca 集群由一个CentralManager和若干ExecuteServer组成。CentralManager是集群任务调度中心,ExecuteServer接收任务并负责相应执行。 伏羲:伏羲是阿里巴巴“飞天”云计算平台的分布式调度系统,有资源调度和任务调度分离的两层架构。主要负责集群资源管理和任务调度,支持超大规模,水平扩展,提供优先级、抢占、Quota等灵活的资源调度功能。 (2)两级调度架构典型系统 Mesos:Mesos是Apache的开源分布式资源管理框架,通过在多种不同框架之间共享可用资源来提高资源使用率,包括Mesos资源管理集群和框架两部分。资源管理集群是由一个Master节点和多个Slave节点组成的集中式系统,框架负责任务的管理与调度。主 6 中国算力调度发展研究蓝皮书OD

你可能感兴趣

hot

2023中国制药产业数智化发展蓝皮书

医药生物
沙利文2023-08-16
hot

2023中国城市地下空间发展蓝皮书

中国工程院战略咨询中心&中国岩石力学与工程学会地下空间分会&中国城市规划学会2024-01-15
hot

2023中国开源发展蓝皮书

中国开源软件(OSS)推进联盟2023-12-15