您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中移智库]:2023新型智算中心算力池化技术白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023新型智算中心算力池化技术白皮书

信息技术2023-09-12中移智库乐***
2023新型智算中心算力池化技术白皮书

中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023) I 新型智算中心算力池化技术白皮书 (2023年) 中移智库 中国移动通信有限公司研究院2023年8月 前言 当前,数字经济已成为国民经济高质量发展的新动能,随着人工智能在产业数字化进程中从“单点突破”迈向“泛在智能”,一个以数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的关键领域,已成为数字经济高质量发展的核心引擎,智能算力基础设施建设也迎来了高潮。 智算中心作为集约化建设的算力基础设施,它以GPU、AI芯片等智能算力为核心,提供软硬件全栈环境,主要承载模型训练、推理、多媒体渲染等业务,支撑千行百业数智化转型升级。然而传统智算中心的智算资源利用率较低,资源分布相对碎片化,不利于整体效能的提升,亟需一个可聚合各类型算力、实现敏捷化资源管理的平台,使能资源可以被极致利用,算力池化技术应运而生。 为凝聚产业共识,进一步推动算力池化技术成熟,中国移动发布本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍了算力池化的定义与目标、总体架构、关键技术和当前业界的探索实践,并呼吁业界紧密合作、加快构建算力池化统一的标准体系。 本白皮书由中国移动通信有限公司研究院主编,北京趋动科技有 限公司、华为技术有限公司、中兴通讯股份有限公司、威睿信息技术 (中国)有限公司联合编撰,由中移智库发布。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。 目录 前言I 目录II 1.算力池化技术背景1 1.1传统智算中心存在资源效率问题2 1.1.1GPU资源利用率不足30%2 1.1.2资源碎片化导致分配率低3 1.2池化技术是提高资源效率的关键4 2.算力池化定义与目标6 2.1算力池化的定义6 2.2算力池化的目标6 3.算力池化架构与关键技术8 3.1算力池化平台技术架构8 3.2算力池化技术能力层级10 3.3算力池化关键技术12 3.3.1软件定义的资源分配方式12 3.3.2算力资源高质量管理技术14 3.3.3泛在化碎片的池化整合技术16 4.算力池化产业实践19 4.1业界厂商池化技术实践19 4.2中国移动池化技术实践24 5.展望与倡议26 参考文献27 缩略语列表28 1.算力池化技术背景 数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景的逐步落地,人工智能正深刻地改变我们的生产、生活方式。同时随着5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产生的数据量正在以更加难以计量的速度爆发,据IDC公布的《数据时代2025》显示,从2016年到2025年全球总数据量将会增长10倍,达到163ZB,其中非结构化数据占70%以上,计算模式将变得更加复杂,对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。 随着智能计算广泛融合到生产、生活的各个方面,以GPU、AI芯片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发展的主流形态。在此背景下,各国政府已开始布局AI领域全栈能力,并出资引导智能算力基础设施建设;我国也已进入智能化时代,“十四五”期间,相关部委积极推动智算中心建设发展,旨在面向人工智能场景提供公共算力服务。 同时,随着ChatGPT等基础通用大模型业务引爆了对GPU的市场需求,产业各方纷纷加入对基础大模型的训练和培育,导致“一芯难求”,GPU价格也随之暴涨。以英伟达A800为例,据市场数据统计,近半年来的价格增幅高达30%以上。如何在有限的资源供应内尽可能提高利用率,充分发挥算力效率的同时降低智算中心TCO,目前已成为智算中心建设待解决的关键命题之一。 1.1传统智算中心存在资源效率问题 1.1.1GPU资源利用率不足30% 当前智算中心主要以国家或当地政府总体牵头建设为主,此外,AI应用服务企业也在布局自有智算基础设施建设。然而,据公开数据统计,传统模式下的智算中心GPU利用率较低,平均数值低于30%: –AWSre:Invent2018公布数据:平均GPU利用率为20% –Facebook2021年机器学习负载分析报告:平均GPU利用率不足30% –英伟达GTC2022公布数据:Google云平均GPU利用率为25%传统智算中心的GPU资源利用率过低,主要来源于以下多个方面 的原因: (一)资源分配较为粗放:资源分配以整卡分配为主,辅以一虚多的虚拟化分配方式,颗粒度较粗,无法适配不同AI任务对资源的差异化需求,导致部分资源闲置,影响算力资源的利用率; (二)算力没有被充分激活:AI任务模型设计缺陷、算力优化程度不足、模型框架与底层芯片适配不充分等原因,均可能导致算力资源的性能无法充分发挥,导致额外的资源损耗; (三)网络带宽瓶颈制约:智算中心设备和服务器之间的通信需要消耗网络带宽,网络瓶颈会影响影响整体性能,算力资源空闲度高、利用率低。 传统智算中心的GPU资源利用率问题是一个综合性的问题,需要 从资源管理策略、硬件架构设计、应用软件算法优化等多方面共同优化解决,其中尤以资源管理策略方面的优化可控性强、生效快、投入产出比高,是新型智算中心算力池化的重要研究方向之一。 1.1.2资源碎片化导致分配率低 资源碎片指体量较小,低于应用的需求而无法被分配出去的闲置资源,通常来说,应用所需资源的规格越高、种类越多,导致资源碎片的概率则越大。近几年来,AI业务迅速发展,从训练到推动,从小模型到大模型,AI任务的种类越来越多,对算力的需求越来越高,算力资源碎片化趋势较为明显。 碎片化的原因包括任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素。 (一)任务类型差异:智算中心提供的算力资源可以用于不同种类的任务,包括机器学习、深度学习、图像处理等。也包括大模型、小模型、分布式推理、集中式推动,由于不同类型的任务对硬件配置的要求不同,因此会导致不同类型的任务需要不同的算力资源,难以充分适配; (二)任务规模差异:任务规模不同,所需求的算力资源不同,并且不同任务规模对算力资源的分配也无实际标准,小规模任务可申请大规模的算力,虽然存在资源浪费,但却可加速任务完成,相反,在资源总数限制下,大规模任务也可根据相对较少的算力资源,虽然影响计算效率,但却节约了投资。以上多方面的因素,导致任务需求 规格与硬件配置无法对齐,从而导致算力资源碎片化; (三)任务优先级差异:不同的任务可能有不同的优先级,一些高优先级的任务可能会占用大量的计算资源,导致其他任务无法及时得到满足,影响整体资源布局; (四)任务调度能力:任务调度也是影响计算资源碎片化的重要因素。如果任务调度不当,可能会导致计算资源得不到充分分配,从而造成资源浪费。 综上所述,根据多样化AI任务对算力资源的差异化需求,灵活地调度、分配资源,是降低智算中心算力资源碎片的关键。 1.2池化技术是提高资源效率的关键 如何对稀缺、昂贵的算力资源充分利用,降低其不可分配的碎片概率,可以考虑借鉴云计算的思路,对GPU、AI芯片等进行聚合池化,再利用先进的资源管理技术进行切分、调度、分配,使能资源可按任务的实际需求进行有序供给。 (一)物理成池:通过高性能智算中心网络打通服务器间通路,使得分散在各服务器中的CPU、GPU、AI芯片等算力资源可以互联互通、透明共享。这项技术允许跨用户、用例、时间尺度共享物理算力资源,还可以为在集群的一个节点中执行的单个AI任务任意调用集群中算力,使AI任务获得进一步加速。 (二)逻辑成池:利用池化软件对CPU、GPU、AI芯片等资源在逻辑上聚合,AI任务在创建时,不再是将零散的、孤岛式的资源进行 裸分配,而是根据调度流程,从聚合的池化资源中切分出所需数量进行分配。一方面,分配的资源数量可按AI任务实际所需执行,当AI任务所需资源不明确,或因负载变化导致资源数量变动时,可实现动态供给、回收,实现多AI任务的峰谷互补,降低资源闲置率;另一方面,切分后的零散资源可以再度聚合、调度、分配,降低碎片率。 2.算力池化定义与目标 2.1算力池化的定义 智能算力池化指依托云计算技术,整合GPU/AI芯片等异构算力资源,构建集中管理的资源池,并按上层智算业务的需求,对池化的资源进行统一调度、分配,实现智算业务生命周期管理的全套技术。 为解决智算中心所面临的资源利用率问题,算力池化基于传统云计算技术(如Kubernetes、OpenStack,智算中心以Kubernetes为主)有针对性地增强GPU/AI芯片池化能力,采用软件定义的方式,对GPU/AI芯片进行分时调度管理,实现按GPU/AI芯片的细粒度分配资源,并采用GPU/AI芯片RuntimeAPI劫持、应用程序监视器等技术,实现资源跨节点远程调用、零散资源整合等,从而达到算力资源充分利用、碎片最小化效果,可有效提升资源效率,降低智算中心整体建设成本。 2.2算力池化的目标 智能算力池化的目标是利用软件定义技术,对通过高速无损网络互连互通的CPU、GPU、AI芯片等算力资源进行池化整合,实现资源的集中调度、按需分配,使能资源可被充分利用,降低碎片概率,提高总体有效算力、降低智算中心购置成本。 化整为零。革新传统的整卡分配、一虚多虚拟化分配的粗放式分 配方式,使能精细化分配能力,根据AI任务的资源需求进行按需供 给,契合多样化业务的差异需求。 隔空取物。基于高速无损网络,跨节点调取GPU、AI芯片等智能 算力资源,使能CPU传统算力及GPU、AI芯片智能算力高度解耦,进一步降低碎片化比例。 化零为整。整合分布在多机上的零散资源,汇聚碎片为可再分配 的资源、汇聚小规格资源为更大模型业务可使用的资源,使能资源可高效分配。 变静为动。革新传统的资源静态分配、本地绑定的机制,使能资 源可以根据负载变化动态分配、回收,多任务间可以峰谷互补,全局资源可以适度超分,促进资源效率提升。 3.算力池化架构与关键技术 3.1算力池化平台技术架构 新型智算中心算力池化平台依托云计算技术扩展池化能力,根据AI任务特点,一般基于K8S(Kubernetes)定制化实现。算力池化平台的技术架构参考如下: 图1算力池化平台技术架构 算力池化平台逻辑上可分为池化资源管理、资源服务代理、池化运行时三类模块组成: (1)池化资源管理 –Kubernetes管理组件:基于Kubernetes原生管理服务组件定制化增强,如支持分布式文件存储、支持POD多网络平面、支持RoCEv2/Infiniband网络等; –Kubernetes调度扩展:关联Kubernetes调度服务扩展专用的池化资源类型,对该类资源的请求转递智算资源池化控制器进行调度、分配,需配合Kubernetes设备插件使用; –智算资源池化控制器:对GPU、AI芯片等智算进行统一管理、 调度、分配; (2)资源服务代理 –池化服务代理:根据智算资源池化控制器的调度结果,将池化运行时对资源的访问请求重定向到实际物理位置执行,如涉及跨机访问智算资源,则需相关服务器上的池化服务代理多次重定向,跨机重定向的流量需经由高速无损网络(如参数面网络); –Kubernetes服务代理:基于Kubernetes原生服务代理组件定制化增强; –Kubernetes设备插件:配合Kubernetes调度扩展,为Kubernetes服务代理注册专用的池化资源类型; –容器运行时:基于原生容器运行时(如Dockerd、Containerd等)定制化增强; (3)池化运行时 –池化运行时:依托GPU、AI芯片的原生运行时(如CUDARuntime)进行二次封装,采用API劫持、应用程序监视等技术,将AI应用软件/AI开发框架对算力资源的访问转递至池化服务代理执行。池化运行时位于容器POD内,在容器运行时由自动注入。 根据上述技术架构,当AI应用编排器通过调用KubernetesAPI创建应