您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:2022年面向智算的算力原生白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2022年面向智算的算力原生白皮书

2022年面向智算的算力原生白皮书

中国移动研究院 ChinaMobileCMRI 面向智算的算力原生白皮书 (2022年) 中国移动通信有限公司研究院 前言 当前,数字经济已成为国民经济高质量发展的新动能,随着人工 数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的关键领域,已成为数字经济高质量发展的核心引擎,智能算力基础设施建设也迎来了高潮。 智能算力日益呈现泛在互联的特征,智算生态也呈现碎片化发展 趋势,不利于应用的快速创新和算力资源的高效运用,驱需一个可融通业界生态竖井,屏蔽底层算力资源复杂性,提高算力资源利用率使能应用无感部署、灵活迁移的平台,算力原生技术应运而生。 为凝聚产业共识,进一步推动算力原生技术成熟,中国移动发布本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍了算力原生的定义内涵与愿景、总体架构、关键技术和当前业界的探索 买践,并呼呼业界紧密合作、加快构建算力原生统一的标准体系和繁 荣的开源生态。 本百皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。 中国移动通信有限公司研究院面向智算的算力原生白皮书(2022) 目录 前 1.智算时代:算力原生产生的背景 智能算力呈现泛在互联的特征1 1.1 1.2智能算力生态呈现碎片化发展趋势, 1.3泛在多样的智能算力发展面临的挑战, 2.算力原生定义内涵与愿景 2.1算力原生定义内涵. 2.2算力原生愿景 3.算力原生平台架构与关键技术6 3.1算力原生平台架构.9 3.2算力原生演进路径.10 3.3重点攻关方向与关键技术.12 3.3.1算力抽象及异构算力统一编程模型技术 3.3.2算力原生➓口及✆构算力编译优化技术13 3.3.3硬件原生堆栈及运行时支持机制, 4.算力原生产业实践。 4.1业界厂商实践 ..16 4.2中国移动“芯合”算力原生原型系统..17 4.3算力原生开源建设...18 5.展望与倡议..20 参考文献21 缩略语列表.22 11 中国移动通信有限公司研究院 1.智算时代:算力原生产生的背景 面向智算的算力原生白皮书(2022) 数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景 的逐步落地,人工智能正深刻地改变我们的生产、生活方式,一个以数学化、网络化、智能化为特征的智慧社会正加速到来。同时随看5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产生的 数据量正在以更加难以计量的速度爆发,据IDC公布的《数据时代 2025》显示,从2016年到2025年全球总数据量将会增长10倍,达 到163ZB,其中非结构化数据占70%以上,计算模式将变得更加复杂 对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。智能计算正以多样化形态广泛融合到生产、生活的各个方面,为千行百业数字化转型提供新动能 1.1智能算力呈现泛在互联的特征 依托异构计算、云计算、边缘计算、物联网等技术的持续送代:算力形态不断演进,呈现泛在化发展特征。在云计算发展的初期和中期阶段,数据中心是算力的主要载体,近年来我国数据中心规模不断增长,工信部发布数据显示,截至2022年6月,我国在用数据中心机 架总规模超过590万架,与机架规模增长相适应,数据中心算力规模 也在同步增长,我国算力总规模超过150EFLOPS,位居全球第二。中心 化的计算架构提供了集中、大规模的计算、网络和存储等资源,解决了人工智能发展初期面临的业务迅速增长、流量快速扩张,需要大规 中国移动通信有限公司研究院面向智算的算力原生白皮书(2022) 模算力的问题。 近些年来,随着云游戏、车联网等新型业务的不断涌现,集中化的云计算服务模式已经无法满足新型业务对数据处理低时延的要求,边缘处理能力未来几年将高速增长,尤其是随着5G网络的全面建设, 其大带宽和低时延的特征,将加速数据处理从云端向边缘的扩散,形成云边端高效协同的发展态势。当前智能算力主要分为大模型训练为主的中心智能算力和以推理为主的边缘智能算力,中心智能算力以智 算中心为代表呈现超集中的特征,边缘智能算力以智能边缘云为代表呈现超分布的趋势。边缘算力可以完成覆盖区域内局部业务数据的实时推理和智能决策,减轻云端压力:中心智能算力通过大数据分析处理优化输出的模型,下发到边缘侧,提升边缘推理准确度。 下行 云下行边下行端 (算法输出)(算法执行)(信息输出) CPU、GPUCPU、GPUCPU、GPU NPU..FPGA.DSP.. 服务器网关手机、电脑 虚拟平台边缘服务平台操作系统 高性能算力上行敏捷算力上行流畅算力体验 大量数据分析和训练数据筛选和实时判断数据收集、结构化 上行 图1云边端智能算力高效协同 随着机器学习、自然语义处理等AI技术的进一步成熟,AI训 练规模持续扩大、模型复杂度不断提升,模型参数量迈向亿万级,处 2 中国移动通信有限公司研究院 面向智算的算力原生白皮书(2022) 理数据量突破千G量级,单一智能算力节点已无法满足超大模型训练要求。为使能大模型的分布式训练,加速训练效率,通过以网强算, 新趋势,产学研各界积极布局,纷纷加入到人工智能算力网络的建设 中。2022年6月,鹏城实验室发布“中国算力网(CNET)”计划, 国家级智算中心、超算中心、大型数据中心以及全国一体化算力网络枢纽节点,大力推进智能算力网络发展。中科院计算所也提出了“信息高铁”科技创新行动计划,将广域环境中的云边端算力资源高速连 接,以南京为信息高铁总站,已接入北京高性能站、盐城高通量站、 郑州大数据站,开规划接人哈尔滨、太原、西安、合肥、成都五个超算站,提供高通量、高品质和高安全的智能信息服务。 1.2智能算力生态皇现碎片化发展趋势 人工智能、大数据、AR/VR等新兴应用的涌现推动了异构计算的 迅猛发展,在intel、NVIDIA、AMD等传统行业巨头推出GPU、FPGA 等计算芯片的同时,近年来国内也涌现出原、瀚博、沫曦、壁初、 摩尔线程、天数智芯等一批领域化芯片厂商,提供MLU、NPU、TPU等 领域芯片解决方案,产业一派火热繁荣景象。各厂商为使能各自芯片在更广泛领域运用,吸引更多的应用开发者,在提开芯片本身性能的司时不断围绕自身芯片架构构筑各自的软件生态,包括编译工具链操作系统适配组件以及相关核心软件库等。然而,各厂商的芯片架构 中国移动通信有限公司研究院面向智算的算力原生白皮书(2022) 十差方别,因此其驱动、软件开发接口、软件运行时等各不相同且难 以兼容,同时,各芯片厂商会尽可能在其芯片工具链中融入 TensorFlow、PyTorch等各类Al框架,开结合各自芯片特点进行针 对性优化定制,进而形成多个厂商的分支版本,不同分支版本之间的代码难以相互移植,更导致了各厂商软件生态的碎片化和竖并化, 1.3泛在多样的智能算力发展面临的挑战 如何将遍布在云边端泛在部署的✆构多样算力资源以及繁多碎片化软件生态间进行有效协同,驱使业务应用能平滑的在各级算力资源上进行流转运行,充分利用巨量算力资源,是使能智算业务转型创 新的关键点。 一是对开发者来说,要实现跨架构的应用优化部署,开发成本高。应用开发人员在使用✆构算力进行AI算法实现过程中可以很明显地感受到,不同类型的AI处理器的应用程序接口、编程库和操作系统 服务不是统一的,例如CUDA、Vitis、MindSpore等,以ASIC为主的 专用芯片的领域编程范式和工具链更是种类繁多,而且目前没有一种 编程模型能够适用于所有✆构系统,需要在OpenCL、OpenACC、OpenMF 等多种模型范式间切换。这些竖井式的开发生态增加了代码开发成本,一名开发人员很难精通多类硬件特性及开发环境,为了开发出能够适配多种✆构算力的应用程序,企业需建立多支开发团队、维护多个程序版本,带来巨大的开发成本,这已经成为协同运用多样算力的一个主要瓶颈问题 中国移动通信有限公司研究院 面向智算的算力原生白皮书(2022) 二是对算力服务商来说,无法实现✆构算力的合理规划和应用的动态迁移,资源利用率低。首先,算力服务商通常会基于多个厂商的多类AI服务器进行建设,不同厂商不同架构的AI服务器资源池互相 独立,生态隔离,形同一个个孤岛。算力服务商在资源规划时需要结 合多种硬件上预估的应用规模进行采购,很难实现精准配比,同时由于上层应用与底层硬件紧绑定关系,后期也无法实现迁移调整,因此可能会出现某些厂商的硬件资源不够而另外一些厂商的硬件资源闲置的状况;其次,当前GPU、AI芯片虚拟化能力存在局限性,物理资 源只能以独占式的分配方法提供给用户实例使用,无法实现动态调整 和灵活调度,导致底层资源无法被充分利用。以GPU为例,当前只支 持儿种固定份数切割的vGPU虚拟化能力,且用户实例对VGPU的挂载 是独占式的,如果用户实例需要增加或减少vGPU数量,还需要对实 例进行重启,这在流量高峰期可能会导致业务中断。 三是对新兴芯片制造商来说,面对当前逐步形成的一超多雄的产业格局,良性发展的生态构建难。AI芯片从制造到大规模应用,还隔着一个巨大的产业和生态鸿沟,一是要与基础软件生态适配,构建可发挥自身特性的驱动程序、编程工具链以及API接口等初始软件能 力更重要的是要实现与算法框架和AI应用的优化与适配,“AI框架 +AI芯片”的组合在一定程度上决定了产品的技术路线和市场受众。 当前,95%以上的智能应用均构筑在Tensorflow、Pytorch等国际主 流AI框架之上,而这些框架从底层代码、接入机制,到中间算子的送代研发,均由头部巨型AI芯片厂商参与主导,不断针对自身处理 中国移动通信有限公司研究院面向智算的算力原生白皮书(2022) 器特性进行优化,且以官方版本发布,在用户受众中已形成事实标准。新兴AI处理器厂商面临两难境地,一方面是难以有机会参与到AI框 架的建设工作,无法获得官方发布支持:另一方面是其所建立的AI 框架分支版本,由于受众群体小,开发者更是少之又少,缺乏应用移植迁移技术,难以承接到支持其技术迭代发展的足够业务量,常常在生存边缘排挣扎,难以发展壮大,陷入“差而不用、不用更差”的 怪圈。 6 中国移动通信有限公司研究院 2.算力原生定义内涵与愿景 2.1算力原生定义内涵 面向智算的算力原生白皮书(2022) 算力狭义上是指多样计算器件所构成的设备、集群、平台等算力资源对数据的处理能力。原生则意味看事物最原始、最本真的状态。 为解决智能算力发展面临的一系列挑战,算力原生回归计算本真,是以统一的算力资源抽象模型和标准的编程范式接口为基础,以跨架 构编译优化技术和原生运行时技术为依托,使能多样泛在算力环境下 弃蔽复杂软硬件差✆的技,实现同一应用一套代码、动态重构一体 部署、灵活迁移高效执行。 2.2算力原生愿景 算力原生通过构建标准统一的算力抽象模型及编程范式接口,打造开放灵活的开发及适配平台,实现各类✆构硬件资源与计算任务有效对接、✆构算力与业务应用按需适配、灵活迁移,充分释放各类✆ 构算力协同处理效力、加速智算应用业务创新,实现✆构算力资源一体池化、应用跨架构无感迁移、产业生态融通发展的自标愿景。 一套代码,简化开发。应用开发者面向底层多样✆构的算力芯片,无需针对性开发多套代码并进行优化、集成、验证工作,在不改变编程语言的前提下,只须一次开发即可在多种芯片架构上运行。 ✆构资源,一体池化。形成多厂商、多架构的✆构智能算力混合资源池,实现从传统的以硬件资源为单位、静态分配使用算力的方式 中国移动通信有限公司研究院 面向智算的算力原生白皮书(2022) 变为以计算能力为单位对算力资源进行动态、灵活地配给,应用无需 关注智能算力的位置、数量和类型。 屏蔽差✆,跨芯迁移。屏蔽各厂商多架构智算芯片的软硬件差✆,高效生成可跨架构流转、任务式互映射的原生程序,应用可实现跨架构的无感迁移与协同部署。 融通产业,繁荣生态。破解当前智算产业生态碎片化、割裂化问 题,打通智算