!"#$%$&'()*+ !"#""$3 '()*+,-/023 前言 当前,数字经济已成为国民经济高质量发展的新动能,随着人工智能在产业数字化进程中从“单点突破”迈向“泛在智能”,一个以数字化、网络化、智能化为特征的智慧社会正加速到来。智能算力作为人工智能的基石,是算力网络构建多要素融合新型信息基础设施的关键领域,已成为数字经济高质量发展的核心引擎,智能算力基础设施建设也迎来了高潮。 智能算力日益呈现泛在互联的特征,智算生态也呈现碎片化发展趋势,不利于应用的快速创新和算力资源的高效运用,亟需一个可融通业界生态竖井,屏蔽底层算力资源复杂性,提高算力资源利用率,使能应用无感部署、灵活迁移的平台,算力原生技术应运而生。 为凝聚产业共识,进一步推动算力原生技术成熟,中国移动发布本白皮书,分析了智能算力发展的趋势及面临的挑战,系统性介绍了算力原生的定义内涵与愿景、总体架构、关键技术和当前业界的探索实践,并呼吁业界紧密合作、加快构建算力原生统一的标准体系和繁荣的开源生态。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。 目录 前言I 1.智算时代:算力原生产生的背景1 1.1智能算力呈现泛在互联的特征1 1.2智能算力生态呈现碎片化发展趋势3 1.3泛在多样的智能算力发展面临的挑战4 2.算力原生定义内涵与愿景7 2.1算力原生定义内涵7 2.2算力原生愿景7 3.算力原生平台架构与关键技术9 3.1算力原生平台架构9 3.2算力原生演进路径10 3.3重点攻关方向与关键技术12 3.3.1算力抽象及异构算力统一编程模型技术12 3.3.2算力原生接口及异构算力编译优化技术13 3.3.3硬件原生堆栈及运行时支持机制14 4.算力原生产业实践16 4.1业界厂商实践16 4.2中国移动“芯合”算力原生原型系统17 4.3算力原生开源建设18 5.展望与倡议20 参考文献21 缩略语列表22 1.智算时代:算力原生产生的背景 数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景的逐步落地,人工智能正深刻地改变我们的生产、生活方式,一个以数字化、网络化、智能化为特征的智慧社会正加速到来。同时随着5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产生的数据量正在以更加难以计量的速度爆发,据IDC公布的《数据时代2025》显示,从2016年到2025年全球总数据量将会增长10倍,达到163ZB,其中非结构化数据占70%以上,计算模式将变得更加复杂,对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。智能计算正以多样化形态广泛融合到生产、生活的各个方面,为千行百业数字化转型提供新动能。 1.1智能算力呈现泛在互联的特征 依托异构计算、云计算、边缘计算、物联网等技术的持续迭代,算力形态不断演进,呈现泛在化发展特征。在云计算发展的初期和中期阶段,数据中心是算力的主要载体,近年来我国数据中心规模不断增长,工信部发布数据显示,截至2022年6月,我国在用数据中心机 架总规模超过590万架,与机架规模增长相适应,数据中心算力规模也在同步增长,我国算力总规模超过150EFLOPS,位居全球第二。中心化的计算架构提供了集中、大规模的计算、网络和存储等资源,解决了人工智能发展初期面临的业务迅速增长、流量快速扩张,需要大规 模算力的问题。 近些年来,随着云游戏、车联网等新型业务的不断涌现,集中化的云计算服务模式已经无法满足新型业务对数据处理低时延的要求,边缘处理能力未来几年将高速增长,尤其是随着5G网络的全面建设,其大带宽和低时延的特征,将加速数据处理从云端向边缘的扩散,形成云边端高效协同的发展态势。当前智能算力主要分为大模型训练为主的中心智能算力和以推理为主的边缘智能算力,中心智能算力以智算中心为代表呈现超集中的特征,边缘智能算力以智能边缘云为代表呈现超分布的趋势。边缘算力可以完成覆盖区域内局部业务数据的实时推理和智能决策,减轻云端压力;中心智能算力通过大数据分析,处理优化输出的模型,下发到边缘侧,提升边缘推理准确度。 图1云边端智能算力高效协同 随着机器学习、自然语义处理等AI技术的进一步成熟,AI训练规模持续扩大、模型复杂度不断提升,模型参数量迈向亿万级,处 理数据量突破千G量级,单一智能算力节点已无法满足超大模型训练要求。为使能大模型的分布式训练,加速训练效率,通过以网强算,将各地的智能算力联接成为人工智能算力网络已成为智算产业发展新趋势,产学研各界积极布局,纷纷加入到人工智能算力网络的建设中。2022年6月,鹏城实验室发布“中国算力网(C²NET)”计划,以鹏城实验室的“鹏城云脑”E级智算平台作为核心节点,广泛联合国家级智算中心、超算中心、大型数据中心以及全国一体化算力网络枢纽节点,大力推进智能算力网络发展。中科院计算所也提出了“信息高铁”科技创新行动计划,将广域环境中的云边端算力资源高速连接,以南京为信息高铁总站,已接入北京高性能站、盐城高通量站、郑州大数据站,并规划接入哈尔滨、太原、西安、合肥、成都五个超算站,提供高通量、高品质和高安全的智能信息服务。 1.2智能算力生态呈现碎片化发展趋势 人工智能、大数据、AR/VR等新兴应用的涌现推动了异构计算的迅猛发展,在intel、NVIDIA、AMD等传统行业巨头推出GPU、FPGA等计算芯片的同时,近年来国内也涌现出燧原、瀚博、沐曦、壁仞、摩尔线程、天数智芯等一批领域化芯片厂商,提供MLU、NPU、TPU等领域芯片解决方案,产业一派火热繁荣景象。各厂商为使能各自芯片在更广泛领域运用,吸引更多的应用开发者,在提升芯片本身性能的同时不断围绕自身芯片架构构筑各自的软件生态,包括编译工具链、操作系统适配组件以及相关核心软件库等。然而,各厂商的芯片架构 千差万别,因此其驱动、软件开发接口、软件运行时等各不相同且难以兼容,同时,各芯片厂商会尽可能在其芯片工具链中融入TensorFlow、PyTorch等各类AI框架,并结合各自芯片特点进行针对性优化定制,进而形成多个厂商的分支版本,不同分支版本之间的代码难以相互移植,更导致了各厂商软件生态的碎片化和竖井化。 1.3泛在多样的智能算力发展面临的挑战 如何将遍布在云边端泛在部署的异构多样算力资源以及繁多碎片化软件生态间进行有效协同,驱使业务应用能平滑的在各级算力资源上进行流转运行,充分利用巨量算力资源,是使能智算业务转型创新的关键点。 一是对开发者来说,要实现跨架构的应用优化部署,开发成本高。应用开发人员在使用异构算力进行AI算法实现过程中可以很明显地感受到,不同类型的AI处理器的应用程序接口、编程库和操作系统服务不是统一的,例如CUDA、Vitis、MindSpore等,以ASIC为主的专用芯片的领域编程范式和工具链更是种类繁多,而且目前没有一种编程模型能够适用于所有异构系统,需要在OpenCL、OpenACC、OpenMP等多种模型范式间切换。这些竖井式的开发生态增加了代码开发成本,一名开发人员很难精通多类硬件特性及开发环境,为了开发出能够适配多种异构算力的应用程序,企业需建立多支开发团队、维护多个程序版本,带来巨大的开发成本,这已经成为协同运用多样算力的一个主要瓶颈问题。 二是对算力服务商来说,无法实现异构算力的合理规划和应用的动态迁移,资源利用率低。首先,算力服务商通常会基于多个厂商的多类AI服务器进行建设,不同厂商不同架构的AI服务器资源池互相独立,生态隔离,形同一个个孤岛。算力服务商在资源规划时需要结合多种硬件上预估的应用规模进行采购,很难实现精准配比,同时由于上层应用与底层硬件紧绑定关系,后期也无法实现迁移调整,因此可能会出现某些厂商的硬件资源不够而另外一些厂商的硬件资源闲置的状况;其次,当前GPU、AI芯片虚拟化能力存在局限性,物理资源只能以独占式的分配方法提供给用户实例使用,无法实现动态调整和灵活调度,导致底层资源无法被充分利用。以GPU为例,当前只支持几种固定份数切割的vGPU虚拟化能力,且用户实例对vGPU的挂载是独占式的,如果用户实例需要增加或减少vGPU数量,还需要对实例进行重启,这在流量高峰期可能会导致业务中断。 三是对新兴芯片制造商来说,面对当前逐步形成的一超多雄的产业格局,良性发展的生态构建难。AI芯片从制造到大规模应用,还隔着一个巨大的产业和生态鸿沟,一是要与基础软件生态适配,构建可发挥自身特性的驱动程序、编程工具链以及API接口等初始软件能力更重要的是要实现与算法框架和AI应用的优化与适配,“AI框架 +AI芯片”的组合在一定程度上决定了产品的技术路线和市场受众。当前,95%以上的智能应用均构筑在Tensorflow、Pytorch等国际主流AI框架之上,而这些框架从底层代码、接入机制,到中间算子的迭代研发,均由头部巨型AI芯片厂商参与主导,不断针对自身处理 器特性进行优化,且以官方版本发布,在用户受众中已形成事实标准。新兴AI处理器厂商面临两难境地,一方面是难以有机会参与到AI框架的建设工作,无法获得官方发布支持;另一方面是其所建立的AI框架分支版本,由于受众群体小,开发者更是少之又少,缺乏应用移植迁移技术,难以承接到支持其技术迭代发展的足够业务量,常常在生存边缘徘徊挣扎,难以发展壮大,陷入“差而不用、不用更差”的怪圈。 2.算力原生定义内涵与愿景 2.1算力原生定义内涵 算力狭义上是指多样计算器件所构成的设备、集群、平台等算力资源对数据的处理能力。原生则意味着事物最原始、最本真的状态。 为解决智能算力发展面临的一系列挑战,算力原生回归计算本真,是以统一的算力资源抽象模型和标准的编程范式接口为基础,以跨架构编译优化技术和原生运行时技术为依托,使能多样泛在算力环境下屏蔽复杂软硬件差异的技术,实现同一应用一套代码、动态重构一体部署、灵活迁移高效执行。 2.2算力原生愿景 算力原生通过构建标准统一的算力抽象模型及编程范式接口,打造开放灵活的开发及适配平台,实现各类异构硬件资源与计算任务有效对接、异构算力与业务应用按需适配、灵活迁移,充分释放各类异构算力协同处理效力、加速智算应用业务创新,实现异构算力资源一体池化、应用跨架构无感迁移、产业生态融通发展的目标愿景。 一套代码,简化开发。应用开发者面向底层多样异构的算力芯片,无需针对性开发多套代码并进行优化、集成、验证工作,在不改变编程语言的前提下,只须一次开发即可在多种芯片架构上运行。 异构资源,一体池化。形成多厂商、多架构的异构智能算力混合资源池,实现从传统的以硬件资源为单位、静态分配使用算力的方式, 变为以计算能力为单位对算力资源进行动态、灵活地配给,应用无需关注智能算力的位置、数量和类型。 屏蔽差异,跨芯迁移。屏蔽各厂商多架构智算芯片的软硬件差异,高效生成可跨架构流转、任务式互映射的原生程序,应用可实现跨架构的无感迁移与协同部署。 融通产业,繁荣生态。破解当前智算产业生态碎片化、割裂化问题,打通智算产业生态融通渠道,形成百花齐放的产业繁荣新生态和发展新格局。 3.算力原生平台架构与关键技术 3.1算力原生平台架构 算力原生平台的任务目标是深度适配泛在、多样的异构算力资源,构建标准开放的算力原生技术栈,使能上层应用一次开发、跨架构无感适配执行、任意流转迁移。算力原生技术架构包括:算力池化层、算力抽象层。 图2算力原生平台架构 (1)算力池化层 算力池化层通过构建底层异构硬件的统一抽象模型,并对应用调用底层算力资源的请求进行重定向和再调度,从而实现各类硬件资源的一体池化,从传统的以硬件资源为单位、静态分配和调度的方式,变为以计算能力为单位对算力资源进行动态、灵活地配给。同时为应对智算业务的潮汐效应,算力池化层可根据业务需求及算力负载情况提供算力资源弹性扩缩容的能力。 (2)算力抽象层 算力抽象层由硬件原生堆栈和算力原生接口组成,其中硬件原生堆栈主要包括编程模型转换器和原生运行时,编程模型转换器可将基于特定芯片编程的应用程序