OCTCAB01—2024 算力工厂建设指南白皮书 (2024年6月) 开放计算标准工作委员会发布 OCTCAB01—2024 版权保护文件 版权所有归属于该文件的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用许可可于发布机构获取。 I 目次 前言Ⅲ 1概述1 2背景1 2.1算力发展趋势与挑战1 2.2预制化数据中心发展4 3算力工厂概述5 3.1算力工厂模式定义5 3.2算力工厂形态分类6 3.3算力工厂核心理念6 3.4算力工厂模式优势7 3.5算力工厂应用场景7 3.6算力工厂收益分析8 4算力工厂建设模式8 4.1建设模式分类8 4.2建设模式推荐9 5算力工厂规划建议10 5.1算力形式10 5.2算力规模11 5.3算力应用11 6算力工厂建设思路14 6.1建设原则14 6.2建设流程15 6.3算力工厂技术框架16 7算力工厂运营模式25 7.1算力运营25 7.2算力销售27 7.3日常运维27 参考文献29 II OCTCAB01—2024 前言 本文件由中国电子技术标准化研究院提出。本文件由开放计算标准工作委员会归口。 本文件起草单位:中国电子技术标准化研究院、浪潮电子信息产业股份有限公司、中通服咨询设计研究院有限公司、中国建筑西北设计研究院有限公司、西安工程大学、东南大学、西安交通大学、广东新会中集特种运输设备有限公司、金华莘水智能科技有限公司。 本文件主要起草人:张群、陈海、周相峰、朱亮、王涛、刘晓蕾、乌宏亮、朱智国、师宇清、张立功、赵超、李丛洋、张振宇、段晓丽、王太峰、戴蔚、赵明明、孙铁柱、陈忠英、李楠、张水权、盛有海。 III OCTCAB01—2024 算力工厂建设指南 1概述 随着数字经济时代的全面开启,算力已经成为推动各行各业数字化转型的关键力量。在这个时代背景下,我国对于算力基础设施的投入日益加大,算力规模稳步增长,截至2023年底,我国算力总规模达到230EFLOPS(FLOPS:每秒浮点运算次数)即每秒能完成230百亿亿次浮点运算,算力总规模居全球第二位。 然而,在算力规模高速增长的同时,也面临着诸多挑战。建设周期长、能源利用率低、技术更新换代快、管理运维效率低下以及建设投资高等问题,都在一定程度上制约了算力的进一步发展。为了解决这些问题,急需一种全新的建设模式,以更高效、更经济、更环保的方式推动算力的发展。 算力工厂正是在这样的背景下应运而生。采用预制化集装箱数据中心作为算力底座,相比传统数据中心,这一创新模式能够提升50%以上的交付效率。同时,算力工厂还搭载了计算、存储、网络等IT设备组成的硬件,对外提供算力资源的运营服务。这种模式的出现,不仅极大地缩短了建设周期,降低了建设成本,还提高了能源利用效率和管理运维效率。 算力工厂的核心理念是“打造创新的算力全生命周期服务模式,让算力以更合适的方式更快发生在更亟需的地方”。这一理念贯穿了算力工厂的整个建设过程,从规划、建设到对外提供算力运营服务,为用户提供了一体化全生命周期的服务。算力工厂致力于帮助用户以最快的模式搭建对外提供算力运营服务的平台,从而提高资金使用效率,改善用户整个生命周期的TCO(TCO:总拥有成本)和现金流,助力客户商业成功。 在算力工厂的建设过程中,注重技术创新和模式创新。通过引入先进的IT设备和数据中心技术,不断提升算力工厂的性能和效率。同时积极探索新的商业模式和运营模式,为用户提供更加灵活、多样化的服务选择。 展望未来,算力工厂将在数字经济中发挥越来越重要的作用。算力工厂将秉承创新、高效、环保的理念,不断优化和完善建设和服务模式。在算力工厂建设模式的推动下,我国的算力产业将迎来更加广阔的发展前景。 2背景 2.1算力发展趋势与挑战 2.1.1算力的定义与价值 《中国算力白皮书(2022年)》将算力定义为:数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。狭义的概念上,算力是软硬件配合执行某种信息处理需求的能力,一般采用每秒浮点运算次数进行表达,即FLOPS。广义概念上,算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。 在人类历史的演进中,技术革命总是推动着时代的进步。第一次工业革命让人类进入热力时代,第二次工业革命则引领人类步入电力时代。而今天,随着计算机技术的飞速发展,人类迎来了由算力主宰 1 OCTCAB01—2024 的第三次工业革命。这一时代变革,不仅标志着人类生产力的又一次飞跃,更预示着全球经济的崭新格局。 随着新一轮科技革命与产业革命的加速演进,算力正成为推动产业数字化转型的核心力量。它如同新时代的引擎,为各行各业的升级换代注入源源不断的新动能。在全球数字经济的浪潮中,算力不仅是发展的加速器,更是国家竞争力的重要标志。越来越多的数据显示,一个国家的算力规模与其经济发展水平之间存在着显著的正相关关系。 在数字经济时代全面开启的背景下,人工智能、云计算、大数据技术等日新月异,传统产业与新兴技术的融合日益加深,数字行业蓬勃发展。算力,作为这些技术的核心驱动力,正在以新的关键生产力形式,重塑着世界经济版图。根据IDC、浪潮信息、清华大学全球产业研究院联合发布的数据,计算力指数的提升与数字经济和GDP的增长呈正相关关系。计算力指数每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰。这一数据充分证明了算力在推动经济增长中的重要作用。 对于中国而言,做强做优做大数字经济,促进数字经济与实体经济融合发展,已成为推动经济高质量发展的重要战略。在这一过程中,筑牢算力基础设施的坚实底座至关重要。只有拥有强大的算力支撑,才能在全球数字经济竞争中占据有利地位,为经济的高质量发展注入新动力。因此,必须加强算力基础设施的建设,推动算力与各行各业的深度融合,为数字经济的蓬勃发展提供坚实保障。 2.1.2我国算力产业高速发展 随着5G、人工智能等信息技术的发展,算力需求不断增长,算力产业迎来重要发展机遇。我国不断加大对计算、存储和网络等基础设施的投入,高度重视数据中心、智算中心、超算中心以及边缘数据中心等算力基础设施的高质量发展。 工信部数据显示,截至2023年底,我国在用数据中心机架总规模超过810万标准机架,算力总规模达到了230EFLOPS,算力总规模居全球第二位。 2023年,人工智能领域的发展达到了重要转折点,在人工智能席卷各个行业的大趋势下,各行业正加速从业务数字化迈向业务智能化,从感知智能到生成式智能,人工智能算力需求快速增长。大模型和生成式人工智能的发展显著拉动了智能算力的增长,为算力产业带来了更大的发展空间。 在适度超前的指导思想下,国家正加大对人工智能算力基础设施的投资。目前,互联网企业、电信运营商,以及各级政府均积极投入到智算中心的建设之中。据《2023-2024年中国人工智能计算力发展评估报告》中中国智能算力规模测算结果,预计到2027年中国智能算力规模将达1117.4EFLOPS。同时,该报告测算了中国通用算力规模,预计到2027年通用算力规模将达到117.3EFLOPS。2022-2027年期间,中国智能算力规模年复合增长率达33.9%,同期通用算力规模年复合增长率为16.6%。这些数据充分表明,在未来几年内,我国算力基础设施建设将更加注重智算中心的建设,智算产业的发展也将进入一个黄金发展期。这不仅将有力推动人工智能等前沿技术的发展,还将为我国经济的数字化转型和高质量发展提供强大支撑。 2.1.3算力发展趋势 1)算力需求持续增长 在数字经济时代,算力崭露头角成为全新的生产力,与数据、算法并肩成为这一时代最基础的生产要素。随着云计算、大数据技术的迅猛发展,数字化改革的步伐不断加快,数据呈现爆炸性增长,算法的复杂程度也持续攀升。这种趋势直接促使了对算力规模与能力的迫切需求,算力需求正以前所未有的速度爆发式增长,成为推动数字经济持续繁荣的关键力量。 2)算力类型加速转变 2 OCTCAB01—2024 当前的算力领域正经历着一场算力类型的加速转变。传统上,通用算力在算力需求中占据着主导地位,然而,随着AIGC大模型等人工智能技术的迅猛发展,智能算力的占比开始迅速攀升。根据中国信通院发布的《中国综合算力指数(2023年)》报告显示,尽管通用算力目前仍占据74%的算力规模,但智能算力已经以惊人的速度增长,占比达到了25%。更值得注意的是,智能算力的增速同比上年增加了45%,这一增速甚至超过了总体算力的增速。 这一转变不仅体现了人工智能技术在现代社会中的广泛应用和重要性,也预示着未来算力领域的发展方向。随着技术的不断进步和应用的不断扩展,智能算力将继续保持高速增长,成为推动数字经济发展的重要力量。同时,这也对算力基础设施的建设和运营提出了更高的要求,需要不断创新和完善,以满足日益增长的智能算力需求。 3)算力服务泛在流动 云计算崛起之后,算力开始云化,分布化。边缘计算出现,算力还从云端下沉到通信网络的各个层级,遍布于云管端的各个角落。人工智能算力提升了其覆盖规模,实现生成式人工智能推理能力在边缘、终端等位置的部署和应用。随着边缘计算逐步进入稳健发展期,边缘计算与云计算、5G、区块链等其他技术的协同与融合需求进一步增加,推进人工智能在云-边-端的覆盖,满足无处不在的智能化需求。 4)算力设施绿色低碳 伴随人工智能对计算和存储能力要求的不断提升,芯片的功耗正越来越高,发热量也越来越大。在中国,面对大量涌现的人工智能大模型应用以及国家“双碳战略”和“东数西算”的逐步实施,为实现算力建设和能源消耗成本间的有效平衡,对算力基础设施进行功耗控制和改良,是从源头上进行节能减排的有效手段。通过积极探索模块化设计和部署,通过提升散热效率来降低能耗的液冷数据中心受到市场的关注。此外,提高可再生能源的占比,减少化石能源的使用,有助于降低电力成本,从而间接推动算力的绿色发展。 2.1.4算力发展挑战 我国算力基础设施发展仍有提升空间。整体来看,以人工智能大模型为代表的AIGC新应用、新需求的崛起,推动算力规模快速增长、计算技术多元创新、产业格局加速重构。大模型产业井喷式发展也带来算力紧缺、能耗激增等问题。当前我国算力发展仍面临不小挑战: 1)建设周期长 数据中心的建设需要经过设计、土建、机电安装、调试等多个阶段,整个建设周期长达1~2年以上,这难以满足各行业对算力持续高速增长的迫切需求。 2)能源利用率低,能耗居高不下 算力带来的能耗问题日益显现,据中国通信院数据显示2022年中国数据中心平均PUE为1.52,而国家及多地政府出台PUE值不高于1.25的严格限制,如何实现绿色低碳发展,降低算力的能耗,成为整个行业的重点研究方向。 3)传统机柜供电制冷难以匹配 随着GPU服务器等高性能设备的广泛应用,每台机架的功率可达40kW以上,远超过传统数据中心每机架7kW的功耗水平。这使得数据中心的供电、制冷系统需要全面升级改造,以适应新的算力需求。 4)管理运维效率低下 当前的数据中心通常存在两套独立的监控系统,即动力环境基础设施监控和IT设备监控。这种分离的系统架构使得运维人员难以根据IT设备的实际负载情况进行及时调优,导致整个数据中心的监控运维管理、能耗调优和故障预警效率低下。 5)算力技术更新换代快 3 OCTCAB01—2024 随着技术的不断发展,新的算力技术不断涌现,传统数据中心改造扩容难,无法第一时间升级新一代技术,面临建成即落后的窘境。 6)算力需求多维爆炸 算力正在从以DC为中心走向无处不在,走向边缘/超边缘/端,更有效地走进千行百业,这需要构建更加灵活敏捷的算力底座,实现泛在多维立体的算力分布。 7)算力建设的高投资 算力基础设施属于重资产和资本密集型行业,具有前期投入大、技术迭代快、建设门槛高等特点,其建设运