智算中心基础设施演进 白皮书 致谢 感谢《智算中心基础设施演进白皮书》撰写组成员(排名不分先后): 维谛技术编委组:顾华、张迪、雷爱民、赵玉山、王腾江、谭红丽、王安林、李朝辉、赵呈涛、王超、郭昊、刘东泽、李旭、韩会先、邹宇飞、姜峰等。 深知社编委组:高昆、董卫卫、陈淼、王谋锐、高晓明等。 以及在白皮书撰写过程中,通过深谈会、特约访谈等形式分享专业观点和经验的行业专家们: 李典林、井汤博、何建、杨瑛洁、沈诚、王宁、夏忠谋、王强、陶志峰、唐虎、王洪涛、李巍、刘凯、肖军、李振江、刘阳迁、符晓、肖波、苏志勇、方黎达、师宇清、陈必成、丁海峰、叶飞、林密、张双华、于淼、杜华锐等。 感谢你们的辛苦付出和努力,白皮书的每一个知识点的落实离不开你们的付出。 希望《智算中心基础设施演进白皮书》可以为通算中心(传统数据中心)向智算中心(AIDC)的演进过渡中贡献出一份力量! 序言 近两年来,我们目睹了人工智能(AI)以惊人的速度发展和不断成熟,它正在改变我们的生活、工作和与技术交互的方式,它将会彻底改变从医疗、金融到交通和娱乐等众多行业。以ChatGPT为代表的生成式人工智能(AIGC)因其显著的进步和广泛的应用范围而引起各行各业极大的关注。它能够生成与人类语言非常相似的文本,生成高清图片,视频,影片,甚至编程,颠覆了大众对人工智能(AI)的传统认知,吸引了普通大众乃至各个领域的专家的重点关注。 随着人工智能(AI)应用变得越来越普遍和具有影响力,其对算力的需求也随之快速增长,人工智能(AI)业务负载也正在成为数据中心负载的重要组成部分,并且要求必须以集群的方式进行部署。因此,机柜的功率密度和数据中心的规模将大幅提升,给数据中心物理基础设施(包括供配电、制冷等)带来颠覆性的挑战。换句话说,这意味着人工智能(AI)将颠覆通算中心(传统数据中心)的设计和运营。为应对这些挑战,我们需要重新思考数据中心从IT层面到物理基础设施层面的规划和设计,从而建设出可以适应未来IT技术不断发展的具有弹性和可扩展性的智算中心(AIDC)。 维谛技术作为英伟达(NVIDIA)官方认可的解决方案合作伙伴,很早就开始关注智算中心(AIDC)中的物理设施基础架构未来究竟会有哪些颠覆性的变革。回顾数据中心行业过去30年的发展,其基础设施层面的发展基本遵循一个线性的功耗密度提升和智能化提升的模式,维谛技术在此过程中,一直以技术和质量来引领全球行业的发展。但是从2024年的年初开始,人工智能(AI)的发展进入类似于指数的增长曲线,从单个GPU的计算能力到集群的规模,从单机柜的功率密度到液冷的普及速度,似乎都被按下了加速键,数据中心行业正在经历一个自己的“寒武纪”。面对如此快速变化的时代,市场和行业的信息和经验也都是碎片化的,国家之间、企业之间、个人之间也都存在着巨大的信息壁垒,产业生态和技术格局存在着重大的不确定性。作为数据中心行业的全球领先企业,维谛技术希望通过一种创新的形式,通过收集市场上分散的经验和信息,整理出智算中心(AIDC)的机电系统架构演进趋势和挑战,从而做出一个系统性和中立性的分析和预测,希望通过提炼出的观点和意见,能够对数据中心行业的上下游起到一定的归纳和参考意义,对数据中心行业的健康发展有一定的促进作用。 而深知社(DeepKnowledgeCommunity)作为中国具有号召力的国际化数据中心产业工程师社群,同样在这段时间里也在思考此类问题。经过与维谛技术深度沟通后,受维谛技术委托,由深知社对《智算中心基础设施演进白皮书》做系统的行业调研、分析、提炼以及白皮书撰写。 因此,深知社于2024年4月-6月,对国内业已实施的智算中心、超算中心的近50位一线资深技术专家进行深度访谈和调研,并结合深知社海量的全球动态深度知识库,由DKI(DeepKnowledgeIntelligence)研究员团队执笔,进行本次白皮书的撰写。这本白皮书访谈、调研和写作的专家和工程师均以个人名义参与,使得这本白皮书能够最大程度以中立、系统和开放的角度,深度还原中国数据中心工程师群体对智算中心(AIDC)机电架构演进和发展的经验和判断。 目录 一. 智算中心的演进分析 6 1.1智能算力的发展情况概述 6 1.2智算芯片结构演进 8 1.3智算用户侧诉求演进 8 1.4机柜功耗高密度化演进 9 1.5静态负载向动态负载演进 11 二. 智算中心选址与规划 12 2.1智算中心选址 12 2.2智算中心建筑形式 13 序言的最后,必须要感谢维谛技术编委组的专家团队对深知社的调研和写作过程的大力支持,维谛技术的行业大局观、产业生态观、技术发展观同样给此次白皮书的访谈对象和DKI研究员团队留下深刻的印象。 希望各位数据中心同行在阅读完这本白皮书之后,对于AIDC的演进趋势有更多、更深、更系统的理解。因水平和经验有限,这本白皮书一定会有一些不足甚至错误之处,如您有任何意见或疑问,也请随时与深知社取得联系(微信公众号:DeepKnowledge,或官网网站www.deepknowledgecommunity.com),我们将认真听取您的反馈和意见,在未来不断提升。 深知社编委组 2024年8月 2.3智算中心建筑布局13 2.4智算中心房间功能需求14 2.5智算中心装饰装修需求14 2.6已有建筑改造为智算中心15 三.智算中心电气链路架构挑战及演进趋势16 3.1智算中心电气链路的挑战16 3.1.1电力能源接入挑战16 3.1.2配电与IT机房的面积比挑战16 3.1.3电能利用率挑战17 3.1.4能源利用效率(PUE)挑战17 3.1.5服务器电源形式挑战17 3.1.6智算负载分级供电的挑战18 3.1.7末端配电方式挑战18 3.1.8负载动态冲击挑战19 3.1.9环境温度突变挑战19 3.2智算中心供配电系统的演进趋势—“智算电能管理链”19 3.2.1电力能源系统向“算电协同”演进19 3.2.2简化供电系统架构演进20 3.2.3智算负载分级供电演进23 3.2.4预制电力模组演进23 3.2.5UPS向MW级,超高效及高密化演进24 3.2.6锂进铅退/储备一体演进25 目录一.智算中心的演进分析 3.2.7末端电压等级提升及全直流系统演进26 3.2.8SST的前沿应用探索27 3.2.9包间白地板交付方式的演进28 3.2.10融合末端配电方式的演进28 3.3新能源、储能在智算中心的应用分析30 3.3.1新能源在智算中心应用是必然趋势30 3.3.2新能源发电在智算中心消纳仍面临诸多挑战31 3.3.3储能系统在智算中心应用的多重价值32 3.4智算电能管理链33 四.智算中心制冷系统架构34 4.1制冷技术发展趋势34 4.2制冷系统架构的分类及方案35 4.2.1芯片侧36 4.2.2机柜侧/末端空调侧(风冷技术)37 4.2.3机柜侧/末端空调侧(液冷技术)41 4.2.4冷源侧42 4.3制冷技术应用评估43 4.4智算中心制冷应对策略45 五.智算中心预制模块化技术的应用分析46 5.1智算中心预制模块化技术发展趋势46 5.2电气预制模块化趋势47 5.3制冷预制模块化趋势49 5.4智算中心预制模块化趋势50 六. 总结与展望 52 七. 附录 54 7.1名词解释 54 7.2主要作者介绍 56 7.3版权声明 57 5.5预制模块化技术的应用与挑战51 过去的十几年,是通算中心(传统数据中心)(见附录名词解释)快速发展的阶段,主要以云计算为主。随着生成式人工智能(AIDC)(见附录名词解释)的横空出世,人工智能(AI)(见附录名词解释)在医疗、金融、制造业、零售业和交通运输等领域产生了广泛的应用需求,通算中心(传统数据中心)已经逐渐无法满足日益增长的计算需求,智算中心(AIDC) (见附录名词解释)应运而生,它支持大规模的数据处理、机器学习、深度学习和其他智能算法的运算需求,得益于人工智能的革命性发展,智算中心的规模和处理能力正在呈指数级增长,以满足日益增长的算力需求。智算中心已成为通算中心(传统数据中心)升级发展的必然趋势。 本章节结合目前智能算力的发展情况,对智算中心(AIDC)在芯片结构演进、用户侧诉求演进、高密度化演进、负载特性演进等进行分析和总结,作为规划选址、电力系统、制冷系统及预制化等后续章节的依据和基础。 1.1智能算力的发展情况概述 算力发展:随着数字经济时代的到来,数据成为新的生产资料,而算力则成为新的生产力。在万物互联的背景下,数据量爆炸式增长,对算力的需求达到前所未有的高度。从城市到家庭到个人,从政府到行业到企业,以及新能源汽车智能化操控、短视频内容推荐、电商平台个性化推荐等,每个生活和生产场景均离不开算力对信息的处理,算力已成为社会发展的重要动能。可以预见,算力将无处不在,算力服务也将像水、电一样,成为一种社会基础设施。 算力分类:按照系统构成、技术特征和应用领域的差异,算力可分为三类:通用算力、超算算力和智能算力(见附录名词解释)。 由于超算中心属于高度定制化的算力中心,不在本白皮书的讨论范围内。本白皮书将重点讨论通用算力中心(简称通算中心,即传统数据中心)向人工智能(AI)算力中心(简称智算中心)的演进。 智算业务:智算业务在应用中包括两个环节:训练和推理(见附录名词解释)。 智算业务发展趋势:根据IDC的统计数据(见图1),2022年部署的智算算力里,训练算力占比为41.5%,推理算力占比达到58.5%;预计到2026年,推理算力的占比将会提升到62.2%,训练算力降低到37.8%。这种趋势也符合智算被广泛应用的科学的比例变化,而随着推理算力的普及,生成式人工智能(AIGC)的应用将引起范式革命(见附录名词解释)(见图2)。 100% 80% 60% 40% 20% 0 图1:云端推理占比逐步提升图2:生成式人工智能AIGC引发范式革命 AIGC 专业制作 PGC 用户制作 UGC AI辅助用户制作 AIUGC 训练推理 内容数量 其中智能算力规模达到70EFLOPS。“东数西算”干线光缆规划已超过180条,骨干网互联带宽扩容到40T,全国算力枢纽节点时延20ms时延圈已经覆盖全国主要城市。 1.2智算芯片结构演进 2020202120222023202420252026 内容制作模式 数据来源:IDC,中信建投,腾讯研究院 智算算力(智算中心)和通用算力(传统数据中心)在服务器芯片结构上存在本质的差异。 通用算力芯片架构相对单一,主要以CPU为算力核心,基于CPU和云存储集群提供的相关云服务,通常由多个物理服务器组成,通过网络连接形成一个虚拟化的计算环境。 市场表现:根据PrecedenceResearch市场预测(见图3),从2023年至2030年,全球人工智能(AI)市场有望实现超过35%的复合增长率。 图3:人工智能(AI)全球市场规模及预测(单位:亿元人民币) 114554 82651 +38.2% 59686 43140 31209 22598 16377 6267 862411879 2021202220232024E2025E2026E2027E2028E2029E2030E 数据来源:PrecedenceResearch 智算中心国内外市场发展情况 中国:云计算、大数据以及物联网等企业在智算中心逐步摸索和推广应用阶段 美国:凭借在云计算、大数据等先进技术上的优势和研发能力,在智算中心技术的创新和应用方面取得显著成就 欧洲:如英国、法国和德国,基于机器翻译、自动驾驶等研发需求,为各类企业提供高效稳定的智算中心服务 新兴市场:如马来西亚、印度、巴西等国家在积极布局智算中心产业 近年来,我国智算产业随着算力产业的发展快速增长,政府鼓励企业进行智算中心技术研发与服务能力的提升,智算中心应用与产业化成果显著。2024年政府工作报告中明确提出:适度超前建设数字基础设施,加快形成