AI服务器白皮书(2023年)ODCC-2023-01005 1 [编号ODCC-2023-01005] AI服务器白皮书(2023年) 开放数据中心委员会2023-09发布 AI服务器白皮书(2023年)ODCC-2023-01005 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I AI服务器白皮书(2023年)ODCC-2023-01005 编写组 项目经理: 穆浩然中国电信股份有限公司研究院 李宁东中国信息通信研究院(云大所数据中心团队)工作组长: 王峰中国电信股份有限公司研究院 贡献专家: 郭亮中国信息通信研究院(云大所数据中心团队)谢丽娜中国信息通信研究院(云大所数据中心团队)王望子中国电信股份有限公司研究院 苏丽天翼云科技有限公司 白秀杨天翼云科技有限公司崔立志天翼云科技有限公司李萌天翼云科技有限公司 刘鑫华为技术有限公司 程龙飞华为技术有限公司 裴博华为技术有限公司 徐进华为技术有限公司 李文文华为技术有限公司 李鹏华为技术有限公司 刘凯明华为技术有限公司 胡然华为技术有限公司 高斯亮华为技术有限公司 赵梓竣华为技术有限公司 吴菁华英特尔(中国)有限公司 II AI服务器白皮书(2023年)ODCC-2023-01005 王海宁英特尔(中国)有限公司夏磊英特尔(中国)有限公司龚海峰英特尔(中国)有限公司金启华英特尔(中国)有限公司杨崇光英特尔(中国)有限公司马建伟英特尔(中国)有限公司蒋亚坚英特尔(中国)有限公司袁超英特尔(中国)有限公司 王赜曙光信息产业股份有限公司贺群曙光信息产业股份有限公司 杨鑫浪潮电子信息产业股份有限公司张政浪潮电子信息产业股份有限公司刚宪秀浪潮电子信息产业股份有限公司胡彭禹浪潮电子信息产业股份有限公司张文忠浪潮电子信息产业股份有限公司温春光浪潮电子信息产业股份有限公司王伟新华三信息技术有限公司 杨金铎新华三信息技术有限公司汪新新新华三信息技术有限公司 吴佳珺宁畅信息产业(北京)有限公司李素红宁畅信息产业(北京)有限公司 李宁宁宁畅信息产业(北京)有限公司赵雷宁畅信息产业(北京)有限公司张安娜中科可控信息产业有限公司 秦晨中科可控信息产业有限公司于山山上海曦智科技有限公司 孙斌翔上海曦智科技有限公司 II AI服务器白皮书(2023年)ODCC-2023-01005 刘军篆芯半导体(南京)有限公司王星篆芯半导体(南京)有限公司柳雷篆芯半导体(南京)有限公司王磊沐曦集成电路(上海)有限公司赵杨沐曦集成电路(上海)有限公司 I AI服务器白皮书(2023年)ODCC-2023-01005 前言 在当前快速发展的信息时代,人工智能(AI)已经成为引领科技革命和产业升级的重要引擎。AI技术的飞速进步,推动了各行各业的变革与创新,而AI服务器作为支撑和驱动AI应用的核心基础设施,正扮演着越来越重要的角色。 ODCC始终关注AI服务器产业的发展,联合相关单位共同编写本白皮书,对AI服务器需求、场景和AI服务器通用架构、关键技术、评测指标、发展趋势等方面进行了详细的梳理,以期更进一步推动AI服务器的发展。本白皮书旨在深入探讨AI服务器在硬件和软件方面的要求,并将重点关注AI服务器在深度学习、大规模数据处理、计算机视觉、自然语言处理等应用领域中的关键作用。我们将对当前市场现状进行深入分析,并展望未来AI服务器技术的创新方向和实际应用。本白皮书也同步探讨AI服务器在不同领域的应用实践,以及其对于数字经济、科技创新和产业转型的深远影响。通过深入研究AI服务器的发展现状、趋势和挑战,我们可以更好地把握其在未来的重要地位,为推动人工智能技术的发展和应用创造更加有利的条件。同时,本白皮书也旨在为相关领域的决策者、研究者和从业者提供有益的参考,共同推动人工智能与数字经济的融合发展。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 V AI服务器白皮书(2023年)ODCC-2023-01005 目录 版权声明I 编写组II 前言V 一、研究背景1 二、人工智能发展历程2 三、大模型时代的开启与挑战7 (一)预训练大模型潜力涌现,强人工智能曙光出现9 (二)ChatGPT引发AI产业创新,开启大模型新纪元12 (三)国内外厂商布局大模型,千亿级参数量推动算力需求增长20 四、AI服务器核心需求22 (一)并行处理能力扩展23 (二)与计算力匹配的高性能存储25 (三)支持高速数据传输的互联网络26 (四)强散热27 五、AI服务器架构及关键技术27 (一)AI服务器总体架构29 (二)异构计算加速计算芯片31 1.GPU:AI算力的核心32 2.FPGA47 3.ASIC54 (三)主板总线61 1.PCIe/PCIeSwitch61 V AI服务器白皮书(2023年)ODCC-2023-01005 2.NVlink/NVSwitch68 3.厂商方案76 (四)分布式训练82 1.集群网络83 2.集群存储95 (五)液冷技术106 1.液冷技术背景106 2.液冷技术发展107 (六)电源117 1.功率118 2.效率118 3.集中式供电120 六、典型AI服务器配置122 (一)华为Atlas800122 1.典型配置123 2.技术特点124 (二)华为Atlas900PoD集群基础单元124 1.典型配置125 2.技术特点126 (三)中科可控X7840H0127 1.典型配置127 2.技术特点128 (四)宁畅X660G45LP128 1.典型配置129 V AI服务器白皮书(2023年)ODCC-2023-01005 2.技术特点130 (五)浪潮NF5698G7130 1.典型配置131 2.技术特点131 (六)H3CUniServerR5500G6132 1.典型配置133 2.技术特点134 七、行业情况分析135 (一)行业现状135 1.智能算力行业现状:政策支撑创新,市场前景广阔135 2.AI服务器行业现状:中国市场领军,创新驱动未来140 3.AI芯片行业现状:技术蓬勃发展,市场迅速扩张142 (二)行业趋势145 1.技术创新塑造AI服务器未来145 2.产业生态建设塑造AI服务器市场格局147 3.多元主体合作推动AI服务器的未来149 4.绿色可持续是AI服务器未来的方向152 5.标准化推动AI服务器的未来发展155 (三)应用实践157 1.AI服务器在智算中心的应用实践157 2.AI服务器在新兴技术中的应用160 3.AI服务器在典型行业的应用实践162 V AI服务器白皮书(2023年)ODCC-2023-01005 AI服务器白皮书(2023年) 一、研究背景 人工智能是当下热点,作为计算能力的主要提供者,面向人工智能的服务器技术再次成为业界关注的焦点。 随着大模型的兴起和深度学习等复杂任务的崛起,AI服务器需求日益增长。AI服务器不仅需要具备高性能计算能力,还需要应对大规模数据处理和存储的挑战,以及高速数据通信和互连的需求。此外,超大规模集群是大模型训练不可忽视的关键要素。 AI服务器在各个领域发挥着重要作用,为数字经济的高速发展提供了强大的支撑。首先,AI服务器为数据的处理和分析提供了高 效的计算能力,加速了数字经济中海量数据的挖掘和利用过程。例如在金融领域,AI服务器通过深度学习等技术,实现了更精准的风险评估和投资决策,为金融业务提供了更有竞争力的服务。其次,AI服务器推动了人工智能技术在各个行业的应用与落地。在医疗领域,AI服务器助力医疗影像诊断和药物研发,提高了医疗效率和准确性。同时,AI服务器也促进了科技创新的发展,为科学家们提供了强大的计算支持,加速了科技突破和创新的进程。 随着AI技术的不断演进,AI服务器也面临着新的发展趋势和挑战。一方面,AI服务器将更加注重高性能和低能耗的平衡,以满足不断增长的计算需求。另一方面,AI服务器的架构和算法优化也将 成为关键,以提升计算效率和性能。此外,AI服务器在数据安全和 1 AI服务器白皮书(2023年)ODCC-2023-01005 隐私保护方面也面临挑战,需要在保证计算性能的同时,保障数据的安全和隐私。 二、人工智能发展历程 人工智能(ArtificialIntelligence,AI),是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的前沿综合性学科。从上世纪30-40年代开始,人工智能从早期的数理逻辑萌芽,到后来的专家系统,再到神经网络的出现,几经起落,直到最近这轮以Transformer为基础的人工智能浪潮,算力需求一直是推动人工智能发展的主要动力。 第一阶段:萌芽阶段(1956年以前) 1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。十七世纪法国物理学家、数学家B.Pascal制成了世界上第一台会演算的机械加法器。十八世纪德国数学家、哲学家Leibnitz提出了把形式逻辑符号化,奠定了数理逻辑的基础。1934年美国神经生理学家W.McCulloch和W.Pitts建立了第一个神经网络模型,为以后的人工神经网络研究奠定了基础。英国数学家A.M.Turing在1936年提出图灵机模型并在1950年提出图灵测试,被誉为“人工智能之父”。1946年美国科学家J.W.Mauchly和Eckert等人共同发明了世界上第一台电子数字计算 2 AI服务器白皮书(2023年)ODCC-2023-01005 机ENIAC,之后VonNeumann对其进行改进,为人工智能的研究奠定了物质基础。这些都为人工智能的孕育和诞生做出了巨大的贡献。 第二阶段:诞生及第一个兴旺阶段(1956年-1973年) 1956年“人工智能”首次在达特茅斯会议中被提出,从而开创了人工智能的研究方向和学科,并推动了全球第一次人工智能浪潮的出现。这段时期研究的主要方向是机器翻译、定理证明、博弈等,相继涌现了一批显著的成果:1957年Simon等开发了最早的一种AI程序设计语言IPL(InformationProcessingLanguage);1959年,A..M.Samuel研制了能自学习的跳棋程序并击败了A..M.Samuel本人;1960年McCarthy建立了人工智能程序设计语言LISP;1964年,人工智能科学家发明了一个能证明应用题的机器STUDENT;1965年J.Robinson提出了消解原理,为定理的机器证明做出了突破性的贡献;1966年,MIT发布一台叫做ELIZA的机器,实现简单人机对话;1969年国际人工智能联合会议(internationalConferencesOnArtificialIntelligence)成立,它标志着人工智能这门新兴学科得到了世界范围的公认。在当时,一系列的成功使人工智能科学家们认为可以研究和总结人类思维的普遍规律并用计算机模拟它的实现,乐观地预计可以创造一个万能的逻辑推理体系。 第三阶段:第一个萧条波折阶段(1973年-1980年) 3 AI服务器白皮书(2023年)ODCC-2023-01005 由于人工智能所基于的数学模型和数学手段存在的缺陷和呈指数增加的计算复杂度等问题,当人们进行了比较深入的工作后,发现逻辑证明器、感知器、增强学习等等只能做很简单、非常专门且很窄的任务,稍微超出范围就无法应对。因此,各国政府勒令大规模削减人工智能方面的投入,人工智能在这一时期受到了各种责难。以1973年《莱特希尔报告》的推出为代表,象征着人工智能正式进入寒冬。这之后的约十年间,人工智能鲜有被人提起。 第四阶段:第