开放加速规范AI服务器设计指南 OpenAcceleratorAIServerDesignGuide 2023年8月 CONTENT 01 生成式AI的算力需求与挑战03 02 开放加速规范AI服务器开发背景04 03 开放加速规范AI服务器发展历程05 04 开放加速规范AI服务器设计指南06 4.1设计原则06 4.1.1应用导向原则06 4.1.2多元开放原则06 4.1.3绿色高效原则06 4.1.4统筹设计原则06 4.2设计指南07 4.2.1多维协同设计07 节点层面:07 (1)系统架构07 (2)OAM模块08 (3)UBB基板08 (4)硬件设计09 (5)散热设计11 (6)系统管理11 (7)故障诊断11 (8)软件平台11 集群层面:12 (1)集群网络与存储12 (2)整机柜13 (3)液冷13 (4)制冷13 (5)运维13 4.2.2全面系统测试14 (1)结构测试14 (2)散热测试14 (3)稳定性测试14 (4)软件兼容性测试14 4.2.3性能测评调优15 (1)基础性能测试15 (2)互连性能测试15 (3)模型性能测试15 (4)模型性能调优16 OpenAcceleratorAIServerDesign 01 生成式AI的算力需求与挑战 自OpenAI的ChatGPT发布以来,生成式AI技术获得了广泛关注,一系列开创性研究成果相继发布,引领了人工智能的新一轮创新浪潮。AI大模型是生成式AI的关键底座,得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高,大模型被认为具备了“通用人工智能AGI”的雏形。相比传统AI模型,大模型的训练使用了更庞大的数据,具有更巨量的模型参数和更发散的下游应用场景,对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此,全球范围内已经掀起了一场生成式AI革命,政策和资本驱动生成式AI技术加速商业化落地。 AI大模型发展需要庞大的AI算力支撑,大模型往往采用无标注、自监督的训练方法,使用海量数据做超大规模的模型训练,因而对于算力的需求和传统的模型训练相比也出现了3~4个数量级的提升。当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量” (PetaFlops/s-day,PD),即每秒千万 亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。参数量为2457亿的源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技企业加大投入生成式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。 随着市场对AI计算力需求的不断攀升,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势愈发显著。但因为各厂商在AI开发中采用了不同的技术路线,导致芯片的接口、互连、协议上互不兼容,而专有AI计算硬件系统开发周期长、研发成本高,严重阻碍了新型AI加速器的研发创新和应用推广。全球开放计算项目组织OCP发起开放加速规范OAI,但在推向产业落地的过程中,依然存在大量的定制化工作以及现有标准未能完全覆盖的领域,包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个方面。 02 开放加速规范AI服务器开发背景 最初的深度学习模型通过单张加速卡或者多卡间PCIeP2P通信的方式来满足模型训练和推理的计算需求。随着AI大模型的快速发展,加速卡间通信的数据量越来越多,仅仅通过PCIeP2P通信已经无法满足超大规模深度学习模型的通信需求。另一方面,单张AI加速卡的功耗随算力提升逐代显著增加,PCIe物理形态难以满足高功耗芯片的供电和散热需求。NVIDIA公司推出了非标准PCIeCEM形态的NVLINK接口的GPU加速卡,从而支持更高的功耗和更大的卡间互连带宽。但是,由于缺乏统一的业界规范,不同厂商的AI加速芯片无论在结构上还是电气特性上都存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。 2019年OCP成立OAI小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态,同时为了解决多元AI加速卡形态和接口不统一的问题。随后,为了进一步促进OAI生态的建立,OAI小组在OAM的基础上统一了AI加速 卡基板OAI-UBB(UniversalBaseboard)设计规范。OAI-UBB规范以8张OAM为一个整体,进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、ScaleOut方式。2019年底,OCP正式发布了OAI-UBB1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,开展了丰富的产品和应用实践,验证了开放加速技术的可行性,逐步构建起开放加速计算的生态体系。 03 开放加速规范AI服务器发展历程 2019年9月,在阿姆斯特丹举行的开放计算项目(OCP)区域峰会上,时任OCP基金会首席技术官BillCarter展示了由浪潮信息研发的通用加速器基板UBB,采用高密布线和22层板层实现单板支持全互连FC (Fully-connected)和混合立方互连HCM (HybridCubeMesh)两种拓扑形态,支持多种互连协议。 2019年11月,首个AI开放加速计算系统MX1发布,21英寸系统可支持多种符合OAM规范的AI加速器,采用了高带宽、双供电等技术,互连总带宽达到448GB/s12V供电最大功率300W,54V供电最大功率450W-500W,单节点设计支持8颗AI加速器,支持通过高速互连Scale-out扩展支持到32颗AI加速器,满足超大规模深度神经网络模型的并行训练需求。 2021年,浪潮信息发布开放加速AI服务器NF5498A5,采用19英寸4U高密异构加速计算架构,单节点集成8颗54V400W开放加速计算模块,2颗64核280W高性能CPU,卡间互连带宽448GB/s。 2022年,浪潮信息发布液冷开放加速AI服务器,并成功部署千卡级智算中心集群系统。 技术创新的最终目标是提升全社会生产力和生产效率,通常在产业发展初期,通过协同平台对多元市场主体的标准化是技术规模化应用的必要前提。实践证明,统一开放的产业标准会有效降低技术获取成本,推动创新技术普及,为产业发展赋能提速。当前,生成式AI技术和产业发展推动AI算力需求高速增长并迅速扩展,新兴的AI加速芯片创新亟需坚实的AI服务器系统平台支撑。为此,浪潮信息拟定了《开放加速规范AI服务器设计指南》,指南基于浪潮信息在开放加速计算的产品研发和工程实践经验,面向当下生成式AI实际应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员可以更快更好地开发符合开放加速规范的OAM并适配开放加速AI服务器,从而为广大用户提供最佳匹配应用场景的AI算力产品方案。 04 开放加速规范AI服务器设计指南 4.1 设计原则 4.1.1应用导向原则 无论是加速卡的设计还是系统的设计都要聚焦实际应用场景,在充分考虑业务特点、模型特征、部署环境的基础上,以提供“用得了”、“用得起”、“用得好”的解决方案为目标,自上而下完成开放加速计算系统的设计规划,避免过度冗余设计和一味追求性能带来的时间、空间、资源和成本的浪费,最终实现高效适配、高效部署,节省产业和社会总成本。 4.1.2多元开放原则 兼容适配更多技术体系,通过开源、开放的方式建立可兼容底层硬件差异的异构协同开发平台,突破异构算力适配、异构算力调度等关键技术,加速基础软件、商用软件和开源软件的生态构建,做到从硬件到软件、从芯片到架构、从建设模式到应用服务开放化、标准化,打通人工智能软硬件产业链,从而壮大开放加速计算技术和产业生态。 4.1.3绿色高效原则 随着AI训练芯片的功耗不断增长,用于AI训练的机器单机柜功率密度将大幅增加,传统的风冷模式已无法满足制冷散热需求和PUE指标要求,需要加速液冷散热、高效供配电、能效监测、智能运维等技术在开放加速计算节点和集群层面的全面布局和应用。 4.1.4统筹设计原则 生成式AI大模型参数量和训练数据复杂性快速增加,需要从规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互连、存算平衡的可扩展集群系统,以满足AI大模型的训练需求。 4.2 设计指南 面向生成式AI的大模型算力系统的构建是一项复杂的系统工程,基于上述设计原则,以提高适配部署效率、提高系统稳定性、提高系统可用性为目标,进一步归纳总结出开放加速规范AI服务器的设计方法。 多维协同设计 节点层 ·架构(计算/存储/扩展) ·硬件(互连拓扑/高速) ·结构 ·散热(风冷/液冷) ·供电 ·管理 ·故障诊断 ·软件(聚合/调度/释放) 集群层 ·网络 ·存储 ·整机柜 ·液冷 ·制冷 ·运维 全面系统测试 结构 干涉\应力检查、安装扭矩测量 散热 芯片\显存温度监控、噪音测量 压力 功耗、EDPP、模型、带宽压力 稳定性 软件兼容性 平台、算子、OS、框架、模型 性能测评调优 基础性能 ·GEMMTFLOPs ·OAMMemoryStream ·PeakTFLOPs 互连性能 ·PCIebandwidth □OAMpbandwidth ·RDMAperformance 模型性能 ·主流模型:ResNet/Bert/SSD ·基础模型:LLaMA/SD/Yuan 虚拟化性能 图1.开放加速计算系统全栈设计方法 4.2.1多维协同设计 一般而言,全新的AI服务器系统完整设计周期需要14~18个月,基于已有产品定制化改型,根据改动量大小开发周期也要6~12个月不等,AI加速卡从芯片流片到板卡回样则需要至少6个月。如果系统厂商和芯片厂商没有做好设计协同,系统或芯片任何一方的改型将会带来巨大的时间成本和巨额的资金投入,并严重影响产品上市进度。此外,面向AIGC的计算系统交付模式不再是单一服务器,绝大多数情况最终部署的形式是包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等在内的一体化高集成度算力集群。为了实现全局最优的性能、能效或TCO指标,提高系统适配和 集群部署效率,需要系统厂商和芯片厂商在系统和芯片规划初期做好全方位、多维度的协同,最大化减少定制开发内容。 节点层面: (1)系统架构 为满足大模型训练模型参数规模的不断增大给模型训练带来的计算、存储、通信等方面的挑战,系统架构设计将赋能AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。OAM是OCP-OAI小组制定的AI加速模块接口规范,现已发布OAMv1.5规范,OAM模块承担起单个GPU节点的AI加速计算能力,通过符合UBBv1.5base规范的基板完成OAM间的7P×8FC(FullyConnect, 全互连)、6P×8HCM(Hybridcubicmesh,混合立方互连)等高速互连拓扑实现多OAM数据低延时共享,利用RDMA网络部署等优化通过OSFP/QSFP-DD线缆实现对外拓展完成集群互连,突破了服务器集群在GPU计算资源、通信效率上的瓶颈,最 大程度发挥OAM计算性能并降低通信带宽限制。OAM模块透过PCI