英特尔中国科学计算实战手册趋势篇 1 英特尔中国科学计算实战手册 趋势篇 04 应用优化实战篇 Contents 08应用实践中的科学计算平台 10应用于CAE仿真分析的科学计算平台 11•CAE仿真分析技术 11•面向仿真分析软件的英特尔优化 18应用于分子动力学的科学计算平台 19•分子动力学技术 19•面向英特尔®架构平台的分子动力学软件优化 27应用于生命科学的科学计算平台 28•生命科学与高性能的科学计算平台 28•面向英特尔®架构平台的生命科学软件优化 35面向英特尔®至强®CPUMax系列处理器的配置和调优 36•全局优化配置 36•“仅HBM”与“HBM缓存”内存模式下优化配置 37•“HBMFlat”内存模式下优化配置 目录 基准测试实战篇 40Linpack基准性能测试英特尔®发行版 40•Linpack基准性能测试英特尔®发行版简介 41•配置Linpack英特尔®发行版 41•运行Linpack英特尔®发行版 42•Linpack英特尔®发行版对异构计算平台的支持 42•提升运行性能 43•面向英特尔®至强®CPUMax系列处理器的运行 44面向英特尔®架构优化的HPCG基准测试 44•面向英特尔®架构优化的HPCG基准测试简介 45•使用面向英特尔®架构优化的HPCG基准测试 45•选择最佳参数配置和ProblemSizes 45•面向英特尔®至强®CPUMax系列处理器的运行 46面向英特尔®架构平台编译并运行的Stream基准测试 46•编译前准备 46•编译Stream基准测试 47•运行Stream基准测试 47•面向英特尔®至强®CPUMax系列处理器的运行 产品技术篇 趋势篇英特尔中国科学计算实战手册 2 英特尔中国科学计算实战手册趋势篇 3 50第四代英特尔®至强®可扩展处理器 52英特尔®至强®CPUMax系列 53英特尔®高级矢量扩展512(英特尔®AVX-512) 54英特尔®oneAPI工具套件 55英特尔®MPI库 56英特尔®oneAPI数学内核库(oneMKL) 56基于LLVM的英特尔®编译器 57英特尔®oneAPIDPC++/C++编译器 58英特尔®Fortran编译器 58英特尔®vTune™Profiler 59英特尔®TraceAnalyzerandCollector(ITAC) 英特尔中国科学计算实战手册 趋势篇 今天,在科学研究和技术实践各领域,以计算机和智能为代表的信息技术已成为加速创新的关键力量,作为现代科技三大支柱之一的科学计算,更是在其中发挥着无可替代的作用。尤其是一些领域,随着科学研究的深入,需要处理的数据量越来越大,算法也日益复杂,需要计算机系统大幅提高性能、加快处理速度来予以支撑。例如,在流体力学领域,一些仿真模拟场景中所需处理的网格动辄数以亿计;在气象预测领域,气象机构每年从卫星、飞机或观测站等获取的气象数据多达PB级别。在其它如天文、生命科学等领域同样如此,大规模方程计算和海量数据处理,虽然为探索未知开辟着新路径,但其计算过程就犹如黑洞一般会大幅榨取计算资源,让运算变得异常困难,也带来了巨大的成本。 在技术的落地实践、工程实现阶段,这一现象就更为突出。例如在制造行业,在设计研发阶段开展高精度的仿真模拟,不仅能大幅降低物理原型/实验的数量和成本,还能提高设计质量和效率,缩短新品研发上市时间,进而提升竞争力。但实施大规模仿真任务,往往需要数天乃至以周计才能完成,中间还可能还会因基础设施性能不足(例如内存带宽性能不足等)而中断,无法获得预期的效果。 为应对上述挑战,拥有更强性能的科学计算平台正应运而生且不断迭代进化,除了拥有比普通计算机系统更强的计算、存储和IO等基础能力,以及操作系统、驱动程序、文件系统、编译器和应用软件支持外,它还需要依托并行性(同时处理多项任务)和分布式(在多个节点处理任务)特性来实现更大规模的算力部署,以及计算的高效率和运行中的高稳定性。2023年6月25日,英特尔宣布,Aurora超级计算机在阿贡国家实验室完成部署,这成为全球首台峰值性能超过2Exaflops(1Exaflops=100亿亿次浮点指令/秒)算力的超级计算机1。 图1-1-1Aurora超级计算机 基于更强劲的性能和进一步优化的计算架构,科学计算平台,尤其是其中的佼佼者们正在千行百业中承担起越来越重要的角色。从传统的天文、物理、生物、气象等研究,到金融服务、生产制造、石油勘探等生产实践,再到新型产业如新材料研究、新药物研究、 基因测序等工程探索,科学计算平台都正帮助人们加速科学发现、优化业务流程,进而创造更美好的生活。 •制造领域:由科学计算平台提供支持的计算机辅助工程 (ComputerAidedEngineering,CAE)正广泛用于产品设计与制造过程,例如在航空航天、船舶制造中,借助计算流体动力学(ComputationalFluidDynamics,CFD)和有限元分析 (FiniteElementAnalysis,FEA)软件,能更好地模拟碰撞、噪声、振动、硬度和应力等,可加速结构分析,进而在降低研发制造成本的同时,为用户提供更优质的产品。 •生命科学:科学计算平台也被用于基因组分析、冷冻电镜数据分析等生命科学领域,助力健康医疗、制药产业的技术创新和应用。例如在制药行业,研究者可以借助科学计算平台与分子动力学模拟软件,来设计药物和模拟测试药物的有效性,而这不仅可缩短新药研发过程,也能够提高新药的安全性。 •气象预测:科学计算平台能通过对浩如烟海的气象数据展开处理和分析,来提升气象预测的精准度,进而帮助人们更有效应对灾害天气,如高温炎热、飓风等,也能对农业、风力发电等高度依赖气象预测领域的生产经营提供支持。 除此之外,科学计算平台同样也在太空探索、金融风险防范以及石油勘探等众多领域发挥巨大作用,此处不再一一赘述。而随着科学计算在千行百业重大创新的加速作用不断展现,其市场规模也得以高速扩展。有研究表明,2022年全球科学计算市场规模已达360亿美元,预计到2027年这个数据将达499亿美元,年复合增长率(CompoundAnnualGrowthRate,CAGR)达6.7%2。 随着科学计算应用范围的不断扩大,多样化的应用实践场景也对其平台性能提出了更高要求,需其通过架构创新、软件优化来应对更大规模计算带来的效率、成本等挑战。尤其随着人工智能 (ArtificialIntelligence,AI)、大数据(BigData)以及云计算 (CloudCompute)等前沿IT技术不断被引入科学计算应用场景,使得在强化硬件基础设施之上,通过各类优化软件和加速库,来提升科学计算平台的效能,也成为了各行各业使用者所关注的焦点。 一直以来矢志于在科学计算领域发挥“核芯”作用的英特尔,除了提供英特尔®至强®可扩展处理器系列、英特尔®至强®CPUMax系列等先进算力平台产品外,也在持续通过英特尔®oneAPI、英特尔®AVX-512等软件和技术,为科学计算平台的优化和性能增强提供更多助力。在下一篇“应用优化实战篇”中,我们将就面向英特尔®架构的CAE仿真分析、分子动力学以及生命科学相关软件的优化编译和运行,进行细节剖析和示例参考。 趋势篇英特尔中国科学计算实战手册 4 趋势篇 04 5 05 1更多信息请参阅:https://www.alcf.anl.gov/aurora2数据援引自marketsandmarkets报告《High-performanceComputing(HPC)MarketbyCompnent,ComputationType(ParallelComputingDistributedcomputingandExascaleComputing),Industry,Deployment,ServerPriceBand,Verticals&Region-2027》:https://www.marketsandmarkets.com/Market-Reports/Quantum-High-Performance-Computing-Market-631.html 趋势篇英特尔中国科学计算实战手册英特尔中国科学计算实战手册趋势篇 67 应用优化实战篇 0607 英特尔中国科学计算实战手册 应用优化实战篇 应用实践中的科学计算平台 今天,各类高性能的科学计算平台已在工业设计制造、生命科学、医疗健康、气象环境、航空航天获得了广泛运用,承担起产品设计、数据分析和模型优化等工作。与普通的计算场景不同,科学计算平台在实践应用中,对平台的基础算力、内存带宽、并行计算能力以及面向不同应用的专门加速库都有着较高要求。 因此在各个应用实践场景中,使用者在选择适合的硬件基础设施之外,也有必要针对场景的需求以及硬件基础设施的特性,对科学计算平台进行优化与增强。使用者部署在科学计算平台上的各类应用,如OpenFOAM、Relion等,通常是通过下载源代码(从Github网站或Git本地仓库)再进行编译的方式进行部署和运行,因此在编译和运行的过程中对各项参数进行合理配置,是帮助使用者们获得更优性能的有效手段(根据任务需求,通过各型英特尔®编译器执行编译过程同样也是重要的优化途径)。 此外,几乎所有的科学计算应用都会采用多节点部署和并行计算的方式来提升计算效率,缩短处理时长,因此对多节点并行计算方式的优化也是使用者应当关注的重点。在实战中,使用者通常需要关注以下方面: •计算速度:这一方面取决于所选择核心算力芯片的内核数量,主频、微架构设计以及末级缓存容量等,另一方面也应考虑芯片的指令集架构(InstructionSetArchitecture,ISA),例如对SIMD(SingleInstructionMultipleData,单指令多数据 (SingleInstructionMultipleData,SIMD)的支持,这对于广泛使用并行计算的科学计算应用而言,无疑非常重要。同时,英特尔®睿频加速技术(Intel®TurboBoostTechnology)、英特尔®超线程技术(Intel®Hyper-ThreadingTechnology)、增强型英特尔®SST(EnhancedIntel®SpeedSelectTechnology)等基于英特尔®架构的处理器性能增强,也能为科学计算任务的加速提供助力。 •内存性能:无论是流体动力学,还是基因组分析,科学计算应用所面临的一个共性问题是需要处理和传递的数据集和模型变得越来越大。例如在流体动力学中,计算任务面临的网格数量可能高达百亿。这一情况下,内存带宽性能也成为制约科学计算效率的重要因素。因此,除了选择支持DDR4/DDR5高性能内存产品的平台,引入高带宽内存(HighBandwidthMemory,HBM)也是一项重要选择。 •并行计算:执行并行计算以及多节点间的并行计算是提升科学计算效能的重要途径。使用者一方面可以借助非一致性内存访问(NonUniformMemoryAccess,NUMA)等技术来实现多路并行算力优化;另一方面,英特尔®MPI库等的引入,也可以使复杂的科学计算应用程序能够在基于英特尔®架构的处理器及兼容相关架构的处理器的科学计算集群上运行得更好。 •加速库:科学计算任务中涉及大量或简单、或复杂的数学、物理以及其它计算,在编译时引入专门的加速库能够有效提升计算效率,例如快速傅立叶变换(FastestFourierTransform,FFT)计算在分子动力学,生命科学相关计算任务中有着非常频繁的使用。使用者可通过引入英特尔®oneAPI数学内核库 (英特尔®oneMKL)等加速库,不仅为科学计算任务提供基础线性代数子程序库(BasicLinearAlgebraSubprograms,BLAS)来加速线性代数计算的效率,也为快速傅立叶变换等计算过程提供助力。 应用优化实战篇英特尔中国科学计算实战手册 8 8 9