高性能计算云(HPCCloud)服务白皮书 (2022年) 版权声明 本白皮书版权属于超级计算创新联盟与算网融合产业及标准推进委员会,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:超级计算创新联盟与算网融合产业及标准推进委员会”。违反上述声明者,编者将追究其相关法律责任。 参与编写单位 中国信息通信研究院、北京航空航天大学、国家超级计算济南中心、国际超级计算天津中心、中国科学院计算机网络信息中心、国家超级计算昆山中心、合肥先进计算中心、天翼云科技有限公司、中国电信集团有限公司、联想(北京)信息技术有限公司、北京华恒盛世科技有限公司、联智科技(北京)有限公司、北京并行科技股份有限公司、北京北龙超级云计算有限责任公司、广州市品高软件股份有限公司、深圳北鲲云计算有限公司、上海即算科技有限公司、易超算(北京)科技有限责任公司、中国联合网络通信集团有限公司、江苏奥工信息技术有限公司、戴尔股份有限公司、迈普通信技术股份有限公司、腾讯云计算(北京)有限责任公司、阿里云计算有限公司、河南师范大学、天津滨海人工智能创新中心 主要撰稿人 宋平、穆琙博、宋尧、刘轶、冯景华、田杨、刘弢、毕立波、王哲、柴瑶琳、党小东、张云畅、韩维娜、牛铁、张宏海、王斌、王浩、高清爽、瞿隆、崔恩放、佘蕊、崔吉顺、郝常杰、苏斌、徐达、管清波、付鸿雁、刘爽、乔楠、甄亚楠、郭宇、吴思洪、周婷婷、王真容、凌巍才、张岩、崔煜喆、欧阳柳卿、季宝石、吴跃、张华洪、陈丽莎、陈煜东、邹弘宇、杨广贺、朱松、柴旭清、田倬璟 为同时满足工业、能源、气象、多媒体等众多行业对极致算力与弹性服务的双重需求,以高性能计算为服务核心、以云计算为服务创新技术手段的高性能计算云受到了业界广泛关注。相比于传统高性能计算服务,高性能计算云服务具备弹性算力供给、便捷资源部署、统一融合平台、灵活业务编排等丰富的能力,满足行业应用差异化、定制化服务需求,赋能产业数字化、网络化、智能化转型。 本白皮书以充分发挥高性能计算云的行业赋能作用为目标,从高性能计算云服务发展现状、参考架构、关键能力和未来展望等方面进行全面的分析和探讨,重点推进高性能计算云服务能力升级演进,为高性能计算云服务创新发展提供参考和借鉴。 一、高性能计算云发展现状1 (一)算力时代高性能计算云迎来发展黄金期1 (二)产业各方积极布局,云超算与超算云呈趋同方向发展3 (三)高性能计算云服务满足行业算力需求4 二、高性能计算云服务参考架构13 (一)高性能计算云服务参考架构13 (二)资源供给服务层15 (三)平台服务层18 (四)应用服务层24 (五)可视化服务26 (六)安全服务30 (七)统一服务门户32 三、高性能计算云服务关键能力33 (一)异构计算资源供给34 (二)多类型存储系统支持34 (三)低时延网络传输35 (四)弹性资源调度36 (五)规模化集群管理37 (六)高效作业调度37 (七)灵活应用部署38 (八)多层次安全防护39 (九)可视化能力保障40 (十)极致性能体验40 四、高性能计算云服务发展展望42 (一)算力多样性将成为高性能计算云服务发展的“双刃剑”42 (二)一体化服务将成为高性能计算云服务发展的重要趋势43 (三)服务标准化将成为高性能计算云服务发展的基本路径43 缩略语45 参考文献46 图目录 图1高性能计算云产业视图3 图2基于高性能计算云的工业仿真平台6 图3基于高性能计算云的生命科学行业解决方案7 图4基于高性能计算云的石油勘探解决方案10 图5基于高性能计算云的EDA芯片设计12 图6高性能计算云服务参考架构13 图7高性能计算云服务十大关键能力33 一、高性能计算云发展现状 (一)算力时代高性能计算云迎来发展黄金期 在数字化应用需求驱动下,我国正统筹推进算力基础设施建设,助推产业转型升级与科技创新。2021年,国家发改委等四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,布局建设全国一体化算力网络国家枢纽节点,构建国家一体化算力服务平台;同年,工信部发布《“十四五”信息通信行业发展规划》,提出建设形成包括超算算力在内的多层次算力设施体系;2023年,中共中央、国务院印发了《数字中国建设整体布局规划》,系统优化算力基础设施布局,促进东西部算力高效互补和协同联动。在国家政策的支持下,2022年我国算力总规模达到180EFlops,居全球第二。 在超算算力方面,中国与美国仍处于领跑地位。根据2023年5月最新发布的TOP500榜单显示[1],中国共有134台超级计算机上榜,其中前10名中2台,分别是太湖之光和天河二号;美国共有150台 超级计算机上榜,其中前10名有5台,分别是Frontier、Summit、Sierra、Perlmutter和Selene。中美两国上榜的超级计算机数量占榜单总数的56.8%。超算算力对促进传统产业转型升级,提高人民生活水平,促进重大科学发现等方面发挥着不可替代的作用,是研究和解决各领域挑战性问题的重要手段。 超算服务能力将成为超算算力向生产力转化的关键。数字化时代,除了海洋、气象、工业、地质勘探等传统超算应用领域之外,越来越多的企业业务场景存在超算算力需求,例如媒体渲染等[2]。超算服务以超算算力资源为基础,向用户和应用提供算力供给、管理、调度、交易等能力,满足各类业务场景下的超算算力需求,发挥超算算力在各场景的赋能作用。传统的超算服务虽然在大规模算力支撑和性能等方面具有优势,但其存在整体架构复杂、稳定性不足、HPC应用部署不够灵活、使用门槛高、日常维护管理难等痛点问题,不利于超算技术在中、小规模算力应用场景下的推广使用以及对行业应用的赋能作用。 为了解决传统超算服务存在的痛点问题,高性能计算云受到了包括传统超算服务提供商、云服务商等在内的产业各方的高度关注。高性能计算云是一种结合云计算技术的高性能计算服务模式,其中高性能计算是服务核心,云计算是服务模式创新的技术手段,多云互联是服务能力的扩展支撑。在此基础上,高性能计算云将与大数据、人工智能等技术深度融合,面向行业应用需求,提供一体化智算服务能力,实现高性能计算云能力拓展。 高性能计算云将助力企业更加快速地开展数字产品开发、创新技术验证、数据价值挖掘,具有巨大的市场潜力。2022年,Gartner将高性能计算云纳入到云计算成熟度曲线中,目前高性能计算云处于技术萌芽期。根据HyperionResearch2022年高性能计算市场报告显示, 全球高性能计算市场增长最快的是高性能计算云市场,增长率超过 23%,2021年市场规模达62亿美元。预计到2027年,高性能计算云 的收入有望超过110亿美元。 (二)产业各方积极布局,云超算与超算云呈趋同方向发展 底座,为不同租户提供高性能计算服务;多云互联在不同高性能计算云之间,实现资源、数据、应用、服务等不同维度的云间协同与统一的多云管理。 根据提供服务的主体与服务形态,高性能计算云可以分为超算云、云超算和多云互联三类。其中,超算云以超算资源为底座,通过云计算的服务模式为用户提供高性能计算服务;云超算以通用云资源作为 图1高性能计算云产业视图 如图1所示,超算云是超算服务云化发展过程中的一种产品形态。超算云服务的提供主体包括国家级超算中心、超算服务提供商等。与超算云不同,云服务提供商是云超算服务的主体,国内外主流的云 服务商均在公有云上为用户提供超算服务。产业上游的芯片企业、设备与方案商面向云化能力开展持续优化适配,支撑高性能计算云建设部署与技术创新。 伴随高性能计算云产业发展,超算云与云超算在硬件设施、基础平台、服务能力等多个方面逐渐趋同,这也为多云之间的全面互联提供良好能力基础。网络运营商为多云互联构建高速互联网络基础设施,保障云间数据传输质量。2023年4月,国家科技部启动“国家超算互联网”部署工作,构建一体化超算算力网络和服务平台。在国家政策的支持下,多云互联将成为高性能计算云产业发展的重要方向。 (三)高性能计算云服务满足行业算力需求 《“十四五”数字经济发展规划》等相关政策推动企业高质量上云用云,进一步提升企业生产运营数据价值,创造显著的经济效益。企业上云用云加速,为高性能计算云带来了丰富的行业算力需求。工业、气象、能源等传统高性能计算应用领域也开始通过云上方式部署应用,以进一步缩短传统方式的排队时间,更加灵活地选择运行应用所需的各类硬件,提高成本效益。 1.工业仿真 工业仿真技术作为工业生产制造中必不可少的首要环节,已经被世界上众多企业广泛应用到工业各个领域中。随着智能制造、工业4.0和工业互联网等新一轮工业革命的兴起,以CAE、CFD为代表的数 值仿真软件已经成为先进制造业不可或缺的数字化研发工具。工业仿真技术涉及结构、流体、电磁等学科领域,同时也对硬件性能、架构能力、数据安全具有非常严苛的要求。当前,工业仿真存在痛点: 高性能计算集群建设属于重资产,建设成本高、周期长,往往无法满足企业灵活的业务形态,造成资源的浪费或不足; 维护工作繁重、压力大,集群维护需要企业投入很多物力、人力,导致企业无法全力聚焦企业自身的业务; 传统自建集群方式下,企业需要自建机房,包括水费、电费、系统维护费等会占用较高的运营成本; 硬件设备更新迭代速度快,计算量快速膨胀,规划赶不上变化,新技术层出不穷,设备老化严重,硬件更新速度快,无法快速适应新的业务需求。 随着工业云时代的兴起,PC、工作站、集群机全面云化,高性能计算云化发展是大势所趋。仿真云端化可以通过海量资源共享,使企业降低成本,提高资源利用率,其操作的便捷性更是降低了使用门槛;企业内部能够更加便捷地连接协作,实现数据共享、数据同步和工作协同;云端仿真软件会在服务端积累大量的数据,企业能够实现数据沉淀、数据挖掘和数据分析。 图2基于高性能计算云的工业仿真平台 图2展示了基于高性能计算云的工业仿真平台,该平台集成了工业制造企业所需的设计与仿真工具,并支持前后处理可视化、仿真并行化、应用交互化等功能。该平台提供工程机械、汽车工业、海洋船舶、能源化工、建筑土木等领域的CAE/CFD解决方案,提供从算力支持、软件部署安装、可视化设置等全流程服务,为用户打造一体化的CAE/CFD环境。系统可动态调度CAE/CFD软件的许可证,最大化利用软件许可。 2.生命科学 生命科学行业发展至今,早已离不开高性能计算的辅助。从计算机辅助药物设计、疫苗研发,到通过基因检测提供精准医疗服务、产前筛查等,高性能计算在生命科学研究中扮演着十分重要的角色。随着云计算技术服务及实践的日趋成熟,越来越多的行业通过上云实现了整个产业的转型升级,正处于黄金时期的生命科学行业也不例外。然而,目前针对生命科学行业的解决方案大部分都为线下IDC超算 集群方案,随着基因组学、生物制药技术的不断演进及计算机科学的不断发展,传统计算机集群资源已无法满足生命科学行业及技术演进的需求。使用云上HPC服务的需求,并基于业务的高峰和低谷动态进行计算资源的弹性扩缩容,有效节省业务成本,尤其适用于快速发展的生命科学企业。 数据分析需要大内存容量。基因组织学研究产生的数据增长快速且需 永久保存,要求存储系统具有海量容量及高扩展性。另外,基因研究应用软件种类众多,部分计算任务对I/O吞吐要求很高。 生命科学应用具备大内存、高I/O的高性能计算云服务需求。如基因测序中每个细胞的表达量数据高达数十万条读取,这种海量级的 图3基于高性能计算云的生命科学行业解决方案 如图3所示,基于基因测序、靶标发现、虚拟筛选、分子动力学模拟等应用场景,为生命科学行业用户提供一站式的生物信息学及计算化学领域整体解决方案。基于该云平台,某上市药企并行调动200- 400Nvidiav100卡,将计算时间从数周计算降至2小时左右,计算效 率提高数百倍。某生物医药科技公司直接通过浏览器使用云上高性能计算服务,API接入可在几分钟内启动1000台共16000核心的计算资源,10分钟内即可