数据密集型超算 发展白皮书2023 超级计算创新联盟数据密集型超算工作组2023年8月 顾问 陈国良张云泉周跃峰 主编 金钟林新华唐卓张兴军王毅肖利民王怡东庞鑫顾雪军 副主编 潘景山李少波韦建文王继彬高巍苏亮徐恩松张洋李亚子贾海鹏韩振兴王旭东 编委(排名按姓氏拼音不分先后) 陈阳陈振华柴旭清戴奇志段芳成丁江波樊春范靖龚斌高亦沁高芬郭武郭洪星胡俊胡广超李会民李昕伟刘畅李斌杰鲁蔚征郄军利宋平宋天宇孙晓艺孙敏淮唐小勇王青王成伟王继彬王炳强万林魏旗鹏姚舸曾帆 曾令仿张凯丽张震邹有赵顺存 责任编辑 王世葆 感谢以下机构参编支持(排名不分先后): 北京大学北京航空航天大学长沙理工大学贵州大学河南师范大学 湖南大学兰州大学南京大学上海交通大学山东大学深圳大学西安交通大学中国人民大学中国医学科学院中国科学技术大学中南大学 超级计算创新联盟国家超算济南中心国家超算长沙中心华为技术有限公司科大讯飞崂山实验室联科中国鹏城实验室青岛国实科技有限公司 中科院科学计算所中国信息通信研究院之江实验室 数据是对客观世界状态变化的数字化记录,在数字经济和数字中国的大战略下,数据已成为国家基础性战略资源和关键生产要素,是数字化、网络化、智能化的基础。今年发布的《数字中国建设整体布局规划》进一步强调夯实数字基础设施和数据资源体系“两大基础”。 众所周知,高性能计算是国家综合国力和信息化建设能力的一个重要体现,被誉为“国之重器”。数据密集型超算,是高性能计算与人工智能、大数据等新一代信息技术融合后围绕数据价值,而产生的一个重要新增类型,是在高性能计算领域的一次有益的创新探索,在一定程度上代表了高性能计算的未来发展趋势。我们很欣喜地看到,在过去两年中数据密集型超算在产业各界的多方合作下持续创新,相继在商业应用、标准规范等取得了显著的进展。如文中所述,数据密集型超算在国家超算中心、高校等场景、基因测序、AI大模型等行业应用中产生了很多优秀实践。 与此同时,我们也看到中国高性能计算所面临的挑战和机遇:应用层面,随着数据爆炸,高性能计算从重计算模型,衍生到重IO,大带宽包括混合负载的数据模型;算力层面,通过AI赋能,科学研究正迈向科学智能新阶段,推动AI异构加速;连接层面,随着超算互联作为国家战略,需要实现更高效的网络互联和跨域全局管理。另外,在新的复杂 国际安全形势和低碳化全球趋势下,超算安全、绿色节能、自主创新也成为高性能计算业内人士关注的问题。白皮书结合高性能计算在数据密集型场景的发展趋势给出了分析和建议,值得深思。 面向未来,以ChatGPT为代表的AI大模型兴起,数以千亿的参数投入训练,产生对算力和数据的双重需求。HPC与AI逐步走向融合,将成为数据密集型超算的典型应用场景。数据的准备至关重要,数据的质量和规模决定AI的精度。为了更好应对诸如新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问等挑战,白皮书中创新性地提出新型数据密集型超算5A架构,以应用为中心,较好地支撑HPDA(HPC+大数据+AI)多系统融合业务发展。 长风破浪会有时,直挂云帆济沧海!HPDA正在加速提升科研创新及生产效率,在新的趋势和发展机遇下,期待产业各方深化合作和持续创新,数据密集型超算在推动科研和数字经济发展上发挥更大作用,扬帆远航! 一年一度的CCFHPCChina,给业界提供了很好的契机,促使我们去系统化地思考超算的过去、当下和未来。数据密集型超算HPDA白皮书发布已经两年,这两年间超算领域已经发生了许多令人惊讶的变化,尤其当生成式人工智能AIGC技术爆发,超算的发展也正在迎来一个新的阶段。 超算正在加速与AI深度融合,驱动科学研究迈入科学智能时代 AIGC热潮的背后其实就是超级计算机技术与AI大模型技术相结合的结晶:早在2019年,微软就为OpenAI的ChatGPT大模型训练部署超过上万个GPU组成的大型AI超级计算机。 超算从诞生开始就致力于加速重大科研的创新,而超算与AI的融合将实现科研创新的又一次跃升。 通过Al赋能科学研究,可以解决传统HPC算不了、算不准、算不动的问题。且从科研创新的角度来看,提出问题比解决问题更重要。而AI的本质上实际上是数据驱动通过AI算法拟合成一个符合大概率的规律,尽管有可能这些规律缺乏可解释性,但这些“意料之外”的规律反而就是科研创新突破的最佳指引。这相当于给科研人员开启了一个上帝视角,一切未知皆为参数,数据可及皆为样本,洞明世事皆为模型,进而让科学研究迈入到了科学智能时代。 实际上数据密集型超算概念的提出就是洞悉到了超算与AI的融合,因为其核心就是数据驱动,数据的重要性也随着AI大模型的发展变得愈发凸显。 AI的三要素,数据、算法和算力。在算力水平基本一致的前提下,如果说当前的AI时代角逐还是数据和算法并重,那么随着AI算法的逐步标准化趋同,决定下一轮胜负的关键必然在数据上。譬如,Meta基于650亿参数和4.5TB训练数据开发了LLaMA,而OpenAI基于1750亿参数和570GB训练数据开发了GPT-3.5。虽然LLaMA在参数规模上不及GPT-3.5的50%,但其表现能力在多数基准上均超越了后者,其主要原因在于数据规模提升了8倍。由此可见,提升AI大模型精度、数据规模以及数据质量比模型参数更具决定性的作用,可以说数据决定了AI智能的高度。 超算互联上升为国家级战略,数据互联与流动是基础。 “一桥飞架南北,天堑变通途”,超算互联正是这一理念构想在超算产业的践行。在东数西算、算力互联网等国家战略实施的大背景下,超算互联旨在构建一体化超算算力网络和服务平台的目标也上升为国家级战略。欧盟等区域和国家也相继发布了其国家版的超算互联战略,为下一个战略制高点的争夺拉开个序幕。 所谓内行看门道,互联普遍意义上是指算力的互联,实际上数据的互联和流动才是超算互联的底蕴和基础: 从超算中心的物理部署来看,需要实现不同超算中心的数据互联,并提供跨地域、跨系统的全局统一数据视图以及调度。让任意位置的数据都随时随地可快速访问,并实现数据的按需分级与流动。 从业务集群的建设模式来看,需要实现不同业务集群间的数据互联。这是因为数据密集型HPDA往往对应的是数据驱动的一套序贯式科学业务流,譬如基因测序往往包括文库制备、格式转换以及生信分析等多个业务阶段,传统意义上不同的业务集群往往是烟囱式独立建设模式,频繁的数据拷贝与迁移成为影响科研效率的关键。 因此,我们认为超算互联要面向多样化业务要构建安全、可靠的统一数据底座,基于高性能专业存储的多协议、冷热温自动分级以及全局文件系统GFS等技术打破影响数据流动的层层壁垒。所谓流水不腐户枢不蠹,数据只有在更大范围的充分流动与共享,才能真正促进信息的数字化,才会有价值数据的智能释放。 超算中心大规模集群化,低碳绿色成为关键诉求。 E级超算的建设当前已经是屡见不鲜,并且随着整体应用算力需求与单卡之间的算力剪刀差持续加大,导致集群规模越来越大。尽管大规模集群往往意味着国之重器,科研利器,但与此同时超算系统的能耗和散热问题日益突出。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要目标,我认为业界可以从如下两点发力: 全面加速存储闪存化: 超算中心以及智算中心由于其极致的业务性能诉求,特别是随着AIGC业务的爆发,高性能的全闪专业存储将成为首选。全闪存一方面意味着应用性能的极致表现;另一方面在单位容量的功耗上要大幅降低。不仅如此,随着业界闪存大容量盘的加速推出,其逐步凸显的性价比优势也将加速业界全闪化的进程。 存储创新提升GPU利用率: 随着超算业务的多样化趋势,算力的多元化以及数据的多模态发展愈发明显。数据密集型应用驱动在算力层面GPU占比越来越高。提升GPU的资源利用率,也就意味着用更少的GPU资源能耗去满足相对确定的应用算力需求,提高能效比。在存储创新方面,一方面通过面向混合负载的极致高性能,通过减少GPU在数据加载等待时间提升利用率;另一方面还可以有通过近存计算实现近数据预处理,让数据在存储就完成部分数据准备任务,减少计算和存储之间的数据搬迁,进一步提升GPU的利用率水平。 这次数据密集型超算发展白皮书2023的发布,正好是在AI大模型这样的时代背景下,其对于中国超算行业之重大意义,丝毫不亚于无线通讯领域从3G/4G时代突破式地迈向了5G时代。在全新的产业赛道上,中国科技要携手起来坚定并坚持自主创新,引领超算行业的“5G”浪潮。 1数据密集型超算最新趋势 1.1数据密集型趋势下,高性能计算面临六大挑战和需求01 1.2数据密集型应用加速发展,对存储性能提出更高要求02 1.2.1大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量02 1.2.2数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求03 1.2.3多技术融合的新兴业务,带来多业务混合负载04 1.3HPC和AI融合,加速改变科研及生产效率05 1.3.1AI加速科学研究范式变迁,数据驱动的AI方法改变科学的渐进发展05 1.3.2数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施06 1.3.3发展先进数据存力基础设施,是构建大模型时代高质量发展的基石07 1.4超算互联上升至世界各国国家战略,数据基础设施先行08 1.4.1美国大力推动高性能数据密集型基础设施互联08 1.4.2欧洲成立超算联合体,构建一体化超算基础设施09 1.4.3中国超算互联网工程,构建一体化算力网络和数据平台10 1.5超算安全关系国计民生,数据资产安全成为重点12 1.5.1国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一12 1.5.2各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度13 1.6中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控14 1.7提高能效比和降低碳排放,支持超算发展和持续演进15 1.7.1超算系统商业应用和未来演进面临能效挑战15 1.7.2通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展16 2数据密集型超算技术架构 2.1HPC与AI走向融合,构建“5A”新型超算架构17 2.2AnyApplication:新型应用不断涌现,数据密集型超算应具备丰富的应用18 生态承载及演进能力 2.2.1应用快速发展,需要多协议融合互通能力支撑业务未来演进19 2.2.2数据分析广泛应用,需要支持科学计算工作流,提升业务效率19 2.3AnyWorkload:多技术融合带来多样负载,数据密集型超算应具备承载动21 态混合负载及应用加速能力 2.3.1HPC+AI+BigData多样性应用,需要动态混合负载承载能力21 2.3.2E级大规模应用,需要近计算实现加速22 2.3.3超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行23 2.4Anywhere:多地域超算互联,需要跨域全局数据统一管理能力24 2.4.1算力和数据协同调度,数据全局可视24 2.4.2数据分级管理,应用无感访问24 2.5AnyCondition:全方位可信设计,保障业务永远在线,数据永不丢失25 2.5.1应对数据风险与业务风险挑战,超算平台进行全方面安全保障25 2.5.2应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线26 2.5.3数字资产作为企业核心财富,存储数据要做到永远可靠不丢失27 2.6AnyView:多应用场景的统一智能管理平台提升管理效率27 2.6.1统一设备管理系统,提升运维管理效率27 2.6.2超算建设模式走向集约化,需要统一高效的作业管理28 2.6.3数据全生命周期管理,夯实高效、全面、智能的数据底座28 3数据密集型超算优秀实践 3.1国家超算济南中心:打造中国最大规模数据密集型超算应用标杆29 3.1.1国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”29 3.1.2面对海量数据存储和计算效率的