SCNet 超算互联网 Superco 超算超互算互联联网网白联皮书 超算互联网联合体 二〇二四年四月 序言 过去20多年,中国的高性能计算事业取得长足的进步。在“机器、应用、环境”三方面协调均衡发展的方针指导下,自主研发的超级计算机11次位居世界超算T0P500第一,大规模并行计算应用三次 获得世界高性能计算应用最高奖“戈登·贝尔”奖,基于互联网构建 的国家高性能计算环境得到广泛应用,支撑了国家重要的科学研究和 工程建设项目。 近年来,人工智能和大模型的发展对算力提出了前所未有的新需求,算力水平已经成为衡量一个国家科技与经济水平的重要指标。但另一方面,急剧变化的国际环境和日趋严重的外部限制与封锁,对我国高性能计算的可持续发展提出了严峻挑战。在外部严格封锁的条件下,软硬结合、系统优化、应用为先是打破困境的必然出路,以应用成效论英雄,从机器性能世界领先转向应用成效世界领先,应该成为我国高性能计算发展追求的新目标。 超算互联网正是在这个背景下提出的重要任务。所谓超算互联网, 是一种基于互联网理念,借鉴互联网应用的成功经验而发展的计算基础设施。它追求计算应用资源的互通和共享,为最终用户提供优质的计算应用服务,帮助用户用计算解决应用问题。同时,它又具有商业模式,通过资源提供、应用运营、应用升发各方的通力合作,获得自身可持续发展的资金和资源。在科技部、工信部的指导下,已经成立 了国家超算互联网联合体,正在为超算互联网的建设而努力。 本白皮书的撰写和发布恰逢其时。首先,它将使联合体的成员进一步统一思想,凝聚共识,共商大计,明确做什么?怎么做?促进成员间目标和步调的一致。其次,通过论述超算互联网的技术架构、运行机制、应用形态和运营模式,有助于更加科学地开展超算互联网的顶层设计,系统性地安排资源弹性汇聚调度、应用平台和应用商店构 建、应用软件开发部署机制等关键支撑技术的研发工作。第三,白皮书所阐述的理念和技术体系将指导超算互联网应用的开发,不断丰富超算互联网的应用资源,对最终用户提供更加优质的服务。最后,白 皮书的发布也有助于社会公众了解什么是超算互联网,激发使用超算互联网完成自身业务的兴趣,拓宽各行各业对超算互联网的使用和参与。同时,也有助于潜在的投资主体了解超算互联网的理念和潜力,吸引多方投入共建超算互联网。 真切希望超算互联网白皮书的发布能发挥其在传播理念、凝聚共识、科学规划方面的独特作用,促进超算互联网的技术研发,促使超算互联网理念和愿景的早日落实,推动我国高性能计算技术和应用的水平迈上新台阶。 中国科学院院士、超算互联网总体专家组组长 钱德沛 2024年2月7日 前言 数字经济时代,算力成为新型生产力。以计算为基础的数值模拟、数字仿真、大数据分析、人工智能等求解问题的方法,正带来新的生产、科研和治理范式。超级计算能力是衡量一个国家或地区科技竞争力和综合实力的重要标志,有赖于机器、应用、环境三位一体协调发展。超算互联网是要用互联网化的理念、思维、模式、技术、平台、机制来运营现有超算基础设施,实现降低算力使用门槛,提高资源利用效率,培育自主软件生态,促进算力泛在应用,推动跨界融合创新, 本白皮书在征求、吸收超算互联网联合体众多专家的意见建议的基础上,梳理当前我国超算基础设施与服务环境面临的机遇和挑战,提出超算互联网的基本概念与重要特征,描绘超算互联网的自标愿景与生态价值链,明确超算互联网应当具备的关键能力;描述国内外超算基础设施互联共享的发展现状,梳理超算网格、超算服务化、超算互联网的发展脉络;提出超算互联网的参考模型,梳理各层级功能特征与关键技术问题,明确制订超算互联网标准规范体系的要求;提出 超算互联网的参考运营架构,明确超算互联网应具备的运行机制;展望超算互联网创新的使用模式及丰富的应用场景;最后,从技术攻关应用示范、标准制订、人才培养、数据共享等方面提出行业发展倡议。本白皮书还有诸多不足,期待各方批评指正,共话未来! 超算互联网白皮书 www.scnet.cn 发展背景 目录 基本概念 5 (一)概念特征 5 (二)目标愿景 6 (三)关键能力 (四)参考模型 12 (五)概念演进 13 三、 发展现状. 16 (一)发达国家高度重视超算设施互联共享16 (二)中国推动超算网格向超算互联网升级21 四、技术架构。31 (一)总体参考架构31 1.资源层32 2.平台层38 3.服务层41 4.应用层44 (二)关键技术问题45 (三)标准规范体系50 超算互联网白皮书 www.scnet.cn 五、运营管理 53 (一)运行机制, 54 (二)参考运营架构 56 (三)超算互联网联合体 60 六、应用展望 62 (一)创新的使用模式 62 (二)丰富的应用场景 63 1.人工智能 64 2.科学计算 66 3.工程计算 70 七、发展倡议 73 八、附录, 76 (一)附录1:缩略语 76 二)附录2:参考文献 77 超算互联网白皮书www.scnet.cn 图/表目录 图1中国超算产业三位一体协调发展策略3 图2超算互联网的重要特征5 图3超算互联网支持多方生态协作 图4超算互联网应具备的关键能力9 图5超算互联网参考模型.13 图6从超算网格到超算互联网的演进关系14 图7EuroHPC(2021-2027)发展策略框架19 图8日本高性能计算基础设施(HPCI)分布20 图9中国超算基础设施网络化发展历程21 图10“十三五”国家高性能计算环境23 图11超算互联网总体参考架构31 图12超算互联网标准体系51 图13超算互联网主要参与方及其关系53 图14超算互联网运营商参考运营架构.57 图15国家超算互联网联合体正式成立仪式60 表1EuroHPCJU纳管的超级计算机列表19 超算互联网白皮书www.scnet.cn 一、发展背景 当今世界,人类社会正循看网络化、数字化、智能化的方向快速 发展。人类社会空间、物理空间和信息空间日益紧密融合,以5G、人 工智能、先进计算为代表的新一代信息技术加速向各领域渗透。特别 是近年来以ChatGPT、AlphaFold2、Sora为代表的新一代人工智能技 术,作为变革性力量,带来全新的生产方式、科研范式和治理模式。先进计算成为求解问题、探索未知世界的重要方法,数值模拟、数字仿真、大数据分析、人工智能等手段普及应用,支撑科学研究、技术发明、产品开发、工业制造与社会治理。计算能力与算法、数据、模型等要素相互融合,成为数字经济时代的新质生产力。 近期,工业和信息化部等六部门印发《算力基础设施高质量发展 行动计划》,国家发展改革委等部门印发《关于深入实施“东数西算” 工程加快构建全国一体化算力网的实施意见》,明确提出算力是数字经济时代的新型生产力。算力网是支撑数字经济高质量发展的关键基础设施,可通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。在国家实施“东数西算”战略的背景下,以新型数据中心、超算中心、智算中心为代表的算力基础设施正加速部署。截止自前,我国已启动建设8大国家级算力枢纽节点和10个数据中心集群,已建成十多个国家超级计算中心,超40个城市在建智算中心,25个国家新一代人工智能公共算力开放创新平台获批建设,全国一体化算力网正加快构建。 超级计算能力是衡量一个国家或地区科技竞争力和综合实力的 超算互联网白皮书 www.scnet.cn 重要标志。超级计算已广泛应用于航空航天、工业仿真、气象环保、油气勘探、人工智能、新能源、新材料、生物医药、智慧城市、基础科研等众多领域,在应对重大挑战性问题,促进传统产业转型升级,提高人民生活水平,促进重大科学发现等方面发挥着不可替代的作用。多年来,在中国科技计划的持续支持下,我国超算产业坚持“机器、 应用、环境”三位一体协调发展策略,在机器研制、关键应用、服务 环境等方面已处于世界前列,“神威”、“天河”、“曙光”系列超级计 算机已多次占据全球超级计算机性能TOP5OO领先位置,大气模拟、 地震模拟、量子模拟、分子动力学模拟等关键领域大规模并行应用获 得戈登·贝尔(GordonBel1)奖,全国范围建成十多个国家超级计 算中心、中国国家网格(ChinaNationalGrid,CNGrid)等战略性 信息基础设施。同时,总体上看,我国高性能计算软件与应用的发展相对不足,应用生态也不够丰富,高性能基础和应用软件大量依赖国外软件,存在“卡脖子”的风险"。建立发展高性能计算的生态环境, 需要形成一个从基础研究、技术突破、产品研发到应用推广的协作共司体,不是简单的链条,而是相互关联的社会网络。 钱德沛,来件治,刘轶。从网格到"东数西算":构建国家算力基础设施[J].北京航空航天大学学报,2022,48(9):14 2李国杰。发展高性能计算雷要思考的几个战略性问题.中国科学院院刊,2019.6 2 超算互联网白皮书www.scnet.cn 环境应用 网络计算环境,大规模并行计算, 让算力顾处可得将算力转化成生产力 机器 世界一流的机器, 提供影润算力 图1中国超算产业三位一体协调发展策略 随着数字化转型不断深入以及国际地缘政治形势变化,我国超算产业面临新的机遇与挑战: 人工智能带来AIGC、大模型、AIForScience、AIFor Technology等新兴应用,催生巨大算力需求,并驱动超级计 算与人工智能融合发展; 云计算、APPStore等互联网新平台新应用冲击传统的超算 资源管理与用户服务模式,超算中心巫需从“卖机时”向“提供应用服务与解决方案”升级; 全国范围内不同体系结构、归属不同运营主体的多源异构算 力需要互联、集成与统一调度,以实现资源高效利用: 随着更多超算中心、智算中心建成,需探索形成更加有效的 竞合机制与商业模式,实现计算服务行业可持续发展; “东数西算”背景下,大数据洪流(datadeluge)带来的数据 传输问题备受关注,需升级网络基础设施,优化大规模数据 3 超算互联网白皮书 www.scnet.cn 远程传输效率; :中美贸易战、科技战凸显新时期我国解决芯片、基础软件等 “卡脖子”问题,加快建设自主软硬件生态✁紧迫性。 上述问题与挑战,对我国进一步发展超算基础设施及其服务环境 提出了更高要求。 放眼世界,构建具备高效✁数据传输、资源共享、算力调配、生态协作能力✁超算基础设施网络,也是发达国家塑造高性能计算竞争 优势✁重要策略,例如美国✁能源科学研究网络ESnet(Energy SciencesNetwork)、欧盟✁高性能计算共同体计划EuroHPCJU(The EuropeanHighPerformanceComputingJointUndertaking)、日本 ✁高性能计算基础设施HPCI(HighPerformanceComputingInfrastructure)等。2023年4月17日,国家超算互联网正式启动 部署,并成立了国家超算互联网联合体。超算互联网将在以往中国国 家网格CNGrid以及业内高性能计算云(HPCCloud)实践✁基础上, 全面利用互联网化✁理念、思维、模式、技术、平台、机制来运营超算基础设施,打造具备互联网理念与特征✁新一代高性能计算服务环境,实现降低算力使用门槛,提高资源利用效率,构建自主软件生态,培育科技人才队伍,促进算力泛在应用,推动跨界融合创新,提升超算环境服务能力等自✁。 值得一提✁是,本白皮书讨论✁超级计算,是相对广义✁概念,涉及超级计算、高性能计算、智能超算等,包括硬件、软件、算法、应用、产业生态环境。 4 超算互联网白皮书www.scnet.cn 二、基本概念 (一)概念特征 在全球新一轮科技革命和产业变革中,互联网与各领域✁融合发展具有广阔前景和无限潜力,已成为不可阻挡✁时代潮流。超算互联网是具备互联网理念与特征✁超算基础设施,是互联网化✁高性能计算服务环境,是互联网创新成果与算力基础设施运营✁深度融合。超算互联网不仅要在各算力中心之间形成高效数据