国家超级计算济南中心 HUAWEI eview 算力互联网技术白皮书 Onlyforpre 国家超级计算济南中心华为技术有限公司 √前言 01V 前言 oreview 超级计算机是聚焦科学计算、追求绝对计算速网络,实施“东数西算”工程,支撑大规模算力调 度的最典型代表。根据2020年全球超算TOP500度,构建形成以数据流为导向的新型算力网络格榜单统计,我国入围超算数量为226台,已成为世局,满足下一代超算业务对海量、高效、泛在算力界上超算数量最多的国家。然而,超级计算发展面的需要,让计算能力成为继“水煤电”之后的新型 临诸多技术瓶颈,包括能效指标约束、登纳德缩放生产资料和公共资源。在此背景下,国家超级计算 比例定律和摩尔定律失效、超算体系结构变化缓济南中心携手华为技术有限公司,面向算力互联网 慢、超导计算机和量子计算机等颠覆性技术发展缓关键机制开展研究建设工作,突破并验证SRv6 慢、存算一体等新原理器件缺少突破等。因此,自(SegmentRoutingoverIPv6,IPv6分段路2013年起,超算TOP500性能上升速率明显变由)、网络切片、长距无损、直连拓扑、智能运维缓,从每10年提高1000倍降为约100倍,依靠硬等关键技术,并就网络感知算力、调度算力、云网件堆叠单个超算中心计算能力面临技术瓶颈限制,安一体的关键技术能力进行了预研,率先部署建设难以满足超大复杂任务的计算需求。 伴随着全社会数据总量爆发式增长,互联网 “省会都市圈”算力互联网示范工程。 数据中心已经成为另一重要的算力提供形式,是本白皮书围绕算力互联网发展趋势和技术挑云计算、5G(5thGeneration,第五代移动通信战,阐述了华为技术有限公司及国家超级计算济南系统)、智能技术、工业互联网等产业必不可少中心的价值主张和重要立场,并介绍了算力互联网的“数字基石”。但我国数据中心建设发展仍存关键技术及实践经验。依托现有和在建的超级计算在供需失衡、失序发展等问题,有进一步优化的平台及互联网数据中心打造新型算力基础设施,各空间。2021年5月,国家发展改革委等四部委联方合力建设“算力互联网”,有望加速未来计算模 合印发《全国一体化大数据中心协同创新体系算式转变,推动计算性能维持指数级增长。 力枢纽实施方案》,旨在建立高速数据中心直联 著作单位 国家超级计算济南中心、华为技术有限公司 参编人员 国家超级计算济南中心:潘景山、王继彬、郭猛、张玮、马采路、刘礼彬 华为技术有限公司:古锐、文慧智、牛琨、张磊、周宇、刘佳、汪林、潘洋、李云星、龚翔宇、柳巧平、李洪迪 01 目录 01前言01 02算力互联网发展趋势和挑战03 2.1算力互联网发展趋势03 目录 2.2算力互联网挑战04 2.2.1用户接入难04 2.2.2算力变现难04 2.2.3算力资源使用不均衡04 2.2.4安全防护难05 03设计目标与方案架构06 3.1设计目标06 3.2方案架构08 04算力互联网解决方案60 S TENT Onl 4.1算力配给网 09 4.1.1任意连接,算力触手可及 60 4.1.2网络切片,算力差异化服务 11 4.1.3智能运维,便捷网络管理 11 4.2算力生产网12 4.2.1网络架构创新,构✁集约化算力中心13 4.2.2总线级网络技术,更高效释放集群算力14 4.2.3长距无损支撑区域内算力高效调度15 4.3算力安全16 4.3.1内生安全,打造安全体系基石16 4.3.2云网安一体,安全协同防护17 05国家超级计算济南中心优秀实践19 06总结和展望27 07术语&缩略语28 02 算力互联网发展趋势和挑战 eview 02V 算力互联网发展趋势和挑战 和第二位,但在人均算力上美国约为中国的五 2.1算力互联网发展趋势倍,我国仍有较大的提升空间。十四五发展纲 要,明确提出加快构建全国一体化大数据中心体数字经济是国民经济发展的重要引擎,《中国系,强化算力统筹智能调度,建设若干国家枢纽 国民经济和社会发展第十四个五年规划和2035年节点,建设下一代超级计算中心,这也是新基建 远景自标纲要》提出了“加快数字化发展,打造数的重要组成部分,将大大促进数字经济提速。 字经济新优势、加快数字社会建设步伐、提高数 字政府建设水平、营造良好数字生态,建设数字中国"的战略方针。习近平总书记在中央政治局第三十四次集体学习时强调“把握数字经济发展趋势和规律,推动我国数字经济健康发展”。而数字经 济的发展离不开强大算力的支撑,同时算力对于 随着物联网、车联网、智能技术、大数据、5G等技术的快速发展,万物智能互联带来海量的数据增长。十九届四中全会上,数据被增列为第五 类生产要素,数据将在推动数字经济发展的过程 中扮演重要角色。根据IDC预测,2025年中国的 数据将达到48.6ZB,全球占比27.8%,成为全球 国家GDP(GrossDomesticProduct,国内生产最大的数字圈。然而数据本身并不是自的,通过 总值)贡献有非常强的杠杆效应,牛津经济研究 院研究分析表明:数字技术投资每增加一美元,便可撬动GDP增加20美元;数字技术投资的平均回报率是非数字技术的6.7倍。根据罗兰贝格统计,我国与美国整体算力分别排在世界的第一位 03 计算分析从数据中挖掘价值,实现数据的价值变现才是最终的目的。据中国(深圳)综合开发研究院技术团队预测,2020年至2025年,中国数 字经济年均增速将保持在15%左右。到2025年, 算力互联网发展趋势和挑战 数字经济规模将突破80万亿元,占GDP比重达究中,都发挥重要作用,是国之重器。而超算也55%;到2030年,数字经济体量有望突破百万亿是所有计算场景中算力资源消耗最大,网络带宽元。数字经济时代,无论是海量的数据处理,还要求最高的场景,是各大科技强国ICT(Informa 是数据的价值挖掘,最终实现数据变现,都离不tionandCommunicationsTechnology,信息和 开强大的算力,而超级计算机正是提供强大算力通信技术)基础设施能力的综合展现。我国政府 的最重要保障。早已制定超算发展的顶层规划,研究完善国家算 超级计算机作为数字经济发展的关键基础设施,广泛应用于各行各业,包括气候气象、航空航天、卫星测绘、能源勘探、物理化学、汽车制造等科研和工业领域,甚至在新冠疫情的新药研 力基础设施,从全国一盘棋来设计和整体布局,在重点区域建设国家级超算中心,并将这些超算中心连接起来,形成强大的算力互联网。 2.2算力互联网挑战 >2.2.2算力变现难 超级计算机一次性投资巨大,设备运维成本 超算业务具有强算力、大数据、高通量等特高,需要尽快找到业务应用场景,收回投资,解决点,但当前问题矛盾也很明显,主要体现在以下日常运营运维成本难题。 几点:但是,由于用户接入不便,超算中心算力资源 变现难,无法将算力快速输送给干行百业的用户, 2.2.1用户接入难为全社会数字化转型赋能。 超算业务分为不同的类型,计算密集型、数司时,为支撑国家十四五战略规划、加速促进 据密集型以及通信密集型。其中数据密集型业务数字经济发展,算力要像水电那样可以被便捷地获需要进行大量数据的计算处理。例如大型天文射取,并通过网络输送赋能给干行百业,助力国民经电望远镜数据量都是PB级,而运营商网络(互联济和社会发展。 网或政企IP专线)提供给用户的带宽有限,即使 1Gb/s带宽传输也需要数月才能搬运完,传输效2.2.3算力资源使用不均衡 率低下。因此,大规模数据搬运至超算中心仍采 用寄硬盘的原始方式,用户使用不便。截至2021年1月,我国已建成八大国家超算中 心,多个区域超算和智能计算中心,但同时也看而且对于中小企业,长期租用运营商专线费到,东部沿海经济热点地区的超算中心算力使用率 用高,经济负担加重。对于个别大型企业,虽然高,而一些中西部超算中心远离客户,利用率有待可以通过租用传输线路甚至同城内直接拉裸光纤提高。这些超算中心间的算力使用并不均衡。 接入,但投资大、开通慢,不具备通用性,无法 满足干行百业用户灵活、按需、快速接入超算的从国家超级计算济南中心的视角看,除济南主 普适诉求。中心,还会在一些地市建设边缘超算,形成全省范 围内的超算集群,当前无法对超算集群算力资源进 行统一管理,均衡调度。 04 算力互联网发展趋势和挑战 为实现超算间算力均衡调度,底层需要通过一。网络和安全设备自身不安全,设备自身存张算力网络实现超算互联,支持数据高效传输,算在漏洞,易被黑客抓住漏洞点,攻入超算网络, 力均衡调度配给。各种接入单位使用的终端存在安全隐患,同一终端既可以访问超算数据中心,同时又可以 2.2.4安全防护难访问互联网,可能会存在利用终端作为跳板,攻 随着算力面向企事业单位、高校和政府单位的击超算中心的问题。 开放,网络边界变得越来越大,如何安全的使用算。传统的安全防护方案是在不同位置(端,力,保障算力中心的安全变得越来越迫切。近年网,云)部署不同的安全设备,堆砌安全产品, 来,由外部APT(AdvancedPersistentThreat,互相之间不兼容、不联动,无法适应业务上云后高级持续性威胁)攻击或内部违规事件导致的大规的路径变化,防护效果差、效率低。 模数据泄露等恶性安全事件时有发生,传统基于网 络边界的防护思路已经无法满足新形势下的网络安 全需求,存在诸多的局限性,例如: 因此,需要通过云网安一体协同实现算力互联网的全网协同防护。云网安协同作为统一安全 架构的核心设计理念,为算力安全保驾护航。 05 设计目标与方案架构 01 01 oreview 03V 设计目标与方案架构 3.1设计目标雪高算力 网络释放算力,通过计算一网络一存储系统化 设计,优化网络时延、转发性能、拥塞控制,提算力互联网是以算力资源为核心,网络可动升单个计算单元和整体算力中心的算力产出。同 态感知算力资源分布,动态调整最优路径并提供 时,传统数据中心的Spine-Leaf架构在面对超大 差异化保障服务,满足新一代算力中心大规模组规模组网时存在一定的不足,组网架构和网络协 网的诉求,实现算力集约化、算力规模化和算力议需创新,满足更高性能算力中心建设。网络加 服务化。为了有效地支撑超算互联网的业务目 速传递算力,一方面加速数据上传至算力中心,标,算力互联网应当具备集约化、高算力、服务另一方面将算力中心的计算能力快速赋能给终端 化、高安全四大特征。用户,实现算力的快速赋能和有效变现。 集约化服务化 集约化带来超大规模算力中心建设,以及算 力中心间算力一体化互联和调度的要求。算力互联网对算力资源进行统一管理和统一调度,实现算力合理调度、资源弹性分配,提升各个算力中心的利用率,为大规模科学计算和工程计算提供 全社会算力。 算力资源云化、服务化,用户按需调度至最合适的算力中心,用户从自建自用算力,向购买灵活的算力服务发展,算力中心为不同类型的用户提供网络资源的强隔离,提供确定性算力服务。 06 设计目标与方案架构 自高安全甚至直接拉裸光纤接入,但投资大、开通慢,不 安全作为整个算力互联网的基石,在算力网络具备通用性。算力互联网将海量的数据和不竭的边界延伸后,既需要满足不同类型的用户安全接算力相联接,为干行百业输送数字动能,用户按入,又需要保证算力中心的安全,云网安一体协同需从最优匹配的算力中心灵活获取算力,算力中防护已成为算力互联网必须要具有的关键能力。心提供丰富的软件生态和应用,方便用户使用, 满足用户对于智能计算等新兴业务需求。 算力互联网建成后,将会带来如下价值:昌算力中心价值 社会价值传统算力中心用户接入难,算力资源变现 将不同算力中心节点连成一张算力互联网,难,无法将算力快速输送给干行百业的用户,为算力互联网吸纳和调度全国算力中心的算力,以全社会数字化转型赋能。超级计算机一次性投资统一服务的方式,输送高可靠、可度量、通用化巨大,设备闲置运维成本高,需要尽快找到业 的算力、算法、算据资源,使能智能计算应用务