面向数据迁移的超算快线技术白皮书 智联计算网络系列技术白皮书 面向数据迁移的超算快线技术白皮书 中国电信股份有限公司研究院 2024年8月 面向数据迁移的超算快线技术白皮书 版权声明 本白皮书版权属于中国电信股份有限公司研究院及其合作单位所有并受法律保护,任何个人或组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:中国电信股份有限公司研究院等”。否则将违反中国有关知识产权的相关法律和法规,对此中国电信股份有限公司研究院有权追究侵权者的相关法律责任。 编写说明 主要编写单位: 中国电信股份有限公司研究院 参与单位:(排序不分先后) 中兴通讯股份有限公司、新华三技术有限公司、华为技术有限公司 主要编写人员:(排序不分先后) 傅志仁、梁洁、黄灿灿、渠文宽、张慧月、黄卓君、马培勇、庄一嵘、曾其妙、潘庆 撰写团队联系人: 中国电信股份有限公司研究院梁真铭 18918518265 liangzhm@chinatelecom.cn 前言 算力网络作为国家新型基础设施的一个组成部分,其目标为推动算力成为水电一样,为用户提供“一点接入,随取随用”的服务。2023年12月,国家发改委等五部门发布《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,提出要通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需,提高用户使用算力的易用性。 在当代的数字化浪潮下,数据成为生产力发展的重要基石。千行百业数字化转型,带来了数据量高速增长。根据全国数据资源调查报告,2023年,我国数据生产总量达32.85ZB(泽字节),同比增长22.44%,这些海量数据迁移对网络的运力服务提出了巨大的挑战。 本白皮书首先分析了数据迁移背景以及核心网络需求,提出了服务使能层、业务核心层以及业务承载层的三层超算快线网络架构,结合任务式服务、资源按需保障、高可靠安全以及高带宽吞吐等关键技术,为用户提供泛在接入、普惠高效、算网协同、随接随用、按需供给、安全可信的数据传输服务。接着介绍了超算快线的任务式业务、弹性业务以及固定带宽业务三种业务模式,最后给出了典型应用场景以及现网实践,并发出了产业共同发展超算快线的倡议。 目前超算快线尚处于业务推广阶段。本白皮书旨在推动全国各超算中心/智算中心、大型数据中心,以及有数据迁移需求的各科研机构、高等院校、企事业单位,共同推进超算快线在数据迁移中的商业 应用。同时,中国电信希望进一步加强与各算力中心的技术合作,持续推进全国一体化算力网建设,进行算网协同、弹性大带宽、安全可信接入等核心技术攻关,助力网络强国、数字中国建设,打造中国式现代化的数字基座。 目录 1背景6 1.1国家政策6 1.2行业驱动7 2数据迁移网络新需求8 2.1数据迁移面临的问题8 2.2数据迁移的核心网络需求10 3超算快线网络架构11 3.1服务使能层13 3.2业务核心层14 3.3业务承载层16 4超算快线关键技术18 4.1任务式服务18 4.1.1灵活组网18 4.1.2弹性带宽19 4.1.3跨域协同20 4.2资源按需保障服务21 4.2.1业务流量识别21 4.2.2确定性切片21 4.2.3业务随流检测22 4.3高可靠安全服务23 4.3.1网元设备安全23 4.3.2网络传输安全24 4.3.3业务流量按需隔离25 4.3.4好友关系维护25 4.4高带宽吞吐服务26 4.4.1传输层协议优化26 4.4.2广域RDMA技术27 4.4.3负载均衡技术27 5超算快线业务模式28 6超算快线典型应用场景30 6.1东数西存30 6.2算力互联30 6.3科学计算31 6.4影视制作32 7现网实践33 7.1业务需求背景33 7.2网络建设方案34 7.3业务效果35 8产业倡议36 附录A:术语与缩略语38 参考文献39 1背景 1.1国家政策 算力是数字经济时代的新质生产力,人类社会正在迈向万物感知、万物互联、万物智能的“算力时代”,算力深刻影响着人们的生产方式、生活方式、科研范式以及未来的数字化生存图景,已成为数字经济的新主角。提升算力水平、做强算力产业,已经成为全球40多个国家的战略共识。 随着数字经济的发展,国内算力布局也在不断优化。2021年3月,《“十四五”规划》指出:“加快构建全国一体化大数据中心体系,强化算力统筹智能调度”;2023年2月,中共中央、国务院引发的《数字中国建设整体布局规划》中指出:“要夯实数字中国建设基础。系统优化算力基础设施布局,促进东西部算力高效互补和协同联动”。在国家政策指引下,以新型数据中心、超算中心、智算中心为代表的算力基础设施正加速部署。截止目前,我国已启动建设8大 国家级算力枢纽节点和10个数据中心集群,已建成十多个国家超级 计算中心,超40个城市在建智算中心[1]。 为推进全网一体化算力网建设,2020年9月,我国成立“东数西算”联盟;2022年,全面启动了“东数西算”工程,在国家“东数西算”政策的推动下,资源充裕的西部地区将承接东部地区的大量算力需求,带来了大量的数据跨域传输需求,网络传输效能尤为重要;2023年12月,国家发改委等五部门发布的《关于深入实施“东数西 算”工程,加快构建全国一体化算力网的实施意见》中提出:“到2025年底,用户使用各类算力的易用性明显提高、成本明显降低;逐步建立随取随用、灵活配置、按需收费的算力服务新模式;采用弹性带宽、任务式服务、数据快递等创新模式,降低单用户国家枢纽节点间网络使用成本;促进向随接随用、按需付费等短租模式转变,满足多元化市场需求,显著降低算力使用成本,提升中小企业算力使用便利度”。国家政策提出的算力服务普惠易用、随接随用、灵活配置、按需收费等特性为长距离海量数据传输提供了方向标。 1.2行业驱动 在当代数字化浪潮中,数据是生产力发展的重要基石。千行百业数字化转型,激发经济市场新动能。随着数据量的不断增加,传统本机计算已无法完成海量数据的分析处理,数据上云及云计算已成为主流趋势。在这一数字化变革中,为完善数据创新大环境,数据流通已成为数字经济市场不可或缺的关键部分。 (1)行业数字化转型,数据计算量持续增长 行业的数字化转型是数字时代的发展趋势。数字化促进了各行各业的智能转型,也促进了行业发展的变革,由此带来的数据计算量急剧增加,越来越多的行业对机器处理数据能力的要求越来越高。如基因测序、视频渲染等行业每年产生的数据量都近PB。传统计算能力已无法满足计算需求,亟需将数据迁移至更高效的数据中心进行计算,网络需提供高效传输的能力,满足用户不断增长的大数据迁移需求。 (2)科学观测能力提升,带来海量科学计算数据 随着技术的飞速发展,科学观测仪器能力不断提升,源源不断地产生大量的科学数据。如卫星遥感、气象观测、宇宙观测等每年产生数据已PB级,超算需求十分旺盛。以高海拔宇宙线观测装置LHAASO为例,LHAASO每年产生10PB宇宙观测科学数据需要传输到算力站点处理。面向科学观测产生的海量计算数据跨域迁移问题,亟需网络能够提供普惠高效传输能力。 (3)AI大模型爆发,算力需求指数级增长 AI技术蓬勃发展,大模型应用迎来爆发期,算力需求指数级增长。英伟达表示“在未来的10年里,会把深度学习的计算能力再提高100万倍”。根据OpenAI的估算,目前大模型训练对算力的需求大约每3至4月翻一倍,远超摩尔定律18至24个月翻倍的速度,算力仍存在巨大缺口。在算力需求增加的同时,大模型的训练以及推理过程对网络的运力服务也提出了更大的挑战。 2数据迁移网络新需求 2.1数据迁移面临的问题 在科学计算、影视制作、基因测序等数据传输场景中,当前主要有两种方式:一是通过硬盘快递的线下迁移,二是通过运营商网络的线上迁移。 硬盘快递方式通过专人在数据源端进行拷贝,然后通过物流快递 或者专人运输,最终在数据消费端执行上传操作。通过完善的物流体系以及较为便宜的快递费用,该方式是目前实现海量数据传输的主要解决方案。但其时效性差,硬盘数据的拷贝、路上运输以及上传都需要耗费时间;同时为了减少快递/运输次数,一般将数据积累几天之后,再进行统一迁移,这些都导致数据不能及时进行处理。安全风险高也是其面临的一大问题,线下搬运面临着硬盘损坏和丢失的风险,同时涉及到个人隐私的泄露以及商业利益的损害。 运营商网络的线上迁移模式,又可分为以下两种方式:一种是通过互联网的方式,该方式价格便宜、获取方式简单,但在安全隔离方面和性能保障上存在着问题;第二种是通过专网的方式,包括光传输OTN网络、L2/L3VPN网络以及SD-WAN技术。光传输资源用户占用独享,传输速率高并且安全隔离性强,适用于大带宽、高稳定的互联场景,但其接入成本高、获取周期长。IPVPN网络统计复用特性使其成本较低,逻辑隔离方式可提供安全保障,覆盖范围广使其获取方式简单,使其非常适合需要低成本、大带宽、广泛接入的海量数据传输业务。但当前IPVPN网络仍不具备灵活弹性、带宽可调、随用随连的能力,在临时性的、突发性的海量数据传输场景下网络利用率低,性价比不高。SD-WAN技术可将广域网上分散的企业分支、总部以及数据中心连接起来,支持快速开通以及实现差异化的保障,但其当前仍属于OTT业务,基于无线、传输和承载等物理网络上利用隧道技术创建Overlay虚拟网络,对下层的基础链路管控存在一定的滞后性;同时,其使用SD-WAN控制器对overlay网络进行集中管理, 在涉及到跨域场景时编排难度大、端到端管理复杂,难以满足超智算业务承载时用户按需、灵活、跨域、安全可信、快速的开通需求。 2.2数据迁移的核心网络需求 如何将算力应用所需海量数据从客户侧传输到算力资源提供方是目前网络亟需解决的痛点。以基因测序为例,50TB的基因测序数据,如果通过500Mbps专线传,需要耗时223小时;如果采用10Gbps专线,仅用11小时,但是当前专线采用固定带宽按月或者按年计费,成本高,远高于企业承受力,而且企业并不是每天都在传超大数据,性价比低。因此当前用户普遍采用寄送硬盘方式实现数据入算,但这种方式影响到算力业务的便利使用,大规模数据传输成为制约算力资源利用的瓶颈。 为满足用户数据迁移需求,网络首先需具备基础的长距离大带宽高速传输能力。在此基础上,提供弹性、按需、可信的连接能力,并使能运营商的新业务形态和新商业模式。核心网络需求包括: (1)算网协同:IP网络需感知算力业务承载需求,为一个特定的overlay业务连接,按需提供underlay物理资源保障,实现业网协同、连接管控。 (2)按需随建随拆、灵活组网:传统专线资源长连接,但并非所有用户都具有长期不间断的大数据传输需求,导致网络资源浪费,且用户使用成本高;同时传统专线具有固定的接入起点终点,无法支 持灵活的算力组网、调度。因此,网络需能够根据用户需求在用户所 需起点和终点之间快速实时建立业务连接,在服务结束后,拆除连接,释放资源,为用户提供按需的连接与资费,满足用户突发业务需求,降低用户支出。 (4)弹性大带宽:传统传输专线无法提供弹性服务能力,必须按最大弹性带宽需求在传输系统上逐段占用,会导致一定的网络资源浪费,成本太高导致中小企业用户难以负担得起。因此,网络需具备弹性大带宽能力,满足用户弹性资源需求,进一步实现网络资源的充分利用。 (5)泛在接入:为提供用户使用算力资源的便捷性,网络需具备泛在接入广覆盖的能力,支持用户通过多种方式灵活接入。就像水、电一样,算力资源可做到随用随取。 (6)可信可靠:网络需具备可信可靠的能力,以严格保障用户传输数据的安全可靠。 (7)跨域协同:对于用户跨域甚至跨运营商的数据传输需求,网络需具备跨域协同能力,满足网络资源及业务的端到端灵活调度。 3超算快线网络架构 TCP/IP协议采用分层解耦的细腰模式,上部多种应用统一承载,下部异构底层介质灵活互通,IP协议位于细腰部上下桥接业务和承载介质