高通量数据网 架构及关键技术白皮书 中国联合网络通信有限公司研究院 下一代互联网宽带业务应用国家工程研究中心2023年08月 前言 划。2022年2月,国家全面启动了“东数西算”工程。2022年5月,鹏城实验室推出中国算力网计划。2023年4月,科技部发起成立国家超算互联网联合体。一系列的产业动作均旨在推动算力资源、业务和数据高效流动,助力算力网络发展。 算力网络与水网、电网的不同之处在于,算力网络运输的不是算力资源,而是把数据资源运输到算力资源节点。在算力大发展的背景下,需要运输的数据资源体量也在高速增长,根据IDC预测,到2025年全球数据规模将突破175ZB,如何实现海量数据的高效传输是算力网络需要解决的重要问题,亟待能够最大化提升网络有效传输能力的高通量解决方案。 本白皮书从网络承载、智能管控、端侧优化三个方面提出了高通 算力网络的愿景,是让用户像使用水电一样实现对算力资源的随取随用。2020年5月,中国科学院计算所启动实施“信息高铁”计 量网络的演进方向,提升网络的承载质量,增强管控层调度能力,优化端侧传输层软件平台,实现算力数据任务式调度、高效率传输,赋能东数西算,助力超智算业务发展。 联合编写单位:(排序不分先后) 中国联合网络通信有限公司研究院,下一代互联网宽带业务应用国家工程研究中心,中国联通数字科技有限公司,中国联通国际有限公司,中国联合网络通信有限公司山东省分公司,中国联合网络通信有限公司广东省分公司 编写组成员:(排序不分先后) 曹畅,庞冉,刘莹,李建飞,何涛,王南,李壮志,翟锐,郑维通,曾楚轩,杨振东,方遒铿,丁鼎,房秉毅,杜军,易昕昕,高星,佟恬,张帅,杨建军 目录 1.背景1 1.1.算存运三力协同助力数字经济蓬勃发展1 1.2.算力时代海量数据迁移新需求2 2.高通量数据网基本概念6 3.高通量数据网架构9 3.1.基础设施层9 3.1.1.应用终端10 3.1.2.承载网10 3.1.3.算力中心11 3.2.高通量协议层11 3.2.1.高通量网络协议11 3.2.2.高通量传输协议11 3.2.3.高通量应用算法12 3.3.高通量管控层12 3.3.1.端侧管控12 3.3.2.网侧管控12 3.3.3.云侧管控12 3.4.服务运营层13 3.4.1.用户服务订阅13 3.4.2.用户操作平台13 3.4.3.云网信息资源库13 4.高通量数据网关键技术14 4.1.广域流量调度技术14 4.1.1.SRv6网络编程技术14 4.1.2.流量识别与引流16 4.1.3.广域拥塞感知与控制16 4.2.智能管控技术17 4.2.1.可用带宽资源实时感知17 4.2.2.流量智能调度18 4.3.传输协议优化技术19 4.3.1.基于TCP的传输协议优化19 4.3.2.其他传输协议的优化20 4.4.数据智能压缩技术21 4.4.1.数据压缩技术概述21 4.4.2.压缩算法选择策略22 4.5.数据传输安全保障技术22 4.5.1.流量按需安全隔离22 4.5.2.网络层安全防护23 5.高通量数据网应用场景24 5.1.东数西算业务24 5.2.超智算海量数据传输24 5.3.科技项目数据汇交25 5.4.企业数据上云备份与灾备25 6.总结与展望27 7.缩略语列表28 8.参考文献30 1.背景 1.1.算存运三力协同助力数字经济蓬勃发展 《“十四五”数字经济发展规划》提出到2025年,数字经济迈向全面扩展期,数字经济核心产业增加值占GDP比重达到10%[1]。加快新型基础设施建设,推动数字经济和实体经济融合发展,推进重点领域数字产业发展,是数字经济的重要组成部分。数字经济的飞速发展带来的海量数据需要先进的算力、存力和运力服务来发挥数据的高效价值,进一步助力数字经济发展。 根据国家互联网信息办公室《数字中国发展报告(2022年)》统计显示,我国数据资源规模快速增长,2022年数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%,位居世界第二[2];截至2022年底,我国数据存储量达724.5EB,同比增长21.1%,全球占比达14.4%[3]。 数字经济带来的海量数据需要先进的数据存力服务、算力服务和运力服务,数据"存得好"、算力"算得快"、网络"传得稳",数字基础设施才能充分发挥大数据的要素价值[4][5]。海量数据是互联网世界的“石油”和“金矿”,也是算力时代最具价值的资源,其价值转化需要算力、存力和运力的一体化协同,实现大数据从“可用”走向“实用”。 为了满足千行百业数字化转型、数字技术与生活场景加速融合所带来的海量存储和计算需求,国家提出东数西算工程,将数据中心选址在可再生能源丰富、气候适宜、绿色发展潜力大、综合能效优势明显的西部,把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈,最大化实现数据中心产业绿色集约发展,推动资源统筹利用和西部数字经济建设发展。“东数西存”、“东数西渲”、“东数西算”通过优化数据中心布局,实现东西部存力、算力等资源供需关系的合理匹配,支撑千行百业的高质量发展[6]。 运力上联算力/存力(供给端),下联企业家庭(需求端),需要综合考虑各地的算力、存储等资源,针对不同用户对算力的不同诉求,提供最优的资源服务与网络连接,为所有用户提供严格保障的业务质量。三者协同发展,数字基础设施才能充分发挥大数据的要素价值。 图1算力、存力、运力协同发展 1.2.算力时代海量数据迁移新需求 信息和数据的产生、传输和处理成为数字经济时代推动经济增长和创新的重要要素。算力作为数字经济时代核心生产力,已经成为衡量地方数字经济发展程度的代表性指标。传统的计算能力有限,面临着存储、运算和处理大规模数据的挑战。算力经济充分利用云计算、大数据、人工智能等技术,将计算能力从传统的个体或机器的局限中释放出来。通过云计算平台和算力资源的共享,实现按需获取和灵活使用计算资源,从而提高效率和降低成本。在算力迁移的过程中,同步伴随着用户侧海量数据的迁移需求。如何将用户侧海量的大数据以合理的成本、合理的时效传输到存力/算力基础设施成为算力经济发展的新需求。 (一)东数西算 据”或“温数据”以合理的成本、合理的时效传输到西部存储节点是目前急需解决的问题[7]。 (二)超智算承载 图2东数西算冷温数据传输 随着网络游戏、影视媒体等业务的快速发展,云游戏XR、视频媒体制作等视频渲染需求日益旺盛,需要通过传输网络数据实时传送到远端算力节点进行演算,再将结果返回到用户侧,进行调取使用。此类业务对存力、算力要求高,传输数据量大。此外,随着人工智能的发展,需要将海量的数据资源与各领域的知识模型、机理模型相结合,形成基于人工智能的新应用、新场景,如智能制造、无人驾驶、数字孪生等。为降低算力资源的使用成本,需要将训练数据和训练任务通过网络调度到智算中心进行处理。 在超算与智算服务场景下,数据传输通常包括两种需求: 1)智算中心之间、超算中心之间、智算中心与超算中心之间的训练数据传输,由于带宽需求大、连接稳定性高,通常采用光网络承载。 2)用户到智算中心/超算中心之间的训练数据传输和结果回传,由于突发性强,成本敏感,因此可以适合通过IP网络进行承载。 图3超算/智算承载场景 海量数据的迁移可以有效整合数据资源和算力资源,但是同时也对传输网络提出的新的挑战。目前海量大数据迁移主要有两种方式: 1)通过快递存储介质线下迁移 通过线下快递硬盘等存储介质,是目前解决大数据迁移问题主要途径,也即是目前“卡车比光纤快”的真实解决方案。2017年业界已上线了基于硬盘邮寄的数据快递服务[8],凭借完善的物流体系,硬盘快递的方式可在一定程度上缓解成本和效率的两难问题。但是仍然存在着运输成本高、时效性不足、拷入拷出复杂繁琐等问题,同时因为硬盘等存储介质离线搬运,通过航空、铁路、公路等途径搬运,面临数据损毁、数据泄露等安全风险。 2)通过运营商网络线上迁移 通过三千兆接入(千兆宽带、5G、WiFi6)及高速骨干网络,中国联通构建了立体泛在的新型ICT基础设施。但是在TB~EB级大数据迁移面前,传统网络技术存在以下问题: 问题1:用户通过互联网传输或租用低带宽专线方式,传输成本企业可承担。但是在应对周期性、临时性大规模数据迁移任务时,通常所需时长又无法满足企业需求。同时现有数据传输方案在长距离、大带宽传输场景下,存在传输效率受限等问题。 问题2:用户通过租用大带宽(如1G以上)专线,能在一定程度上提升数据传输速率,但对大部分企业而言,数据传输通常为任务制需求,即周期性、临 时性的大数据量迁移需求,而非全天候、规律性的,租用大带宽专线成本过高而无法承担。 表1不同数据量在不同带宽情况下的理论传输时长 数据量 带宽 100M带宽 1G带宽 10G带宽 10TB 12天 29小时 3小时 100TB 121天 12天 29小时 1PB 1243天 125天 12天 2.高通量数据网基本概念 “东数西算”、超智算承载等场景下的海量数据传输均存在长距离、大带宽、任务突发的特点。但现有的网络在承载该类型业务时,存在网络承载能力、传输协议、现有业务影响等多方面的挑战。 解决算力时代的大数据迁移问题,需要基于现有网络进行技术和商业模式创新,全面挖掘网络潜力,全面提升网络资源利用率,全面增强网络传输能力,基于不同用户对传输时间、传输成本的综合考量,提供任务式大数据迁移服务,解决算力时代的瓶颈问题,助力数字经济飞跃发展。 本白皮书提出高通量数据网的概念。为了满足对大规模数据进行快速处理和传输的需求,高通量数据网能够同时处理和传输大量的数据,用于科学研究、云计算、大数据处理等领域。 通量一词最早出现在物理学中,是指单位时间内通过某个面积的物质或能量的总量。通量的概念可以应用于不同领域,如物理学、工程学、生物学等,主要用于描述能量传递的速度和量度。 中国科学院计算所于2022年提出高通量低熵算力网的概念[9],高通量计算的性能指标是通量,即保质任务吞吐率,也就是单位时间完成的保质任务数。同理,在数据网络中,可以将数据流量看做是一种特殊的流量,数据流量所通过的面积也即是分配给该数据业务的可用有效带宽,单位时间、单位带宽内完成的数 据流量总量受到数据传输实际效率的影响。高通量数据网的核心理念,为通过增 大有效带宽,提高单位带宽下的数据传输体量,以增大数据通量。 高通量数据网面向算存运高效协同,从网络承载、智能管控、端侧优化三方面提升数据承载效率,有如下主要目标: 1.有效带宽最大化:高通量数据网面向东数西存、超算/智算训练数据上传 与下载等典型场景,大部分业务属于时效性要求业务,而不一定是实时性要求业 务。因此在满足时效性要求的前提下,高通量数据网可以通过充分利用网络带宽潮汐特征,以及网络多路径能力提升网络总吞吐,实现有效带宽最大化。 2.传输效率最大化:在网络有效带宽一定的前提下,传输效率越高,单位 以端侧传输层优化为例,在几百到几千公里的长距传输情况下,BDP(带宽时延乘积)增大,端侧TCPsocketbuffer可能会成为发送速率的限制因素。如图4所示,在1000km的远距离现网测试场景下,接口可用带宽8Gbps,叠加30%背景业务流,受限于服务器socketbuffer,叠加数据迁移任务时,速率仅能达到3.3Gbps,无法充分发挥网络带宽潜力。 数据量完成传输的时间越短,为用户提供的传输服务质量越高。高通量数据网通过在网络层最小化网络丢包、在传输层优化TCP/UDP协议、在应用层压缩任务数据量,全面提升端到端传输效率。 图4中国联通现网长距大数据迁移(1000km)带宽利用率测试 3.网络丢包最小化:以大数据传输为承载目标的高通量数据网络对时延的 要求并不苛刻,但由于TCP传输特性的存在,承载网络侧丢包会造成传输速率的下降。该问题一方面通过端侧传输