G 基于RDMA的长距无损数据搬移技术白皮书 40 免责声明 本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。 因此,本文的信息仅供参考,不构成任何要约或承诺,主编不对您在本文档基础上做出的任何行为承担责任。主编可能不经通知修改上述信息,怒不另行通知。主编保留对本文档的最终解释权。 中国联通研究院2024年7月 前言 版权声明 本报告版权属于中国联合网络通信有限公司研究院,并受法律保护。 转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联通研究院”。违反上述声明者,本院将追究其相关法律责任。 联合编写单位:(排序不分先后) 中国联合网络通信有限公司研究院,中国联合网络通信有限公司上海分公司,中国联合网络通信有限公司宁夏分公司,中国联合网络通信有限公司江苏省分公司 编写组成员:(排序不分先后) 王光全,王泽林,满祥锟,徐博华,谭艳霞,刘畅,章万钧,肖青顺,杨福理,张贺,沈世奎,王海军,师严,刘红红,续建伟,王俊敏,周彦韬,董姗,岳文强,薛金明,潘皓 随着人工智能时代的来临,千行百业大模型风起云涌,海量数据以T、P、甚至E级别如太平洋海水般随之产生。我国基于资源配置优化,提升资源使用效率部署实施“东数西算”战略工程,这其中就涉及到海量数据的调度协调和搬运。传统的数据搬运是通过快递硬盘,源宿两地读写方式来实现,这种方式耗费时间长,效率低、安全性也比较差。数据通过硬盘来实现跨地域的运输就好比绿皮蒸汽火车,速度慢,人员拥挤,体验差。如何解决这一问题呢,观察中国高铁的发展模式或可得到很好的启发,高铁发展至今,世界领先,高效舒适,安全可靠,体验很好,带来了人员和商品的流动也发生了质的提升和改变,也同时促进了社会经济的发展。当今数字世界,对数据的流动运输提出了高吞吐、高弹性、高安全和时效性需求,效率即是生产力,中国的高铁模式值得参考借鉴,打造“数据高铁”就变得尤为重要。 为全面贯彻国家网络强国数字中国战略,支撑国家“东数西算”工程,发展新质生产力,中国联通积极践行央企使命担当,确立了“数字信息基础设施运营服务国家队、网络强国数字中国智慧社会建设主力军、数字技术融合创新排头兵”的战略定位,在2015年,发布了网络创新体系CUBE-Net2.0,提出了面向云端双中心的集约解耦型网络架构,加速电信网络向云化、虚化化、SDN化等转型。经过5年的实践后,算力时代全面到来,通信网络如何可持续发展,新一代网络的运营体系和服务体系如何构建,如何向客户提供更有价值的网络创新产品,这都是整个行业需要认真思考、积极探索、不断实践的地方。 在此背景下,在2021年,中国联通将CUBE-Net2.0升级为CUBE-Net3.0,致力于实现“连接+计算+数据+智能”的融合服务,进而达成从新一代网络到新一代数字基础设施的蜕变。中国联通基于CUBE-Net3.0新一代网络规划体系,从算力供给、输送、调度和服务四大方面,构建算网结构合理、运力充足、体验领先的算力网络,提供“联接+感知+计算+智能”云网边一体化的算网服务,从而支撑数字经济发展,赋能千行百业。 在此基础上,中国联通在2020年发布《云时代的全光底座》,在2022年发布了《算力时代的全光底座》白皮书,本《基于RDMA的长距无损数据搬移技术白皮书》是全光底座的进一步创新和发展,是面向智算/超算互 联,通过端网协同技术,解决广域RDMA大流量的长距离无损传输,提供区别于按月按带宽计费的组网业务,采用任务式连接,提供按照流量、按时效等方式计费的组网业务,助力数字中国、东数西算等国家战略的实施。 本白皮书详细描述了海量数据RDMA长距无损数据搬移技术的需求、数据搬运度量、端网协同长距无损技术和标准化和产业发展倡议。 目录图表目录 01典型应用场景1 1.1海量科学计算1 1.2影视行业1 1.3自动驾驶2 1.4工业制造3 1.5东数西算3 1.6数据搬移业务需求,挑战与机会总结3 02“数据搬移”运力指标5 03“数据搬移”架构与关键技术7 3.1架构与关键特征7 3.2关键技术8 3.2.1灵活承载8 3.2.2任务式带宽8 3.2.3长距高效率8 3.2.4安全可靠9 3.2.5统一编排9 3.2.6长距RDMA提速技术10 04现网实践12 05总结与展望13 缩略语14 01图目录 图1天文数据搬移1 图2数字电影发放2 图3车企训练数据上云2 图4工业数字化制作优化3 图5数据搬移架构图7 图6高性能RDMA流量和普通流量10 图7长距RDMA拥塞控制示意图11 图8上海-宁夏“RDMA长距无损数据搬移”项目验证组网12 02表目录 表1传输协议对比5 表2典型数据搬移传输效率6 01典型应用场景 1.1海量科学计算 影视行业的内容涉及多种类型的素材,如视频、音频、图片、字幕等,这些素材通常都是大文件,且有着严格的格式和质量要求。影视行业对素材的传输和分发有着高效、稳定、安全等需求,因为这关系到制作进度、画面效果、版权保护等重要因素。随着高清4K、8K的普及,影视行业的数据容量也在不断增加,全国一年上映400部电影左右,一部影片平均200G~300G;平峰期一般4~10部,春节贺岁档一周最多15部;一部影片大概有10个版本,一次快递数据在10T~40T之间,中影集团每周将片源数据从北京资源中心通过硬盘快递到全国1W+影院(一个省份约千家),平均需要3~4天时间。对于贺岁档等审核周期较长,快递时间压缩被至1~2天,时间压力大、成本高。且硬盘在快递过程中,容易发生数据损坏或丢失等问题。因此,需要通过高品质网络传输实现影视分发的这些问题,同时实现提升工作效率、保障数据安全、增加用户满意度。 卫星发放 硬盘发放 内容发行公司 物流快递 龙华 福田 回龙观 海淀 厅1厅2 厅1厅2 厅1厅2 厅1厅2 图2数字电影发放 智算和超算快速发展,中国在此领域已经达到了国际先进水平,但智算和超算中心大数据导入、导出缺乏高效低成本方案,尤其在支撑天文、气象、医药生物等科学计算场景。 以FAST天文数据计算为例,FAST每年约200多个观测项目,单项目产生观测数据量TB~PB量级,年产数据约15PB。如果数据导出采用人工方式,数据获取阶段需要安排1~3人出差数据现场,负责数据导出工作,由于缺乏专人专岗负责数据拷贝操作,数据导出申请可能被滞后数月处理,再加上数据传输和目的地数据导入操作非常耗时,将极大影响数据获取的时效性。又如,济南超算平台总存储量是245PB,覆盖了文件、对象和大数据存储,要把数据搬迁到超算里做计算,目前快递硬盘的方式,数据接收和导入需花费很多时间和资源,导致超算在目前的存储架构上没有办法应对大数据量的搬迁。 面向科学计算海量数据异地迁移场景亟需一种高效、经济的数据在线传输方案。 1.3自动驾驶 贵阳 上千公里 北京、济南 天眼现场 广域网 38GB/s 数据上传点 数据中心 天眼现场数据中心 更换硬盘 图1天文数据搬移 车拉硬盘 汽车,150公里 伴随智能科技浪潮的兴起,自动驾驶技术飞速发展。如今,科技企业、传统车企和一众初创公司成为自动驾驶行业的主要参与者,多国政府更是将其上升至国家层面的战略高度。 自动驾驶稳步发展,诸多车企将在推出L3/L4级自动驾驶量产车激烈角逐,预计2025年L3汽车销量将有50%市场份额,到2030年L4汽车销量将达到市场的20%。自动驾驶的AI训练依赖海量的路测数据,对训练效率和快速迭代追求驱动自驾训练上云,同时也产生大规模路测数据上云需求。根据行业观察,训练L3需400PB数据,国内20家/全球约50家参与试验,预计产生总数据8EB/20EB,训练L4需2EB数据,国内10家/全球约20家参与试验,预计产生总数据20EB/40EB。 1.2影视行业 行业当前路测产生的海量数据是基于“硬盘+快递”搬运,存在运输效率低问题,且数据安全和可靠性难以保障,这催生了高效按需无损的网络“数据高铁”服务,通过高品质的网络来应对和解决这些问题。 影视综艺节目的拍摄素材需要经后期制作公司剪辑、渲染,由于拍摄地不固定,且拍摄过程会分成多个片 车企测试场地 测试数据 智算中心 图3车企训练数据上云 段,需要根据拍摄和制作周期将拍摄素材批量传输至后期制作公司所在地。一部大型综艺或影视节目的原始素材数据量是PB级别,单次传输的数据量在10TB~100TB量级,采用人工硬盘快递方式存在两次数据拷贝(源端上传、目的地下载)以及人工搬运(乘坐飞机或高铁搬运磁盘阵列),每次行程需要2~3天,且需要专人操作,时效性差、效率低。 拷贝运输期间如出现镜头数据丢失,需要补拍,打乱拍摄计划,人力、物力成本大;且人工多次直接接触到媒体内容,存在片源泄露风险,或是一旦中间有某1块/几块硬盘异常需全部重拷贝,影响工作效率。 影视/综艺行业竞争激烈,如何充分利用网络能力,通过在线传输为音视频行业提供便捷的线上数据搬移服务,满足时效性的同时,减少人工投入成本,对网络提出了新的挑战。 1.4工业制造 为了提高生产效率,企业需要进行数字化转型,而数字化过程中产生的海量数据需要存储和备份,在重大科研、制造等企业的跨地域搬移数据规模主流为百TB量级,且有一定时效性需求。跨域数据迁移成为企业发展和转型中不可避免的一环,然而这项任务也给企业带来了很多挑战。企业运营过程中业务需持续运行,例如电子商务、物流服务、数据分析和应用等。因此,如何确保业务不中断,数据完整性不受到损失,是一个很大的挑战。海量数据迁移如果需要花费很长的时间和更多的资源,对企业效率的影响也会更加显著。数据迁移涉及大量敏感数据的传输和存储,因此,安全性问题是需要考虑的。如果数据泄露或丢失,企业将面临严重的经济和声誉损失。 制造数据 智算中心 优化数据 同时,对于高性能工业仿真,训练的企业使用远程算力,远程访问的读写效率也至关重要。因此,稳定、安全、高效的网络数据传输方式非常重要。 图4工业数字化制作优化 对于海量数据的跨域传输,当前很多企业采用线下硬盘拷贝+硬盘快递/人工搬运方式实现数据上云,存在周期长(部分场景需要源+宿两次本地数据拷贝)、硬盘损坏导致数据丢失、数据安全等问题;另外,对部分线上数据搬移,如跨广域DC间数据灾备等,大多是周期性传输,带宽资源利用不充分,存在带宽成本与传输利用率的矛盾。 从技术上看,传统TCP/IP网络技术通过操作系统内核频繁的数据拷贝和中断操作来传输数据,而RDMA技术则是通过绕过内核并将网络堆栈卸载到网卡实现CPU开销接近零的高吞吐和超低延迟。RDMA不仅改进了性能,还减少了每个服务器上网络堆栈处理使用的CPU核数量。 对于单DC内的智算/云存储场景,RDMA技术展现出显著的优势,并已逐渐成为主流。随着技术的飞速发展,高性能计算、大模型等新兴应用不断涌现,DC间的数据流通量剧增,使得跨DC场景也出现了长距RDMA传输的需求。 虽然,长距传输产生了不可规避的超大时延,其稀释了RDMA技术在降低处理时延问题上的优势。但是,广域RDMA继承了RDMA技术可以避免数据转存过程中多次数据复制的优势,能够有效降低CPU与内存的压力,能够带来机理上的优势。此外,考虑到RoCEv2是目前DC内部署的主流方案,在跨DC场景中仍采用RDMA技术,还可以保持软件开发在DC内部和DC间的一致性和易移植性。 因此,针对多云数据备份、长距离云存储等场景对数据搬运的效率和性能提出的高要求,虽然广域RDMA技术并非是绝对的刚需技术,但其相对于传统TCP技术能够提供机理性的优势,使其具备了很高的应用价值。长距数据搬运中广域RDMA技术所面临的挑战,主要是如何在长距场景中优化其传输效率,目标是至少要保持与传统TCP相当的传输效率,从而让上层能够采用上位的RDMA替代传统的TCP。 综合来看,对于运营商,大量线下数据搬移将有机会