在网计算(NACA)技术白皮书(2023年) 在网计算(NACA)技术白皮书 (2023年) 中移智库 1 中国移动研究院2023年8月 发布单位:中移智库 编制单位:中国移动研究院、华为技术有限公司、清华大学、北京大学、北京邮电大学、香港科技大学(广州)、中国科学技术大学、新华三技术有限公司、博通公司、英特尔(中国)有限公司、中兴通讯股份有限公司、苏州盛科通信股份有限公司 编制人员:陆璐、孙滔、李志强、刘鹏、姚柯翰、徐世萍、牟彦、刘畅、王巧灵、厉益舟、张翠敏、吴文斐、刘斌、潘恬、徐文佺、DirkKutscher、徐宏力、王伟锋、陈艳庆、张玺、李和松、王力 人工智能和大数据等新兴科技产业正深刻影响我国经济社会发展,推动各行各业数字化转型升级。大数据处理、高性能计算以及人工智能大模型背后需要庞大的算力资源,对算力的高效稳定供给提出挑战。为推动国家新基建战略的落实和“东数西算”工程走向纵深,中国移动充分发挥中央企业“网络强国、数字中国、智慧社会”主力军作用,系统打造以5G、算力网络、智慧中台为重点的新型信息基础设施,创新构建“连接+算力+能力”新型信息服务体系。2021年,中国移动发布《算力网络白皮书》[1],制定了算力网络总体发展策略,明确了核心理念、场景展望、发展路径以及技术体系,提出了“泛在协同”、“融合统一”和“一体共生”的三个发展阶段,随后发布《算力网络技术白皮书》[2]及《算网一体网络架构及技术体系展望白皮书》[3],持续打造算力网络技术体系,推动算力网络原创技术攻关,助力我国 数字经济的健康发展。 在网计算是算网一体原创技术体系中的核心技术之一。面向大规模高算力需求的分布式应用,在网计算使用网络设备进行近数据计算,可以在高速转发过程完成应用数据处理,同时缩短数据传输路径,是解决分布式应用通信瓶颈问题的重要技术。在网计算是计算、网络双学科交叉融合的创新方向,赋能通用计算、智能计算以及超算等多样化业务场景,最大化提升业务计算服务能力,为用户提供高效、安全、可靠的算力增强服务,助推算力网络走向纵深,以及数字中国、东数西算等国家战略的实施。 本白皮书详细描述了在网计算产生的背景及需求以及典型应用场景,通过总结现有技术存在的问题,提出在网计算新架构,分析关键技术和挑战,并对在网计算未来发展提出倡议。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。 目录 ................................................................................................................. ..................................................................................................................... 1背景和需求2 2应用场景4 2.1在网计算赋能先进计算中心4 2.2在网计算加速边缘万物智联6 3在网计算(NACA)技术架构9 3.1概念与架构9 3.2NACA核心特征11 3.3功能视图15 4关键技术及挑战18 4.1计算语义映射18 4.2计算正确性保障19 4.3计算程序网内编排19 4.4网内资源池化20 5推进展望23 参考文献24 缩略语列表25 1背景和需求 高性能计算(HPC)和人工智能(AI)等技术的发展正不断推动生物医药、航空航天、地质勘探等领域取得重大突破,随之也带来了不断激增的计算量,必须通过大规模集群算力才能充分发挥优势。例如,ChatGPT模型参数总量已经达到千亿级别,高性能计算也已经迈向百亿亿级计算时代。同时,5G、工业互联网等新技术的应用正推动现代网络向万物智联不断演进,推动生产力迈向新台阶。大规模传感器、智能终端产生的海量数据需要高效、实时、便捷、稳定地进行处理,也需要大量泛在算力的支持。在这样的需求下,分布式应用的系统性能提升却面临以下两点挑战: 算力能力方面,随着摩尔定律逐渐失效,单一节点算力增长速度逐渐放缓,已无法满足不同应用场景的性能诉求。多元化的算力承载和以业务为中心的融合方案是演进的必然趋势。必须以融合的视角重新审视计算体系结构和网络体系架构,对CPU/GPU/ASIC/FPGA/NPU等各种计算资源进行整合。 分布式系统内部通信方面,随着系统规模的不断扩大,计算节点数量已经达到数万甚至数十万,计算节点间的通信量不断增加,且通信模式更加复杂,为分布式系统设计带来巨大挑战。高性能分布式数据处理对实时性、可靠性、安全性、一致性等提出更高要求,通信已经成为成为瓶颈问题,主要来源于以下三点。一是网络负载均衡策略无法适应智能计算、HPC等场景下差异化流量模式;二是大规模分布式系统接收端面临的incast多打一问题,造成任务完成时间过长;三是分布式应用中普遍存在的一对多、多对一、多对多的逻辑通信模式与物理网络中点到点的通信实现不匹配,网络中存在大量冗余信息,影响系统性能。 在网计算使用网络设备进行近数据计算,可以在线速处理的同时完成流量压缩,同时缩短数据传输路径,很大程度上解决了上述痛点问题。目前,在网计算技术在智能计算及超算领域已有部分研究成果和产业应用。例如基于在网计算实现分布式机器学习模型训练加速[4]以及基于Infiniband技术提出的Sharp技术[5]可以加速HPC等大规模计算密集型任务。 但是在网计算当前仍面临应用场景竖井式、协议实现封闭化、编程范式不友好等挑战。基于以上考量,本白皮书提出了在网计算新架构NACA(NetworkAssistedComputingAcceleration),系统化推进在网计算设计和实现。在网计算 NACA是一种与应用深度融合,实现网络辅助计算加速的新模式,通过重塑应用处理和开发模式,实现系统加速,提升算网资源利用率。 白皮书第二章全面分析了在网计算的应用场景,第三章给出在网计算NACA的概念、技术架构以及核心特征,第四章分析了NACA关键技术和挑战,最后提出倡议,希望联合产学研持续攻关,推进在网计算技术应用和发展。 2应用场景 2.1在网计算赋能先进计算中心 (1)高性能计算 高性能计算通过发挥规模集群算力,实现复杂任务处理,广泛应用于气象、地震、生物、材料等多个领域。高性能计算网络提供了高带宽、低延迟的互联解决方案,支持各种计算密集型和数据密集型应用的运行。自2013年起,高性能计算TOP500[13]性能上升速率明显变缓,依靠硬件堆叠单个超算中心计算能力面临技术瓶颈限制,难以满足超大复杂任务的计算需求。 传统聚合通信过程中的计算在服务器侧完成,网络只负责转发。当采用参数服务器的方式实现数据并行时,多个工作节点在自己的数据集上进行参数训练,然后将训练结果发送到参数服务器完成参数聚合,再将结果广播给各个工作节点。在这种通信模式下,参数服务器的输入链路往往成为整个系统的性能瓶颈。随着服务器规模和计算量的不断提升,服务器数据交互的次数会显著增加,转发时延不断增大,其对网络性能的压力也越来越大。在网计算功能采用交换设备卸载参数聚合过程,可以有效地提高聚合通信的效率,降低总的任务完成时间。 以典型的MPI聚合算子AllReduce为例,其通信交互复杂度为O(logN)(N表 示服务器节点规模)。如图1(a)所示,传统聚合通信方式,8个节点(N=8)进行AllReduce计算总共需要3个批次的通信,复杂度为O(logN);图1(b)为采用了在网计算加速的聚合通信方式,8个节点进行AllReduce计算,由接入leaf进行第一次汇聚,由spine交换机进行第二次汇聚,总的通信批次只与网络的层次数量有关,交互复杂度变为常量O(C),C表示网络的层级数,与服务器节点规模无关,极大地减少了服务器集群间的通信交互过程,降低了HPC小字节报文场景下的网络时延,提升了计算效率。 图1(a)端侧实现AllReduce1(b)在网计算实现AllReduce 聚合通信在分布式机器学习系统中也广泛使用,随着大模型训练的发展,在网聚合操作成为在网计算的典型基础功能,能够有效提升分布式机器学习系统的应用处理效率。 (2)高性能存储 分布式系统的一致性是分布式处理领域最为基础也最为重要的问题。在分布式高性能存储系统中,对于一组服务器,给定一组操作,需要使得最后服务器的执行结果达成一致。具体来说,当其中某个服务器收到客户端的一组指令时,它需要与其它服务器交流,以保证所有的服务器都是以同样的顺序收到同样的指令,从而保证所有的服务器产生一致的结果。 现有的分布式数据库、分布式存储系统中,存在大量的并发读、写操作。这些操作对同一对象的并发读取或修改可能造成数据的不一致。为了保证数据的一致性,分布式锁得以广泛应用。当一个进程需要对某个对象进行读、写操作前需要首先获取对应的读、写锁,基于锁的统一管理,进程中的内容可以有序访问,文件内容的修改也可以保证全局唯一性。 在网计算可以将保障分布式系统一致性的功能卸载到交换机。其一是交换机位于网络中,请求无需转发到对应的服务器,从而减少传输路径时延;其二交换机具有强大的数据包处理能力,数据包可以线速通过交换机,因而可以降低处理时延。在分布式数据库、分布式存储等场景应用在网计算,可以加速分布式系统的共识,仅需sub-RTT的响应时间,并有效提高端侧的吞吐量。 (3)大数据流式处理 在各个业务领域,对于海量数据的收集和分析可以为业务提供决策依据。传统的大数据分析系统还是采用传算分离的体系结构,即端侧服务器进行数据的计 算,ShuffleManager和网络在服务器间进行数据通信。(Shuffle是Spark[11]作业中对数据进行重新分区的过程,ShuffleManager是Spark中负责管理Shuffle过程的组件。) 在网计算可以把部分算子和网络传输联合设计,提升系统效率。大数据典型编程范式MapReduce[12]中,一个Reducer会从多个Mapper中拉取数据,进行规约操作。例如,词频统计应用WordCount需要对分散在多机的单词计数进行汇总;SQL应用中,先分类(groupby)再汇总(sum、count)也是常见的计算模式。在在网计算体系结构中,规约操作可以在数据流经交换机时随路完成,不占用额外的计算时间和服务器资源。另外,过滤(filter)和过滤重复项(distinct)算子也可以卸载到交换机进行。比较两种体系结构,大数据算子在端侧执行时,会涉及到多次内存、磁盘数据读写(例如,外排序),而在网计算可以对数据进行流式处理,减少此类开销,提升系统效率。 2.2在网计算加速边缘万物智联 (1)车联网 车联网需要人、车、路、网、云高度协同,在网计算技术可以与车载计算平台、路侧计算设备以及边缘计算云进行深度融合,构成多级混合分布式计算系统,以协助压缩数据流量,缩短通信时延,提高处理的实时性。 路侧设备的部分数据需要上传云端做处理,由于路侧设备、车辆、行人数量庞大,因此产生的数据也是海量的。利用在网计算做数据处理和聚合,可以减少传输负载,简化云端处理流程,降低时延。同时,对于车联网中需要实时数据识别、推理的业务,利用在网计算技术在路侧边缘设备做数据识别和推理,可以大大减少需要回传云端数据量。 图2在网计算车联网用例 文献[6]给出了进一步的方案,基于网络推理解决方案,在转发良性流量时,提取流量特征,发现可疑流量时将立即丢弃并记录到控制平面。基于这些流量特征数据,控制平面重新训练当前模型,以从新的流量模式中学习并生成一组新规则来映射新模型的参数,然后将更新的规则插入数据平面并删除过时的规则。通过这个更新的设置,能够从新到达的流量中学习并持续消除异常流量。 (2)XR 扩展现实(ExtendedReality,XR)是VR、AR和MR等多种技术的统称,是当前产业应用关注的热点。随着XR技术不