行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023年在网计算(NACA)技术白皮书

2023-08-15 - 中移智库程思齐Sophie

投资必备研报查询平台发现报告，官网地址www.fxbaogao.com。这里汇集市场绝大多数研报资料，宏观、行业、个股、财报类报告一应俱全，整体报告储备量级远超同行平台。长期拥有庞大稳定用户流量，依靠扎实技术实力保障数据时效，极简体验提升用户信息检索整体效率。

中移智库发布单位：中移智库编制单位：中国移动研究院、华为技术有限公司、清华大学、北京大学、北京邮电大学、香港科技大学（广州）、中国科学技术大学、新华三技术有限公司、博通公司、英特尔（中国）有限公司、中兴通讯股份有限公司、苏州盛科通信股份有限公司编制人员：陆璐、孙滔、李志强、刘鹏、姚柯翰、徐世萍、牟彦、刘畅、王巧灵、厉益舟、张翠敏、吴文斐、刘斌、潘恬、徐文佺、DirkKutscher、徐宏力、王伟锋、陈艳庆、张玺、李和松、王力人工智能和大数据等新兴科技产业正深刻影响我国经济社会发展，推动各行各业数字化转型升级。大数据处理、高性能计算以及人工智能大模型背后需要庞大的算力资源，对算力的高效稳定供给提出挑战。为推动国家新基建战略的落实和“东数西算”工程走向纵深，中国移动充分发挥中央企业“网络强国、数字中国、智慧社会”主力军作用，系统打造以5G、算力网络、智慧中台为重点的新型信息基础设施，创新构建“连接+算力+能力”新型信息服务体系。2021年，中国移动发布《算力网络白皮书》[1]，制定了算力网络总体发展策略，明确了核心理念、场景展望、发展路径以及技术体系，提出了“泛在协同”、“融合统一”和“一体共生”的三个发展阶段，随后发布《算力网络技术白皮书》[2]及《算网一体网络架构及技术体系展望白皮书》[3]，持续打造算力网络技术体系，推动算力网络原创技术攻关，助力我国数字经济的健康发展。在网计算是算网一体原创技术体系中的核心技术之一。面向大规模高算力需求的分布式应用，在网计算使用网络设备进行近数据计算，可以在高速转发过程完成应用数据处理，同时缩短数据传输路径，是解决分布式应用通信瓶颈问题的重要技术。在网计算是计算、网络双学科交叉融合的创新方向，赋能通用计算、智能计算以及超算等多样化业务场景，最大化提升业务计算服务能力，为用户提供高效、安全、可靠的算力增强服务，助推算力网络走向纵深，以及数字中国、东数西算等国家战略的实施。本白皮书详细描述了在网计算产生的背景及需求以及典型应用场景，通过总结现有技术存在的问题，提出在网计算新架构，分析关键技术和挑战，并对在网计算未来发展提出倡议。本白皮书的版权归中国移动所有，未经授权，任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。目录 1背景和需求........................................................................................................2 2应用场景............................................................................................................4 2.1在网计算赋能先进计算中心................................................................42.2在网计算加速边缘万物智联................................................................6 3在网计算（NACA）技术架构.........................................................................9 3.1概念与架构............................................................................................93.2NACA核心特征.....................................................................................113.3功能视图..............................................................................................15 4关键技术及挑战..............................................................................................18 4.1计算语义映射......................................................................................184.2计算正确性保障..................................................................................194.3计算程序网内编排..............................................................................194.4网内资源池化......................................................................................20 5推进展望..........................................................................................................23 参考文献..............................................................................................................24 缩略语列表..........................................................................................................25 1背景和需求高性能计算（HPC）和人工智能（AI）等技术的发展正不断推动生物医药、航空航天、地质勘探等领域取得重大突破，随之也带来了不断激增的计算量，必须通过大规模集群算力才能充分发挥优势。例如，ChatGPT模型参数总量已经达到千亿级别，高性能计算也已经迈向百亿亿级计算时代。同时，5G、工业互联网等新技术的应用正推动现代网络向万物智联不断演进，推动生产力迈向新台阶。大规模传感器、智能终端产生的海量数据需要高效、实时、便捷、稳定地进行处理，也需要大量泛在算力的支持。在这样的需求下，分布式应用的系统性能提升却面临以下两点挑战：算力能力方面，随着摩尔定律逐渐失效，单一节点算力增长速度逐渐放缓，已无法满足不同应用场景的性能诉求。多元化的算力承载和以业务为中心的融合方案是演进的必然趋势。必须以融合的视角重新审视计算体系结构和网络体系架构，对CPU/GPU/ASIC/FPGA/NPU等各种计算资源进行整合。分布式系统内部通信方面，随着系统规模的不断扩大，计算节点数量已经达到数万甚至数十万，计算节点间的通信量不断增加，且通信模式更加复杂，为分布式系统设计带来巨大挑战。高性能分布式数据处理对实时性、可靠性、安全性、一致性等提出更高要求，通信已经成为成为瓶颈问题，主要来源于以下三点。一是网络负载均衡策略无法适应智能计算、HPC等场景下差异化流量模式；二是大规模分布式系统接收端面临的incast多打一问题，造成任务完成时间过长；三是分布式应用中普遍存在的一对多、多对一、多对多的逻辑通信模式与物理网络中点到点的通信实现不匹配，网络中存在大量冗余信息，影响系统性能。在网计算使用网络设备进行近数据计算，可以在线速处理的同时完成流量压缩，同时缩短数据传输路径，很大程度上解决了上述痛点问题。目前，在网计算技术在智能计算及超算领域已有部分研究成果和产业应用。例如基于在网计算实现分布式机器学习模型训练加速[4]以及基于Infiniband技术提出的Sharp技术[5]可以加速HPC等大规模计算密集型任务。但是在网计算当前仍面临应用场景竖井式、协议实现封闭化、编程范式不友好等挑战。基于以上考量，本白皮书提出了在网计算新架构NACA（NetworkAssistedComputingAcceleration），系统化推进在网计算设计和实现。在网计算 NACA是一种与应用深度融合，实现网络辅助计算加速的新模式，通过重塑应用处理和开发模式，实现系统加速，提升算网资源利用率。白皮书第二章全面分析了在网计算的应用场景，第三章给出在网计算NACA的概念、技术架构以及核心特征，第四章分析了NACA关键技术和挑战，最后提出倡议，希望联合产学研持续攻关，推进在网计算技术应用和发展。 2应用场景 2.1在网计算赋能先进计算中心 (1)高性能计算高性能计算通过发挥规模集群算力，实现复杂任务处理，广泛应用于气象、地震、生物、材料等多个领域。高性能计算网络提供了高带宽、低延迟的互联解决方案，支持各种计算密集型和数据密集型应用的运行。自2013年起，高性能计算TOP500[13]性能上升速率明显变缓，依靠硬件堆叠单个超算中心计算能力面临技术瓶颈限制，难以满足超大复杂任务的计算需求。传统聚合通信过程中的计算在服务器侧完成，网络只负责转发。当采用参数服务器的方式实现数据并行时，多个工作节点在自己的数据集上进行参数训练，然后将训练结果发送到参数服务器完成参数聚合，再将结果广播给各个工作节点。在这种通信模式下，参数服务器的输入链路往往成为整个系统的性能瓶颈。随着服务器规模和计算量的不断提升，服务器数据交互的次数会显著增加，转发时延不断增大，其对网络性能的压力也越来越大。在网计算功能采用交换设备卸载参数聚合过程，可以有效地提高聚合通信的效率，降低总的任务完成时间。以典型的MPI聚合算子AllReduce为例，其通信交互复杂度为O(logN)（N表示服务器节点规模）。如图1（a）所示，传统聚合通信方式，8个节点（N=8）进行AllReduce计算总共需要3个批次的通信，复杂度为O(logN)；图1（b）为采用了在网计算加速的聚合通信方式，8个节点进行AllReduce计算，由接入leaf进行第一次汇聚，由spine交换机进行第二次汇聚，总的通信批次只与网络的层次数量有关，交互复杂度变为常量O(C)，C表示网络的层级数，与服务器节点规模无关，极大地减少了服务器集群间的通信交互过程，降低了HPC小字节报文场景下的网络时延，提升了计算效率。聚合通信在分布式机器学习系统中也广泛使用，随着大模型训练的发展，在网聚合操作成为在网计算的典型基础功能，能够有效提升分布式机器学习系统的应用处理效率。 (2)高性能存储分布式系统的一致性是分布式处理领域最为基础也最为重要的问题。在分布式高性能存储系统中，对于一组服务器，给定一组操作，需要使得最后服务器的执行结果达成一致。具体来说，当其中某个服务器收到客户端的一组指令时，它需要与其它服务器交流，以保证所有的服务器都是以同样的顺序收到同样的指令，从而保证所有的服务器产生一致的结果。现有的分布式数据库、分布式存储系统中，存在大量的并发读、写操作。这些操作对同一对象的并发读取或修改可能造成数据的不一致。为了保证数据的一致性，分布式锁得以广泛应用。当一个进程需要对某个对象进行读、写操作前需要首先获取对应的读、写锁，基于锁的统一管理，进程中的内容可以有序访问，文件内容的修改也可以保证全局唯一性。在网计算可以将保障分布式系统一致性的功能卸载到交换机。其一是交换机位于网络中，请求无需转发到对应的服务器，从而减少传输路径时延；其二交换机具有强大的数据包处理能力，数据包可以线速通过交换机，因而可以降低处理时延。在分布式数据库、分布式存储等场景应用在

点击免费查看完整报告

2023年在网计算(NACA)技术白皮书

你可能感兴趣

陆璐：在网计算(NACA)技术白皮书解读

云原生机密计算&商用密码技术最佳实践白皮书

Atlas 900 RCK A2 计算节点技术白皮书（AICC 场景）

技术白皮书：通用增量计算101

2023年人工智能计算基础设施白皮书

广西鲲鹏计算产业生态发展白皮书（2023年）

电力设备与新能源行业周报：风电零部件Q3业绩预告高增长，泛在网白皮书发布

2023年中国生物计算行业技术趋势及科技竞争格局调研报告

2023年中国超级计算行业技术趋势及科技竞争格局调研报告

2023年AI降噪技术白皮书

2023年在网计算(NACA)技术白皮书

你可能感兴趣

陆璐：在网计算(NACA)技术白皮书解读

云原生机密计算&商用密码技术最佳实践白皮书

Atlas 900 RCK A2 计算节点 技术白皮书（AICC 场景）

技术白皮书：通用增量计算101

2023年人工智能计算基础设施白皮书

广西鲲鹏计算产业生态发展白皮书（2023年）

电力设备与新能源行业周报：风电零部件Q3业绩预告高增长，泛在网白皮书发布

2023年中国生物计算行业技术趋势及科技竞争格局调研报告

2023年中国超级计算行业技术趋势及科技竞争格局调研报告

2023年AI降噪技术白皮书

Atlas 900 RCK A2 计算节点技术白皮书（AICC 场景）