行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

陆璐：在网计算(NACA)技术白皮书解读

信息技术 2023-09-01 中国移动研究院单字一个翔

在网计算（NACA）技术白皮书解读

中国移动提出的“算力网络”新理念

背景与目标：中国移动敏锐地把握算力时代的脉搏，提出了“算力网络”的全新理念，旨在以网络驱动算力发展，实现算力的高效协同与融合。
发展阶段：算力网络经历了从泛在协同发展到融合统一，再到一体内生的三个阶段，逐步深化，致力于构建智能时代的数字基础设施。

“算网一体”深化算力网络发展

发展阶段概述：
- 起步阶段：强调泛在协同，促进算力资源的广泛接入与共享。
- 深化阶段：融合统一，提升算力与网络的整合效率。
- 高级阶段：一体内生，实现算力与网络的深度融合与一体化服务。

算网一体架构与设计

核心概念：通过“联合感知”、“混合控制”与“极致互联”构建面向未来的数字基础设施架构。
关键技术：包括算力路由、在网计算、互联网架构的创新、协议优化、算网数字孪生、广域RDMA等。

在网计算与挑战

主要优势：压缩通信时间、提升系统性能，实现数据随转随算。
挑战：应用场景的垂直化、协议实现的封闭性、编程范式的不友好等问题。

在网计算发展现状与挑战

产业布局：在网计算的理论与实践已得到产业与学术界的关注，但仍面临多方面挑战。
技术挑战：包括成本、兼容性、开发模式、运行框架的局限性等。

NACA技术架构与核心特征

逻辑物理统一：优化网络与业务逻辑的映射，增强网络的亲和性。
通信原语统一：定义统一通信库，提升通用性。
编程范式统一：提供统一的编程框架，简化开发。
资源管理统一：构建统一的资源管理体系，优化资源利用。

关键技术解析

计算语义映射：实现传统网络设备与在网计算设备之间的高效通信。
计算正确性保障：确保在网计算结果与端侧计算结果的一致性。
计算程序网内编排：实现程序在网内的高效部署与编排。
网内资源池化：通过虚拟化技术，实现资源的高效管理和动态分配。

总结与展望

技术攻关与合作：聚焦关键挑战，推动技术进步与产业合作。
技术开源与标准化：促进技术开放与标准制定，构建共享生态。
联合试验验证：基于实际平台，验证新技术的有效性和可行性。
推动产业发展：携手产业界，共同推进在网计算技术的深入研究与应用。

此白皮书总结了中国移动在“算力网络”领域的创新理念、技术架构、面临的挑战及未来发展方向，强调了“算网一体”的战略意义，并提出了一系列技术创新和合作计划，旨在推动算力网络技术的发展与应用，助力智能时代的信息基础设施建设。

中国移动陆璐2023年8月中国移动提出“算力网络”新理念中国移动充分发把握算力时代发展脉络，以网强算提出“算力网络”全新理念，两年多来持续开拓创新，全力推进算力网络发展，形成一系列创新成果，在业界取得了广泛共识，引起了巨大反响 “算网一体”是中国移动算力网络发展的深化算网一体架构及总体设计算网一体通过“联合感知”“混合控制”“极致互联”构建面向智能化时代的数字基础设施分布式系统面临通信开销瓶颈问题分布式应用场景在网计算主要面向分布式应用，随着分布式系统规模不断扩大，计算节点间的通信量激增，通信模式更加复杂，通信开销已成为AI、大数据、HPC等分布式应用的性能瓶颈，严重制约系统规模扩展不同模型在进行分布式训练时，各阶段的时间分布不同ResNet 269的通信时间最长，且还有较长的Aggregator，AlexNet还具有较长的Synchronization，等等 •采用8个workers和8个PSs的网络训练AlexNet模型，网络通信时间占比可高达80%以上•面向AI场景的网络优化需要更细粒度的通信算子优化方案需要尽可能压缩通信的时延占比，同时结合不同类型的通信过程优化分布式系统通信性能 [1] Parameter Hub: a Rack-Scale Parameter Server for Distributed Deep Neural Network Training，https://dl.acm.org/doi/10.1145/3267809.3267840 衡量分布式应用通信性能的重要指标是任务完成时间，负载均衡策略、计算节点多打一现象以及物理与逻辑通信模式不匹配等因素引发通信瓶颈问题，导致任务完成时间过长网络侧ECMP实现AI训练流量调度，AI训练以巨型流为主，HPC业务以高并发小流为主，传统网络调度方式难以满足AI、HPC等计算密集型业务场景流量调优目标。大数据流式计算多对一的数据处理模式：训练最后一级交换机和接收方之间Incast拥塞，造成计算流长尾时延，计算任务完成时间过长。多对多逻辑通信需求与点对点物理通信实现：进程间MPI接口设计包含多对一、一对多及多对多的通信需求，计算节点间目前以单播实现MPI接口，物理网络存在大量冗余信息在网计算有望攻克分布式系统通信瓶颈问题在网计算突破现有计算模式，重构应用处理逻辑，为系统算效提升带来质变与传统软件实现消息同步相比，IB SHARP方案性能提升近9倍产业已逐步布局在网计算的研究和实践，中国移动积极推进试验验证和标准制定产业与学术进展中国移动CFITI试验网创新验证标准推进：在CCSA TC3 WG3牵头完成业界首个在网计算行标立项在网计算方向已有一定共识，但仍面临多方面发展挑战，需要产学研协同攻关在网计算发展挑战在网计算发展面临应用场景竖井式、协议实现封闭化、以及编程范式不友好等挑战编程不友好开发模式有差异：应用程序开发模式和网络开发模式不匹配，开发者学习门槛高运行框架不支持：Tensorflow、Spark等分布式开发框架不支持在网计算能力调用基于IB协议栈及专用硬件的在网计算，性能优势明显，但成本高，协议栈封闭不兼容现有在网计算方案面向单一场景竖井式设计，在协议设计和硬件实现等方面缺乏通用性需要从产业、生态等方面破除技术壁垒，构建统一通用的在网计算能力在网计算NACANetworkAssistedComputingAcceleration 逻辑物理统一 NACA以提升在网计算通用性为目标，重构应用处理模式，构建全新的在网计算通信库，围绕拓扑映射、编程范式、计算实现、资源管理形成”四个统一”，实现网络辅助计算加速，在网计算NACA技术架构 NACA架构核心在“一横一纵”，横向在网计算通信库承上启下，以异构网内算力实现统一在网计算服务，纵向编排管理全栈贯通，优化应用开发模式、协同端网任务部署、统筹网内资源管理核心特征1：逻辑物理统一 NACA在网计算物理实现比传统计算实现方式更加亲和业务逻辑拓扑，网络与业务紧密耦合在网计算在网计算相较传统计算与逻辑拓扑映射更亲和统一核心特征2：通信原语统一 NACA面向差异化应用定义统一在网计算通信库，以统一的设备原语实现通信库，提升在网计算的通用性核心特征3：编程范式统一 NACA面向不同应用程序设计，提供统一编程语言及通用开发模式，简化异构设备开发入口核心特征4：网内资源统一 NACA基于RDMA、CXL等高性能互联协议构建统一在网计算资源池，优化网络资源管理，提升网内资源利用率关键技术1：计算语义映射消息是分布式应用进程间通信的传递内容。传统网络设备基于数据包转发，在网计算设备基于消息处理，因此需要把消息和数据包的语义映射起来关键技术2：计算正确性保障在网计算要保证与端侧计算的结果等价，即保证计算正确性。计算正确性还受丢包影响，网络拥塞和乱序则会加剧丢包，因此网络拥塞控制、可靠性传输是在网计算正确性和计算效率的保障方案：依靠拥塞控制和可靠性传输降低丢包 •利用bitmap高效记录已收到和已处理包的序号；•基于现有可靠性传输协议如Go-Back-N、选择性重传等，针对在网计算进行改进。所有数据包 •优化网络负载均衡方案，避免负载不均导致的拥堵；•基于现有PFC、ECN、DCQCN等流量控制机制针对在网计算进行改进关键技术3：计算程序网内编排关键技术4：网内资源池化虚拟化和池化管理技术，统一北向接口，屏蔽异构硬件差异异构网络设备对接，端网资源一致性计算、传输周期交替，内存利用率待提高跨设备资源统一池化北向统一对接调度、南向注册异构网络、南向通设备内存虚拟化多租户、多实例、细粒度、动态分配知计算服务器、一致性更新协议总结与展望 •深化在网计算技术攻关围绕在网计算关键技术挑战进行联合攻坚，共同探索解决方案，推进在网计算成为网络内生的普适能力。 •推动在网计算技术开源及标准化逐步开展在网计算标准制定及开源工作，突破行业技术壁垒，共同构筑开放共享的在网计算发展局面。 •开展在网计算联合试验验证基于中国移动CFITI试验平台，联合开展在网计算创新技术验证，不断推进产业成熟。希望携手产业界推进在网计算NACA技术的开拓和研究！中移智库公众号中国移动研究院公众号

点击免费查看完整报告

陆璐：在网计算(NACA)技术白皮书解读

在网计算（NACA）技术白皮书解读

中国移动提出的“算力网络”新理念

“算网一体”深化算力网络发展

算网一体架构与设计

在网计算与挑战

在网计算发展现状与挑战

NACA技术架构与核心特征

关键技术解析

总结与展望

你可能感兴趣

2023年在网计算(NACA)技术白皮书

陆璐：数字孪生网络数字孪生网络研究及标准化进展

陆璐：6G网络架构详细设计

陆璐： “三体四层五面”的6G架构中孪生体的思考和探索

云原生机密计算&商用密码技术最佳实践白皮书

Atlas 900 RCK A2 计算节点技术白皮书（AICC 场景）

技术白皮书：通用增量计算101

电力设备与新能源行业周报：风电零部件Q3业绩预告高增长，泛在网白皮书发布

《面向新型工业化的5G内生确定技术白皮书》解读：5G内生确定赋能数智工厂

【电报解读】大算力风潮下该技术优势凸显，运营商白皮书提出2024年新建项目10%规模试点这一技术，这家公司已经开始批量交付1Qkw以及20kw以上相关机柜

陆璐：在网计算(NACA)技术白皮书解读

你可能感兴趣

2023年在网计算(NACA)技术白皮书

陆璐： 数字孪生网络数字孪生网络研究及标准化进展

陆璐：6G网络架构详细设计

陆璐： “三体四层五面”的6G架构中孪生体的思考和探索

云原生机密计算&商用密码技术最佳实践白皮书

Atlas 900 RCK A2 计算节点 技术白皮书（AICC 场景）

技术白皮书：通用增量计算101

电力设备与新能源行业周报：风电零部件Q3业绩预告高增长，泛在网白皮书发布

《面向新型工业化的5G内生确定技术白皮书》解读：5G内生确定赋能数智工厂

【电报解读】大算力风潮下该技术优势凸显，运营商白皮书提出2024年新建项目10%规模试点这一技术，这家公司已经开始批量交付1Qkw以及20kw以上相关机柜

陆璐：数字孪生网络数字孪生网络研究及标准化进展

Atlas 900 RCK A2 计算节点技术白皮书（AICC 场景）