您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[罗森伯格]:2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书

信息技术2024-06-17罗森伯格灰***
2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书

白皮书白皮书: 面向AI智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 1 /19页面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书 白皮书白皮书: 面向AI智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 2 /19页1 AIGC 及智算网络简述...............................................................................................................3 1.1 AIGC 市场前景................................................................................................................... 31.2 AI 网络架构对于 AIGC 应用发展的重要性 ...................................................................... 31.3 传统云计算数据中心网络架构 ........................................................................................ 41.4 智算中心网络架构 ............................................................................................................ 51.5 AI网络架构所能容纳的最多GPU数量............................................................................ 51.6 AI计算网络中对于GPU与CPU的权衡........................................................................... 62 AI智算网络两大主流架构介绍及差异......................................................................................72.1 InfiniBand网络架构......................................................................................................... 72.1.1 InfiniBand 网络流控机制.............................................................................................72.1.2 InfiniBand 网络特点:链路级流控与自适应路由..........................................................82.2 RoCEv2网络架构.............................................................................................................. 82.2.1 RoCEv2网络流控机制...................................................................................................82.2.2 RoCEv2 网络特点:强大兼容性与成本优化...................................................................92.3 InfiniBand与RoCEv2的技术差异................................................................................... 93 AI智算网络800G/1.6T主流传输方案......................................................................................93.1 800G主流传输方案与1.6T传输方案展望.......................................................................93.2 实际应用环境对传输带宽的影响 .................................................................................. 103.3 单模传输创新解决方案:基于EBO(Expanded Beam Optical)的扩束技术.......... 113.4 室外超大芯数传输安全可靠解决方案:预端接技术 ................................................... 134 AI智算网络降耗增效解决方案................................................................................................154.1 创新光模块LPO与其他光模块的技术差异.................................................................. 164.2 应对AI数据中心高能耗高热量的问题——液冷解决方案.......................................... 164.2.1 罗森伯格液冷解决方案——灵活安装的配线架....................................................... 174.2.2 罗森伯格液冷解决方案——半浸没式 RJ45 跳线...................................................... 174.2.3 罗森伯格液冷解决方案——即插即拔防水连接器................................................... 185 结语............................................................................................................................................19参考文献.......................................................................................................................................19目 录 白皮书白皮书: 面向AI智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 3 /19页1 AIGC 及智算网络简述 2024 年以来,全球 AI 市场热度不衰。Open AI 旗下 Sora 的发布,再次拔高了 AI 内容创作的上限。同时,国内人工智能领域也迎来了新的焦点——Kimi,这款 AI 大模型产品凭着高达 200 万字的上下文窗口技术,将国产 AI 大模型“卷”出了新高度。业界普遍预测,2024 年将成为 AI 大模型应用的爆发之年。 1.1 AIGC 市场前景IDC 的数据显示,全球企业对生成式人工智能(下文简称:“AIGC”)解决方案的投资热情不断上升,预计到 2024 年投资额将达到 200 亿美元,而到 2027 年,这一数字预计将激增至超过 1400 亿美元。这一趋势不仅凸显了 AIGC 技术的商业潜力,也预示着 AI 将引领一个创新与增长的新时代。在这样的背景下,AIGC 的未来增长需要坚实的支撑——而 AI 网络架构正是这一增长的“骨骼”,它正逐渐成为推动 AI 发展的关键力量。 1.2 AI 网络架构对于 AIGC 应用发展的重要性 AI网络架构的重要性在AIGC应用的发展中显得尤为突出。在AIGC工具方面,厂商正通过深度技术投资,挖掘大量数据并提升算力,使得这些工具从基础应用转变为强大的生产力工具。而在AI社交领域,大模型的发展重点在于融合AI技术与用户互动,创造富有情感和温度的互动体验,旨在重塑用户体验并探索新的商业模式。其中,自主研发能力和丰富的训练数据成为了打造有竞争力产品的关键。我们不难发现,这两个赛道的发展都依赖高效、可靠的网络架构,以支持AI大规模训练集群的算力和显存需求。 白皮书白皮书: 面向AI智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 4 /19页LLM(大规模语言模型)进化树(来源:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond)传统云数据中心与 AI 智算中心网络架构对比图 1.3 传统云计算数据中心网络架构 传统的云数据中心网络架构较为成熟,但存在着诸多痛点,导致其无法完美适配 AI 网络架构需求。实际上,传统的云数据中心网络的设计基于对外提供服务的流量模型,以南北向流量为主导,云内部东西向流量作辅。承载智算业务时,传统云计算数据中心面临着如下挑战: 带宽收敛比较高:Leaf 交换机上下联带宽收敛比设计,导致上下联带宽比约为 1:3; 互访高时延:云内部服务器间互访都需经过 Spine 交换机,增加转发路径,提高时延; 网卡带宽低:单台物理机通常只有一张网卡,带宽不超过 200Gbps,限制了整体带宽。 这些问题共同影响了智算业务的高效运行,需要通过构建新的网络架构来应对需求。 白皮书白皮书: 面向AI智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 5 /19页AI 网络架构图(来源:锐捷)1.5 AI 网络架构所能容纳的最多 GPU 数量 AI 网络的性能和扩展性与其网络架构和交换机端口密度紧密相关,随着网络层次的增加,可接入的 GPU 卡数量也随之增长。在胖树网络架构中,例如端口数为 P 的交换机最多可连接 P/2 台服务器和其他交换机,其最大容量可达 P²/2 张 GPU 卡。在更复杂的三层网络架构中,通过增加汇聚和核心交换机组,网络容量可以进一步扩展至 P³/4 张 GPU 卡。随着技术的进步,市场上已经出现了能够支持高达 524k 张 GPU 卡的网络解决方案,这展示了 AI 网络架构在扩展性和性能上的巨大潜力。1.4 智算中心网络架构 AI 智算网络采用 Fat-Tree(胖树)架构,有效解决了传统云数据网络面临的挑战。这种架构通过 1:1 的无收敛配置,确保了网络的高性能和无阻塞传输。其次,为了降低时延,网络设计将 8 台交换机构成一个资源池,池内节点单跳通信,而跨集群通信则通过汇聚交换机,最多实现三跳传输,从而优化数据传输效率。 此外,网络采用 RDMA 技术,绕过操作系统

你可能感兴趣

hot

2023智算中心网络架构白皮书

信息技术
百度2023-08-17
hot

面向超万卡集群的新型智算技术白皮书

信息技术
中国移动研究院2024-04-28