螺旋冲击报告 当世界融合 跨数据中心、电信和企业网络的高速以太网的未来 螺旋冲击报告 汇聚新时代 以太网 新的机遇、前所未有的需求和迫切的创新正在定义以太网有史以来最为重大的转变。 我们荣幸地介绍我们的首份年度影响报告,追踪数据中心网络和高速以太网(HSE)市场最新的趋势 、需求和发展。 拥有超过二十年的以太网测试经验,我们的突破性工作涵盖了与全球各利益相关方的合作,包括公共云超大规模提供商、数据中心提供商、服务提供商、企业、政府和军事机构,以及全球范围内的网络设备提供商和芯片OEM厂商。 我们的见解和预测基于塑造高速以太网市场的发展交易、策略和创新所带来的宝贵视角。这包括Spirent在全球2023年支持的340项高速以太网(HSE)客户互动,其中超过25%的互动涉及400G和800G技术。 AI的进步意味着更多的以太网,无处不在 当所有目光都集中在人工智能的力量和潜力上时,或许从未有过更大的压力要求加快速度、不断拓展速度的边界,并relentless地追求市场中每一分竞争优势。 传统自北向南的数据中心策略正迅速让位于旨在服务于急剧扩大的市场基础的自东向西方法。利益相关方正在探索新的路径并涉足未验证的领域,以从现有技术中榨取出更多的容量以提高性能 。如今,变化的速度已经超过了标准跟进的能力。企业不再等待未来的发展来取得进步,电信运营商也抛弃了传统的策略,在雄心勃勃的部署周期中满足客户的需求。 在Spirent首份涵盖这一动态市场的报告中,我们自豪地呈现了对关键驱动因素、市场影响以及未来趋势的全面分析。 AniketKhosla,Spirent有线产品管理副总裁 2 里面有什么 高速以太网市场势头4 数据中心和AI网络演进6 数据中心网络市场洞察13 电信服务提供商有线网络18 企业有线网络22 高速以太网市场演进25 关于Spirent26 螺旋冲击报告 高速以太网市场势头 高速以太网市场更新 端口速度继续演变,各速度级别均表现出强劲的采用率,即使在中小企业(SMEs)和5G基站部署中,10G和25G的速度仍然保持着稳定的市场需求。市场在传统需求曲线之前就已经开始展望1.6T以太网,以便尽快抓住由AI驱动的机会,预计最早明年就能实现这一目标。(我们姊妹报告,)将想法转化为1.6T以太网的行动“详细说明了这个动态发展的生态系统的当前状态。) 稳定的需求驱动由SEM的长尾和5G小区站点 持续需求服务驱动 供应商边缘 网络和媒介 成长的浪潮 最初由超大规模者然后刷新周期大型企业, 第2层和第3层云服务提供商 最初由增长驱动 由hyperscalers 支持AI 早期需求驱动+ 70 百万 超大规模生长 支持AI 部署中小企业 &大型电信公司 服务提供商 (IP核心升级) HSE港口在2023年发运 10/25 >90M 港口Est.toship2024-2026之间 1004008001.6TE 体积预计会爆炸到 百万 240+ 港口在2024年至2026年之间发货。 >65M 港口Est.toship2024-2026之间 >40M 港口Est.toship2024-2026之间 >42M 港口Est.toship2024-2026之间 >8.5M 港口Est.toship2025-2026 来源:Dell'OroGroup 来源:以太网联盟 4 螺旋冲击报告 网络技术成熟度 EMERGING 1.6T 以太网用于AI/HPC网络 不断增长 800G 10G RoCEv2Ultra以太网传输 成熟 400G 51.2T开关硅SerDes 10/25G 小区站点 汽车 以太网 企业&中央数据中心 1.6T以太网 预计数据中心流量将呈指数级增长,推动1.6TEthernet的研究。尽管IEEE802 .3dj将于2026年最终确定,但2024年的基线功能已经能够促进硅、光学组件和收发器的早期开发。 用于AI和HPC的以太网 Growing对于人工智能和高性能计算(HPC)的标准以太网基础IP网络需求的增长最初集中于基于合并以太网(ConvergedEthernet)的远程直接内存访问(RDMA,RemoteDirectMemoryAccess,RoCEv2),并预期将逐步演进至新的超以太网传输(UltraEthernetTransport,UET)标准。 800 初始部署将由超大规模数据中心主导,以支持数据中心内的AI应用,并利用可提供51.2Tbps带宽的交换机。800G技术提供了更高的带宽、更低的延迟、增强的能源效率以及更多的连接数,为数据中心互连在未来几年内做好了充分准备。 400 Adoption正从云超大规模提供商转向大型企业、第二和第三层级的云提供商以及大型电信公司,以进行IP核心升级。大型企业认为400G技术具有前瞻性 ,能够提供一条向800G及以上传输速率转换的更简单且成本更低的道路。 数据中心和AI网络演进 严苛的环境。数百英尺深的海底。竞争行业是否会为了追求前所未有的性能和效率而不惜涉足任何地方? 数据中心是先进高速以太网(HSE)解决方案的关键市场,这主要是由于需要支持不断增长的AI流量和网络需求。人工智能的影响不容忽视,因为它从根本上改变了数据中心和互连的方式,超越了传统云应用程序的影响。 大型云计算服务商面临巨大的压力以应对需求激增。仅仅几年时间,大型语言模型从OpenAI的GTP-3的1750亿密集参数增长到现在的万亿级别(GTP-4估计有1760亿参数)。集群规模每两年增长四倍。网络带宽已超过每加速器1Tbps。 Meta正在收购350,000块GPU以扩建其集群,并且他 们的新Llama3训练集群配备了24,576块GPU。这相当于每个机架有16块GPU,每个集群包含1,536个服务器机架。[来源:Meta] Google的专注于AI的A3超级计算机正 在整合约26,000个NvidiaH100HopperGPU。HPC电线] 亚马逊正在每个UltraScale集群 中扩展到20,000个NvidiaH100GPU。[来源:Nvidia] 甲骨文OCISupercluster在4,096 个计算裸机实例上扩展到多达32,768个NvidiaA100GPU。[来源:Oracle] 字节跳动据估计,在2023年期间,总共将接 收100,000个NvidiaA100和H800GPU。[来源 :数据中心动态] Microsoft据估计,已经有超过60 万个GPU,计划到2024年底扩大到180万个。福布斯] 支持人工智能是一项巨大的努力,伴随着同等规模的成本。各参与者在过去两年中在数据中心的支出已超过整个5G市场,预计2024年的投资将达到1160亿美元。 Dell'Oro预计数据中心资本支出将从2023年的2600亿美元增加到2028年的5000亿美元以上。 增长的规模令人惊叹,分析师估计,到2024年,用于数据中心AI处理的图形处理单元(GPUs)的出货量将达到超过220万台,每块GPU的成本范围从1.5万至4万美元。 有效的AI数据中心电力管理对于实现可持续发展目标和维持盈利能力至关重要。麦肯锡公司预测,到2030年,数据中心的电力消耗将达到35吉瓦,足以供应2620万家庭用电 。美国电力研究协会预计,到2030年,数据中心将消耗美国总电量的4.6%至9.1%。*此外,美国电力研究协会还发现,“每条ChatGPT请求消耗2.9瓦时电,人工智能查询的耗电量估计是传统Google查询的10倍。” resulting需求推动了诸如建设水下数据中心设施或将其定位在北欧国家的冰中、限制GPU、采用绿色编码,甚至回归使用小型语言模型等创新。 *EPRI,PoweringIntelligence:分析人工智能和数据中心能耗报告(2024年5月28日) 总功率比2010年 增加22倍 不懈的进步 在12年内增加 80倍带宽 可持续性/功耗模型,由以太网联盟提供 螺旋冲击报告 AI对数据中心网络设计的影响 GenAI正在成为数据中心资源和工作负载的快速增长的消费者。 数以万计的管理模型参数的快速增加。 一种称为“后端网络”的新网络已经发展起来,其唯一目的是处理GPU之间的数据移动。 的影响如此之大,以至于超大规模提供商必须要么构建一种新的单一架构以处理当前的云和企业工作负载以及AI(谷歌的方法),要么彻底重新架构AI数据中心。 尽管传统的前端以太网络必须扩展以处理大量模型训练数据集,但后端网络则承受着来自针对新数据集进行AI推断工作的不断上升的工作负载的压力。这些后端数据中心的训练工作负载需要多种GPU或其他xPU硬件加速器来扩大AI计算集群。 数据中心提供商必须进化其架构以应对每两年增长十倍的AI流量,并适应加速器GPU学习节点的扩展。 螺旋冲击报告 将这些加速器节点连接到大型GPU集群需要一个后端数据中心网络架构,这与主要用于连接通用服务器的传统前端网络有所不同。 为了支持AI,后端网络结构需要提供: 极高的吞吐量处理计算密集型和数据密集型工作负载 极低延迟通过多个节点快速处理工作负载 零数据包损失以降低延迟 大规模可扩展性用于数千个节点上的数十亿个参数 后端基础设施需要一个单独的、可扩展的、可路由的网络来连接成千上万甚至数十万的xPUs,以支持AI训练和推理 。 螺旋冲击报告 (100,400,800G) 数据中心架构示例 (10,25,100,200,400G) 计算 (CPU/GPU) 存储 (硬盘/固态硬盘) 脊叶网络体系结构东向西流量在AI训练和推理中的后端网络需求中被采用,这正在将传统的三层数据中心拓扑结构扁平化为两层架构,以提高带宽利用率、增强可扩展性、降低延迟、实现可预测的网络时延和并行处理。主干层包括用于路由和转发的交换机,是网络的基础骨架。叶层包括连接计算节点(GPU、CPU等)和存储系统(SSD、HDFS等)的交换机。AI后端网络作为高性能、可扩展且可靠的网络基础设施运行,专门优化以应对AI工作负载的需求,确保高效的数据处理、模型训练和推理。 这些需求要求新的AI数据中心设计满足特定要求,例如: 发送大型象形流流量将每个GPU训练结果输出到集群中的所有其他GPU以进行协调 增加网络带宽处理大量交换的数据 AI网络结构支出有望达到113.3亿美元,到2028年复合年增长率 “ 为27.1%。 -GARTNER® 惊人的低和决定性的延迟并且需要实现无丢包的数据传输以满足对延迟敏感的前端推断需求,并防止后端GPU超时和同步问题。 分布式培训工作负载需要并行技术来跨节点同步东西数据 ,作者:NareshSingh,发布日期:2024年4月 多种AI交通模式包括AlltoAll、RingAllReduce、AllGather和Broadcast等加特纳®,人工智能网络架构预测分析,全球版 29日。加特纳®是Gartner,Inc.及其关联公司在美利坚合众国及国际上的注册商标和服务标志,在此使用得到许可。所有权利保留。 数据中心仅通过增加更多的机架无法满足这些要求,因此新的数据中心架构是必不可少的。 在2023年,领先的数据中心提供商将资本支出(Capex )增加了6%至13%,以构建AI基础设施(xPU集群)和xPU互连fabric,以满足这些需求。 超以✎网联合体的形成 (UEC)并且得到了行业对UEC专注于优化以✎网用于高性能AI和HPC网络架构的支持。UEC正在协作制定UltraEthernetTransport(UET)规范,旨在通过以✎网现代化RDMA (远程直接内存访问)操作,并优化其适用于AI和HPC工作负载。 鉴于AI训练对延迟和包丢失的容忍度低,且存在大量流量在大型大象流中交换,数据中心架构正在演进以支持backend网络xPU集群之间的高带宽东西向traffic。 NVIDIA的新Spectrum