您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:交换机专家20240521 - 发现报告
当前位置:首页/会议纪要/报告详情/

交换机专家20240521

2024-05-21未知机构W***
交换机专家20240521

会议要点1、交换机行业更新概述□东北证券通信组廖文强提到,交换滥机板块近期受到关注,特别是国产大模型降本形成不可 逆转趋势,对硬件端产生影响,包括速率升级等,都指向交换机环节。同时,AI领域中交换机的关注度不如光模块等,但以太网的崛起为国内交换机产业带来机会。2、国内外交换机投资增长情况□国内互联网公司在交换机领域的投资预计有10%到13%的增 长,去年投资大约在1000万左右,今年预计达到1100到1150万。增长主要由AI带动。国外互联网公司去年投资约4800万,今年预计升至5400万,增长25%到27%,同样由AI驱动。 3、非AI领域交换机增长情况□非AI领域,即传统数据中心,国滥内增长预计达到15 %,去年数据中心数量为2680个,今年预计为2900个以上。 4、MOE架构对交换机行业的影响□MOE架构旨在减少AI运算时间,尤其在训练阶段。 这通过专家模型实现,增加服务器间数据交换量。对于交换机而言,这导致服务器间通信量增加,可能需要扩展交换机性能或数量。5、交换机性能与网络设计□网络设计中,为避免端口长时间高负载,一般不会让端口流量超过30 %。MOE架构下,流量增加可能导致需要重新设计网络拓扑,增加交换机数量或端口连接数。6、交换机成本与市场价值量□随着从200G升级到400G,交换机的成本和市场价值量显 著提升。例如,200G交换机使用12.8T芯片,成本约7万人民币;而400G交换机使用25.6T或51.2T芯片,成本分别约12万和25万人民币。 7、MOE架构对成本的影响□MOE架构通过减少运算时间,降低耗电量,从而减少成本。同时 ,降低运算时间还能延长GPU使用寿命,进一步降低成本。8、国内交换机市场需求量□中国互联网大厂去年对交换机市场需求量为1001百万美元,今年预计为1130百万美元,增长约6%。整体中国市场,包括AI和运营商,去年需求量 为2680万台,今年预计为2925万台,增长约15%。 9、交换机企业受益分析□在MOE架构下,白盒交换机需求增加,锐捷网络和紫光华山等公司作为白牌交换机供应商可能受益。华勤科技作为能够提供800G白牌交换机的公司,也可能在MOE架构中扮演重要角色。 10、超节点网络与交换机芯片□超节点网络的发展与MOE架构紧密相关,国内厂商如盛科已启动相关项目,致力于通过超级节点提升整体性能。这可能导致交换机芯片使用量的增加。 11、交换机芯片技术路线□交换机芯片有两条技术路线:传统的流水线方案(如博通、盛科)和可编程方案(如已停产 的belfortprofilo)。可编程方案可能在降低延迟方面有优势,但在AI时代 ,传统流水线方案可能更具市场潜力。 12、结论与投资者建议□MOE架构显著提升了交换机间数据通量,互联网厂商开始引入新的组网架构。投资者可关注相关上市公司的产品架构变化,以及交换芯片市场的发展。Q&A□Q:国内非AI交换机市场的现状和增长趋势是怎样的? A:国内非AI交换机市场,即传滥统数据中心的交换机市场,目前呈现出增长趋势。与互联网公司相比,传统数据中心的增长率更高,平均增长率约为15%,而互联网公司的增长率为10% 。去年中国数据中心的数量为2680个,预计今年将增长至2900多个。整体来看,交换机行业展现出较强的抗压能力,市场表现良好。 Q:MOE架构对交换机行业的影响有哪些? A:MOE架构主要解决的问题是减少AI运算时间,特别是在训练阶段。它通过专家模型来实现,这增加了服务器间的数据交换,即scaleout通讯。在以太网交换机领域,MOE 架构的引入导致服务器间通讯量翻倍,从原来的1%不到增长至与机内通讯量相当,甚至更高。这导致机外通讯交换机的负载大幅增加,可能需要对交换机的性能或数量进行拓展。目前, 尽管还没有达到400G网卡的上线,但随着MOE架构的进一步应用,预计会对交换机的设计和部署产生重大影响。业界正在参考英伟达的最佳实践,采用三层架构,并保持服务器与交换机之间的连接比例为1:1,以应对通讯量的增加。 Q:目前部署状态下,以太网与ID的性能比较如何?A:目前部署状态下,以太网的性滥能相较于ID存在一定差距。以太网的延迟是ID的四倍以上,导致其整体性能可能不如ID。 Q:针对M1机器互联环境,网络改造的目标是什么? A:针对M1机器互联环境,网络改造的目标是降低端口间的流量,避免流量过大。这是因为目前的网络配置是按照英伟达1:1的加速比来设计的,即服务器网卡的性能与上行链路到另一台交换机的性能相匹配。如果服务器网卡性能较高,那么在与另一台交换机互联时,带 宽也应保持接近,即使采用负载均衡方法,链路的使用率也可能相对较高。Q:在网络优化方面,是否需要重新设计网络拓扑?A:是的,在网络优化方面,有必要重新设计网络拓扑。一种设计方案是增加更多的交换机,以提高交换机之间的互联带宽。例如,将一号交换机到二号交换机的连接从单根连接变为双 根或多根连接,从而增大交换机之间的带宽。这样,端口上的流量就不会像原来单一连接时那么高,有助于保证在所谓的白嫖连接时,不会过度使用带宽。Q:如何根据历史经验来避免带宽使用率过高? A:根据历史经验,通常不会让带宽超过端口的30%以上。这是一个经过二三十年验证的经验,运维人员会将其作为一个参考点。因此,为了不超过这个限制,可能需要增加交换机的 数量,以及交换机互联的端口数量,从而带动相关光模块等投资的增长。Q:在网络优化工作中,下一步的计划是什么? A:在网络优化工作中,下一步的计划是对M1进行优化。这包括增加网络的带宽和链接交换机的数量,以实现优化状态。 Q:通信速率和交换机数量的关系是什么?A:通信速率的提升和交换机数量的增加有直接关系。为了保证每个端口的负载不超过30%,可能需要增加交换机的数量。这是因为在专家子模型的数据通信和分发汇总过程中,通信量 可能会提升百倍以上,从而需要更高的速率和更多的交换机来处理这些数据。Q:端口速率的变化和交换机端口处理能力的关系如何?A:端口速率的变化实际上并没有太大变化,交换机端口的处理能力保持稳定。物理端口一端连接服务器,另一端连接交换机,端口速率与服务器网卡速率相匹配。例如,如果服务器 网卡是400G的,那么交换机端口也应是400G的。而800G的端口主要用于交换机之间的互联。 Q:在大规模集群中,MOE架构对性能和端口流量的影响是什么?A:在大规模集群中,MOE架构可能会导致性能降低,因为专家越多,计算量越大。例如,8K集群的性能可能会降低11%,16K集群降低26%,而64K集群降低50%。这表 明服务器数量的增加会降低迭代时间。然而,目前还没有明确的数据显示端口上的流量具体如何变化 , 但可以推测400G端口的连接需求有显著增长。Q:为什么需要限制端口性能不超过设计性能的30%? A:限制端口性能不超过设计性能的30%是一种行业惯例,这样做可以让整体机器处于一个相对不高的负荷状态,这是业界普遍接受的做法。例如,如果端口是400G的,那么不希望其性能超过120到150G,以保持机器在较低负荷状态下运行。Q:增加交换机数量的考虑因素有哪些? A:增加交换机数量时,需要考虑的因素包括拓扑设计、成本、以及性能与成本之间的平衡。例如,原来两台交换机之间可能只有两条链路,增加新的交换机后,可以增加到四条或更多 链路,从而降低单条链路的带宽利用率,但同时也会带来成本上的压力。Q:在引入MOE架构后,是否需要更高的速率,如400G以上? A:目前看来,还没有达到真正需要超过400G端口性能的状态。尽管可能有短时间超过400G的情况,但通过交换机的流量控制机制,如ROCE,可以保持带宽在较低状态,避免超过转发性能。如果出现持续超过连接端口性能的情况,可能会导致丢包。因此Q:丢包对运算和应用可用性的影响是什么? A:丢包会导致运算中的数据丢失,需要重新计算,这会降低应用的可用性。因为丢失了一些数据包 ,重新计算会增加时间,反而不如提高端口性能来避免这种情况。 Q:MOE技术如何提升运算效率,以及在满带宽情况下交换机性能的表现? A:MOE技术显著减少了单机或小集群环境下的运算时间,避免了重传,从而提高了效率。在满带宽或超过百分之百负载的情况下,即使是高性能的4D交换机,如果没有刚性提升,也只能通过提高端口速率来解决,比如从四车道升级到八车道。 Q:国内网络架构是否正从200G向400G转变? A:是的,去年国内主要是200G架构,但现在已经逐渐转向400G架构。例如,阿里和腾讯等公司正在从200G向400G过渡。阿里使用的网卡有英伟达的C系列20 0G网卡,可以直接升级到更高速率,并且阿里自行研发了IPGA的2200G网卡, 并设计了适合自己需求的流量控制算法。目前,这些解决方案可能已经接近不够用,预示着向2400G的升级也将很快到来。 Q:200G架构在中国的特殊性以及未来的发展趋势是什么? A:200G架构在中国是特殊的,国外并没有这种配置。随着阿里等云服务公司的兴起,中国的网络架构发展路径是100G、200G到400G。目前,随着技术的进步和需求的增长,预 计会从200G升级到400G,以适应更高的数据传输需求。 Q:MOE架构对交换机单价价值量的影响是什么?从200G升级到400G,每台交换机的价值量提高了多少? A:MOE架构对交换机的价值量有显著影响。目前,200G交换机主要使用的是12.8T 的交换机芯片,如果以博通芯片为例,一颗芯片大约1200美元,而整台交换机的价格大约在7万多元人民币。升级到400G,使用的是25.6T或51.2T的芯片,2 5.6T的芯片价格大约在2000美元左右,而整台交换机的市场价大约在12万元人民币左右。由于51.2T芯片产能不足,导致25.6T芯片价格上涨,价格大约在400 0多美元,相应的交换机市场价约为25万元人民币。如果使用51.2G的芯片,一颗芯片价格约为8800美元,整台交换机的价格在25万元人民币左右。因此,从7万 到12万,再到25万,可以看出随着技术升级,交换机的成本也在增加。Q:国内大厂的大模型token价格降幅是否主要由MOE技术带来的成本下降驱动,还是由于 价格战导致的? A:国内大厂的大模型token价格降幅是由MOE技术带来的成本下降和价格战两方面因 素共同驱动的。MOE技术通过减少运算时间,从而降低了耗电量,这是成本下降的一个重要因素。此外,像H100这样的机器,尽管使用了液冷技术,但在长时间满载工作下,其使用寿命大约只有半年左右,这意味着卡片的生命周期非常短。如果通过MOE技术降低了运算时间,也就延长了卡片的使用寿命,从而降低了供应商的成本。因此,供应商在价格战中拥有 一定的底气,能够降低价格。Q:今年国内交换机市场的需求量和市场产值是多少? A:今年国内交换机市场的需求量和市场产值有所增长。对于中国的互联网大厂,去年的市场产值按照美元计算大约是100亿美元,今年预估会增长到113亿美元,增长率大约为6%。对 于整个中国市场,包括AI和运营商在内,去年的市场产值大约是268亿美元,今年预估会增长到292.5亿美元,增长率约为15%。这表明整个中国的数据中心对交换机的需求有15%的增长,而头部几家互联网公司的增长为6%,整体市场前景仍然比较乐观。Q:为什么MA架构导致交换机需求量增加100倍,但增速只有十几个点? A:目前对于MOE(多输出交换机)的部署还处于探索和优化阶段,尚无最终的拓扑架构定论。不同公司对于带宽余量的要求也不尽相同,有的保守,有的则较为激进。因此,增速可 能受到这些因素影响,导致增速没有达到需求量增加的幅度。Q:国内在MAE(多接入边缘计算)方面的进展如何? A:国内在MAE方面的进展还在等待美国方面的最终定论和最佳实践。目前,阿里巴巴的SPN7.0架构是一个值得关注的新动向,它是一个AI网络,包含了MOE。尽管阿里巴巴是 首家公布此类设计的公司,但并不代表其技术最为先进。预计随着其他公司如Meta和微软逐步公开相关