纪要为有道云链接: 今天一直在路演,很多电话和微信都没有及时回复 看了一下Semianalysis的文章,总体思路就是144端口的Quantum-X800交换机,扩展能力更强,二层网络能够连接的最大节点数比之前的 Quantum-2QM9700交换机大幅增加。文章的测算思路如下: 1.单个服务器中的8个GPU分别连接不同的leaf交换机,也就是8个GPU连接8个不同的交换机; 2.假设有512个GPU(64台服务器),理论上来说他应该接64台leaf交换机,但是这种情况下插不满,所以会出现同一台服务器的几颗GPU插在同一个交换机上,就有了bundleof4links的情况,也就是同一个服务器中的4颗GPU同时插在同一个交换机上,那么就有16台leaf交换机; 3.16台leaf交换机,理论上也需要32台Spine交换机,但是也插不满,所以也出现了bundleof4links,那么也就需要8台spine交换机; 4.按照这个思路,如果leaf和spine层交换机都插满,就是极限的情况,那么这个时候连接的最大的数量就是32×64=2048个GPU,leaf交换机插满32个下行端口(交换机总共64个端口,还有32个端口往上连),对应32个GPU;spine层插满64个端口,对应64个leaf交换机。 5.如果单个交换机的端口数增加到144个,按照这种算法,就是leaf交换机连接72个GPU,spine交换机连接144个leaf交换机,那么最大连接的GPU数量就是72×144=10368个。 点评: 1.对于<2048卡的集群来说,比例没有变化,两层的话,仍然是1:2; 2.对于2048-10368卡的集群来说,之前比例为1:3,现在比例为1:2; 3.对于>10368卡的集群来说,比例不变,仍为1:3; 4.我们现有的测算方式是按照1:2和1:3的平均值1:2.5来测算,上述比例带来的变化本身就很小,如果考虑平均值影响则更小。目前大部分 CSP厂商的集群仍然在万卡规模之上,万卡的光模块比例不变,且这些都是光模块的主力客户,因此我们认为影响很小。 5.144个端口的大交换机,技术升级难度很大,且维护成本可能很高。在日常运营时,一旦出现宕机,影响的GPU范围非常大,可靠性风险较高,因此CSP客户是否会接纳该方案仍有待观察。 坚定看好光模块及算力板块! 点此跳转:今天一直在路演,很多电话和微信都没有及时回复 看了一下Semia