V4论文重点强调了超节点是必选项
V4论文提出硬件架构设计指引:C/B≤2d=6144 FLOPs/byte,即每GBps带宽可支持最大6.1TFLOPs算力不受限,实现高效利用。随着单卡算力提升,下一代高端国产卡通过scale-out难以维持此比例,系统易落入带宽受限区间,造成算力浪费。为重新拉回有效利用区间,需通过更高带宽密度的Scale-up实现算力与带宽同步提升,超节点因此成为确定性方向而非可选优化。
V4与昇腾的适配验证了超节点是工程上的最优解
推理端:基于DeepSeek V4-Pro模型,8K输入场景下昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。训练端:基于Atlas 800 A3风冷超节点、Atlas 900 A3 SuperPoD液冷超节点,DeepSeek-V4-Flash模型已实现高性能训练复现。证明超节点在训练与推理端均达最优状态。
超节点市场空间
假设26-28年国产卡出货量分别为290/500/792万张,超节点渗透率分别为27%/40%/50%,单台(128卡)价值量2000万,机柜总体市场空间为122.3/296.9/556.9亿,远期万亿市场。需重视国产Switch芯片(盛科通信)、服务器机柜(浪潮信息、华勤技术、紫光股份、中科曙光)、224G高速连接器(华丰科技、航天电器)的渗透放量与成长性。