英伟达于2025年底斥资200亿美元收购AI芯片初创公司Groq,获取其LPU(语言处理单元)技术非独家许可并吸纳核心团队,核心目的是布局AI推理算力部分。
LPU架构的核心优势在于其天然的Decode处理能力,与此前发布的CPX架构形成高效PD(Prefill & Decode)分离的协同:
- LPU的Decode优势:LPU专为推理设计,采用大容量片上SRAM架构,数据访问延迟远低于传统GPU;同时其确定性执行架构通过精确规划计算和通信步骤,形成“静态时序”,保证稳定高吞吐量,追求极致低延迟。
- CPX架构的Prefill效率:CPX架构针对Prefill阶段(计算密集型任务)进行优化,配备128GB GDDR7显存,FP4精度算力达30 PFLOPS;通过减少内存、互联等高需求部分,增加Prefill算力部分投入,专注NVFP4。
研究结论指出,LPU架构可能成为继CPX架构后英伟达布局PD分离的关键棋子,并预测新一代机柜将采用“无缆化”设计,需重视LPU带来的PCB架构变化。