您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:天风海外英伟达GTC2026前瞻LPU与低延迟推理时代开始 - 发现报告

天风海外英伟达GTC2026前瞻LPU与低延迟推理时代开始

2026-03-12 未知机构 silence @^^@💗
报告封面

我们此前调研Groq相关产品与客户,认为LPU将是本次GTC最值得关注的新增量与本质变化。 若英伟达正式推出LPX机架,并明确GPU + LPU异构推理路线,意味着公司将在高吞吐训练/推理之外,补齐低延迟(TTOT)、确定性推理能力,进一步完善AI基础设施版图。 【天风海外】英伟达GTC 2026前瞻——LPU与低延迟推理时代开始? 若英伟达正式推出LPX机架,并明确GPU + LPU异构推理路线,意味着公司将在高吞吐训练/推理之外,补齐低延迟(TTOT)、确定性推理能力,进一步完善AI基础设施版图。 时间节奏上,美西时间3月16日上午黄仁勋主题演讲,此前表示将超越芯片帕累托极限,我们判断或发布Rubin架构、LPX机架等重磅产品;同日下午Jonathan Ross专场演讲,标题为“GPU爱上LPU”,我们判断LPU已进入产品化落地阶段。 架构上,LPU的核心优势在于确定性调度。 相较GPU的动态调度模式,Groq TSP/LPU采用VLIW + dataflow架构,并通过静态编译在编译阶段确定数据放置和执行路径,更适合低延迟、强实时性的推理任务,如语音交互、Agent工作流和工业控制。 配置上,LPU采用纯SRAM片上存储,单芯片约220MB,无外部DRAM,但带宽高达80TB/s,显著高于HBM路线。 其特点是“高带宽、低容量”,更适合decode和实时推理场景,可有效缓解传统GPU的memory wall问题。 我们认为英伟达的LPU产品或基本延续这一配置,但由三星4nm制造系统层面,LPX采用Dragonfly、switchless互连拓扑,由于单柜或配置256LPU,对光连接器、高层PCB、液冷冷板和QD快接头的需求明显提升。 Enhanced LPX预计将升级至256颗LPU。 并采用液冷方案,已不只是单芯片升级,而是完整机架级平台扩展。 27年LPU或进一步升级。 出货量方面,液冷反馈LPU机柜可能26年约1,000柜,2027年增至6,000–8,000柜,对应LPU芯片出货量分别约25.6万颗和153.6万–204.8万颗。 若兑现,说明低延迟推理需求正从验证阶段迈向规模部署。 供应链上,最受益的方向主要包括四类:1)机柜内RealScale连接器:Dragonfly switchless拓扑下单rack用量高,价值量最大;我们认为单柜价值量或达到3万-5万美元,2)高端PCB 3)液冷板/快速接头:由于单柜芯片量级大,同步放量。 应用上,我们判断OpenAI或成为第一批客户。 Codex Spark与Agent to Agent要求的低TTOT场景下,LPU拥有独特价值。 长期看,随着先进制程、封装和软件栈升级,LPU有望从sidecar形态逐步走向更深度的异构集成。