英伟达GTC前瞻:聚焦Rubin落地、Feynman前瞻与基础设施重构 计算机《君逸数码战略投资并签约银河通用机器人》2026.02.13计算机《银河通用“干活”机器人登春晚,具身智能迎来主流时刻》2026.01.25计算机《上海发布“模速智行”行动计划,自动驾驶产业驶入加速赛道》2026.01.18计算机《八部门印发人工智能赋能制造专项行动实施意见,制造业AI大有可为》2026.01.08计算机《谷歌图像模型Nano Banana火爆上线,关注多模态AI应用发展》2025.08.31 本报告导读: 本次GTC 2026的核心看点,不在于单一芯片参数刷新,而在于英伟达能否通过Rubin平台量产落地、Feynman架构前瞻,以及光互联、供电与液冷一体化升级,正式推动AI产业从“购买GPU”迈向“部署AI工厂”的新阶段。 投资要点: Rubin平台的量产兑现与系统化落。Rubin已不再只是单颗GPU产品,而是由CPU、GPU、互联、网络和系统组件共同构成的集成式AI超算平台。英伟达正在把AI基础设施的交付单位从板卡提升到整柜系统。随着Vera Rubin平台在CES 2026上正式确认进入量产阶段,本次GTC很可能揭晓该架构的强化版——Rubin Ultra。一个Rubin Ultra机柜将集成144颗GPU,构建起高达1.5PB/s的Scale-up网络,单颗芯片双向互联带宽达到10.8TB/s。为了实现如此高密度的互联,Rubin或将采用双层网络拓扑结构,并在机柜内部实现“光进铜退”。 Feynman架构的前瞻披露预计将构成大会最具战略意义看点。Feynman可能成为首批采用台积电A16工艺的芯片,首次集成Groq的LPU硬件栈,Feynman的生产预计在2028年启动,客户出货可能落在2029至2030年。Feynman可能引入以SRAM为核心的广泛集成或3D堆叠技术,单芯片功耗预计将突破5000W。Feynman本次主要以路线图或架构预告的方式出现,其价值不一定在短期商业交付,而在于向市场说明英伟达如何理解后Rubin时代的AI计算需求。同时,英伟达可能会展示一款整合了Groq“语言处理单元”(LPU)技术的全新推理芯片,这标志着英伟达正积极布局推理计算领域,旨在满足市场对高效能、低成本计算方案的需求。光互联、供电与液冷共同驱动的数据中心基础设施重构。在互联层面,CPO与 硅光正成为超大规模AI系统的重要方向,未来数据中心内部将逐步从传统铜互联走向更高带宽密度、更低损耗的光连接体系。在供电层面,800V HVDC、高集成模块化供电和垂直供电等方案,反映出未来限制AI系统扩容的关键因素已不仅是芯片制造能力,更是电力能否高效稳定地送达每一个算力节点。在散热层面,风冷正在失去对超高功耗算力平台的适应性,液冷将越来越从可选方案转向标准配置,并带动冷板、热界面材料和机柜级液冷系统同步升级。我们认为,2026年GTC最值得关注的并不是某一颗芯片的参数刷新,而是英伟达是否会通过Rubin的系统化落地、Feynman的路线图释放,以及光互联、供电和液冷一体化升级,正式把行业从“购买GPU”推进到“部署AI工厂”的新阶段。建议关注:AI芯片、算力、存储。风险提示。AI发展不及预期;技术迭代及行业应用不及预期;行业竞争加剧。 目录 1.Rubin平台的量产兑现与系统化落地.....................................................32.Feynman架构的前瞻披露与后Rubin时代的推理路线...........................43.光互联、供电与液冷共同驱动的数据中心基础设施重构........................54.风险提示..............................................................................................7 1.Rubin平 台的量产兑现与系统化落地 英伟达GTC将于3月16–19日在加州圣何塞举办,会议内容和体验将涵盖代理式AI、AI工厂、面向科学的AI、CUDA、高性能推理、开放模型、物理AI、量子计算等诸多领域。黄仁勋在署名文章中提出,AI并不是单一模型或应用,而是像电力和互联网一样的基础设施,其架构可概 括为“能源—芯片—基础设施—模型—应用”五层体系;其中,基础设施层的核心形态正是“AI工厂”,其功能不是存储信息,而是制造智能。文章同时强调,实时生成智能正在倒逼整个计算架构重构,AI工厂、芯片工厂与配套基础设施建设已成为新一轮大规模产业投资主线。正是在这一背景下,2026年GTC的意义,已不只是发布新芯片,而是集中展示AI工厂时代的系统路线图。 Rubin平台的量产兑现,标志着英伟达正从“卖GPU”走向“卖系统”。根据FundaAI文章,Rubin平台已经不再被定义为单颗GPU,而是一个由VeraCPU、Rubin GPU、NVLink 6交换芯片、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-6 Ethernet共同组成的集成式AI超算平台。其核心目标并不只是提升算力峰值,而是通过系统级整合降低token成本,并压缩大规模MoE训练和推理所需的GPU占用规模。因此,Rubin的价值不再局限于芯片性能提升,而是更多体现在系统效率、交付效率和部署效率的同步提升上。 也正因为如此,市场对Rubin的关注点正在从单卡参数转向机柜级和机架级形态,尤其是NVL72、NVL144和NVL576等rack-scale配置。这一变化意味着,英伟达正在把AI基础设施的交付单位从板卡提升到整柜系统,并将竞争重点从芯片堆叠能力延伸到机柜级系统工程能力。未来客户采购AI基础设施时,关注点将不再只是单卡性能,而会更多落在机柜可用性、系统吞吐、互联效率和整体部署能力上。 从当前路线看,Vera Rubin NVL72预计将延续GB200/GB300 NVL72的部分架构特征,在机柜内部继续以铜互联和单层NVSwitch为主。Vera RubinNVL144则被预期采用正交背板设计,以形成更加完整的一体化机柜系统。而Vera Rubin NVL576则被视为更重要的架构节点,因为其可能由八个NVL72单元构成,并在第二层互联中引入基于CPO的NVSwitch,从而使CPO首次进入scale-up路径。换言之,Rubin Ultra的重要性并不只是规模继续扩大,而在于它可能标志着英伟达开始把机柜原生设计、正交背板和分层互联作为下一代AI系统的标准形态。 资料来源:FundaAI 资料来源:FundaAI 在更具体的参数预期上,Rubin Ultra机柜已被普遍预期将集成144颗GPU,构建起高达1.5PB/s的scale-up网络,单颗芯片双向互联带宽达到10.8TB/s。为了实现这种高密度互联,Rubin架构很可能采用双层网络拓扑,并在机柜 内部逐步推进“光进铜退”。这表明Rubin的系统化落地已经不再只是GPU数量扩张问题,而是机柜内部网络介质、拓扑组织和互联方式同步变化的问题。未来AI系统的带宽扩展,将越来越依赖光互联、正交背板和机柜内部高集成网络结构,而不再仅仅依赖传统铜互联和线缆堆叠。 资料来源:SEM IVISION Rubin平台的另一层重要变化,在于它开始推动推理基础设施从统一GPU池走向更细分的分层优化。根据FundaAI文章,Rubin CPX被定义为面向massive-context inference的GPU类别,重点覆盖million-token coding、视频生成和长文档处理等场景。相关预期显示,Vera Rubin NVL144CPX单机柜可实现约8 exaflops AI性能、100TB fast memory以及1.7PB/s带宽。更重要的是,这一路径在架构层面承认了long-context prefill与decode并不是同一种问题,前者需要更高带宽与更大快速内存支撑,后者则更强调高并发token生成效率。因此,Rubin平台的量产兑现,不只是现有训练平台的延续,而是英伟达将训练、长上下文推理与高并发生成逐步拆分为不同系统层 级的重要起点。 2.Feynman架构的前瞻披露与后Rubin时代的推理路线 Feynman的核心价值并不在于当期商业交付,而在于向市场说明英伟达如何理解后Rubin时代的AI计算需求,以及其下一阶段的技术演进方向。根据中关村协众创智信息产业促进会公众号文章,Feynman可能成为首批采用台积电A16工艺的重要候选架构之一,并被认为会更明显地围绕推理优化展开设计。围绕其技术路径的主要判断集中在两点:一是引入以SRAM为核心的更广泛片上集成,二是通过3D堆叠方式强化存储与计算耦合。这类设计思路的重点,并不只是继续拉高理论算力,而是试图改善推理过程中的延迟、带宽与数据调度效率。也就是说,Feynman所承载的核心想象空间,不只是更先进的制程,而是下一代AI芯片在推理导向上的结构性重构。 功耗预期进一步放大了Feynman的系统意义。Rubin单芯片功耗将 超过2000W,而后续Feynman芯片目标功耗将超过5000W。这意味着Feynman从一开始就不可能被理解为一颗孤立芯片,而必须被理解为牵引供电、散热、封装和机柜架构同步升级的系统级平台。如此高的功耗水平意味着,未来先进AI芯片的竞争不再只是晶体管数量和频率的竞争,而是芯片设计、供电架构、封装形态和热管理能力的综合竞争。Feynman的生产预计在2028年启动,客户出货可能落在2029至2030年。 Feynman受到高度关注的另一原因,在于Groq LPU路线可能被正式纳入英伟达的推理版图。当前的重要预期之一,是英伟达可能在GTC上展示一款整合Groq“语言处理单元”技术的新推理芯片,以满足市场对高效能、低成本推理方案的需求。Groq LPU路径的核心,在于使用大量片上SRAM与编译期确定性调度,尽量减少运行期带宽争用,并实现极低时延的token生成。这一路线与传统GPU依赖HBM外部带宽的方式有所不同,更适合实时语音、交互式Agent、视频处理控制链路以及其他对响应时间高度敏感 的场景。 根据SemiVison文章,在这一框架下,LPX被描述为专门面向推理负载设计的新型机柜架构,其核心技术根源即来自Groq LPU。LPX更适合极低时延、小batch或单batch推理,以及实时语音、视频和控制类任务;而RubinGPU和CPX仍更适合长上下文和高带宽推理场景。因此,Groq LPU并不被视为GPU+HBM主路径的替代,而被视为低时延推理的补充形态,用于扩展英伟达在推理市场的可服务空间。 资料来源:SEM IVISION 3.光互联、供电与液冷共同驱动的数据中心基础设施重构 在互联层面,光通信正从传统光模块向CPO与NPO演进,这一方向已成为AI算力网络的重要升级路径。本届GTC被视为CPO商业化落地的关键里程碑,并被预期在横向扩展和纵向扩展两个方向同时取得突破。在横向扩展方向,英伟达预计将展示Quantum 3400、Ethernet 6800和6810等关键CPO交换机产品;在纵向扩展方向,Rubin Ultra被普遍视为“光入柜内”的关键节点,也就是说光互联将不再局限于机柜外部,而会进一步进入机柜内部和scale-up路径。在Rubin Ultra光方案中,除交换芯片与光引擎共封装外,网卡也可能与光引擎共封装,从而抬升单GPU对应的光引擎需求。因此,“光进铜退”在GTC 2026中的意义不只是网络更快,而是AI机柜的互联介质和系统边界正在被重新定义。 在供电层面,英伟达下一代平台的功耗跃升正在推动电源架构进入新一轮革命性升级。Rubin单芯片功耗将超过2000W,而Feynman目标功耗将超过5000W。在这一前提下,Rubin时代三级电源