从TPU8看光互连、存储和CPU变化 glmszqdatemark2026年04月24日 分析师:孔蓉执业证书:S0590525110014邮箱:kongrong@glms.com.cn 分析师:赵融执业证书:S0590525120005邮箱:zhaorong@glms.com.cn 分析师:樊程安吉执业证书:S0590525110016邮箱:fanchenganji@glms.com.cn 相关研究 事件:谷歌云在Google Cloud Next 2026大会上,发布第八代张量处理器(TPU)的两款新品:专为AI模型训练设计的TPU 8t,以及专为推理阶段优化的TPU8i,预计于今年晚些时候上市供应,谷歌认为预训练、后训练与实时推理对基础设施的需求已出现明显分化,因此将训练与推理任务拆分至独立芯片。 1.港股周报:阿里交互式世界模型HappyOyster落地,腾讯混元3D世界模型2.0发布-2026/04/192.美股科技行业周报:Anthropic发布Claude Opus 4.7,算力租赁价格上涨提振云产业景气度-2026/04/193.港股周报:阿里HappyHorse登顶视频生成榜首,腾讯混元3.0有望于近期发布-2026/04/124.美股科技行业周报:模型迭代速度和商业化大幅加速,持续看好AI投资主线-2026/04/125.美股科技行业周报:宏观经济数据表现稳健,持续看好科技AI投资主线-2026/04/05 TPU 8t:预训练性能核心。TPU 8t为大规模预训练与高密度嵌入优化。采用3D Torus拓扑,单个Superpod集成9600个芯片。升级方向为SparseCore、Virgo网络和存储访问。TPU 8t网络结构上为3DTorus(ICI)+Virgo Network(东西向)+Jupiter Network(南北向)。Virgo网络支持13.4万芯片互联,并通过Jupiter Network Apollo OCS连接可扩展至百万芯片互联。升级方向包括: 1)增加SparseCore、优化VPU scaling、引入FP4。SC专用于嵌入查找(embedding lookup),分担集合操作,消除通用芯片的零操作瓶颈;优化VPUscaling,使Softmax、Layernorm与MXU矩阵乘法重叠执行,最大化FLOPs利用率;引入FP4,维持精度的同时使MXU吞吐量翻倍。 2)引入Virgo网络并扩大集群规模。引入Virgo (Scale-out fabric),DCN训练带宽提升4倍。结构扁平化:基于高基数交换机的双层非阻塞拓扑极大缩减层级与延迟。更大规模与更高性能:ICI带宽翻倍;配合JAX/Pathways单集群可支持100万芯片。单Virgo网络连接13.4万芯片,提供47 Pb/s对分带宽及160万ExaFlops总算力。 3)支持更快存储访问。绕过主机CPU/DRAM瓶颈实现存储访问10倍提速。TPUDirect RDMA:HBM与NIC直连降低芯片间通信延迟。TPU Direct Storage:芯片直连Managed Lustre 10T存储,数据传输带宽翻倍。效能上存储摄取达到line rate,处理大型多模态数据集下能保证MXU持续满载运行。 TPU8i:推理与采样专家。TPU 8i专为高并发推理优化,有更大片上SRAM,加入集合通信加速引擎(CAE),并在网络结构上用Boardfly替换3D Torus。TPU 8i舍弃Torus的核心在于缩减网络直径。3D Torus在1024芯片配置下,数据传输最远需16跳(4+4+8)。Boardfly通过高基数设计将网络扁平化,同等规模下直径缩减至7跳。56%的跳数缩减大幅降低尾部延迟,确保CAE引擎无需长时间等待远端数据响应推理需求。升级方向包括: 1)相比前代实现3倍SRAM空间。大幅度提升片上缓存,支持将更大的KV Cache完全驻留芯片,消除长文本decoding时的核心单元空闲。 2)引入CAE引擎:取代前代的SparseCore,专用于加速自回归解码与CoT过程中的同步,芯片含2个张量核心(TC)与1个CAE。片上集合通信延迟降低5倍,支撑数百万级Agent并发。 3)使用Boardfly ICI拓扑。针对推理场景中频繁的All-to-All,采用三层级结构:构建单元(BB),4芯片环路托盘;组(Group),8个BB通过铜缆实现全互连;机池(Pod):36个组通过OCS连接覆盖1024个芯片。性能上通信密集型任务延迟优化50%。 投资建议:我们认为谷歌两款新芯片发布进一步增强高速互联、存储和CPU的产业趋势升级。1)高速互连方面,TPU8i ICI带宽为前代2倍,BB层有16条外部links,Group层用铜连接11条links,5条links或用于外部光连接,Pod层用OCS连接全部36个Group,看好带宽升级以及新架构驱动光模块以及大端口OCS需求。2)存储方面,HBM和SRAM升级趋势明显,TPU8t采用6颗HMB3E8-hi,总容量216GB;TPU8i采用8颗HBM3E 8-hi,总容量288GB,同时SRAM增长3倍。3)CPU方面,两款芯片均集成Axion CPU作为宿主处理器,提供充足的算力处理复杂的数据预处理与任务调度。建议关注【LITE】【COHR】【NOK】【CIEN】【SNDK】【MU】【INTC】【AMD】【ARM】。 风险提示:LLM发展不及预期;AI应用商业化不及预期;云厂商Capex投入下降等。 资料来源:谷歌官网,国联民生证券研究所 资料来源:谷歌官网,国联民生证券研究所 资料来源:谷歌官网,国联民生证券研究所 资料来源:谷歌官网,国联民生证券研究所 资料来源:谷歌官网,国联民生证券研究所 资料来源:谷歌官网,国联民生证券研究所 分析师承诺 本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并登记为注册分析师,基于认真审慎的工作态度、专业严谨的研究方法与分析逻辑得出研究结论,独立、客观地出具本报告,并对本报告的内容和观点负责。本报告清晰准确地反映了研究人员的研究观点,结论不受任何第三方的授意、影响,研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的利益。 免责声明 本报告由国联民生证券股份有限公司或其关联机构制作。国联民生证券股份有限公司具有中国证监会许可的证券投资咨询业务资格。本报告的分销依据不同国家、地区的法律、法规和监管要求由国联民生证券于该国家或地区的具有相关合法合规经营资质的子公司/经营机构完成。在遵守适用的法律法规情况下,本报告亦可能由国联证券国际金融有限公司在香港地区发行。国联证券国际金融有限公司具备香港证监会批复的就证券提供意见(4号牌照)的牌照,接受香港证监会监管,负责本报告于中国香港地区的发行与分销。 本报告仅供本公司授权之机构及个人使用,本公司不会因任何人收到本报告而视其为客户。本报告仅为参考之用,并不构成对任何人的操作建议或任何保证,不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告所包含的观点及建议并未考虑获取本报告的机构及个人的具体投资目的、财务状况、特殊状况、目标或需要,客户应当充分考虑自身特定状况,进行独立评估,并应同时考量自身的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见,不应单纯依靠本报告所载的内容而取代自身的独立判断。在任何情况下,本公司不对任何人因使用本报告中的任何内容而导致的任何可能的损失负任何责任。 本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及预测仅反映本公司于发布本报告当日的判断,且预测方法及结果存在一定程度局限性。在不同时期,本公司可发出与本报告所刊载的意见、预测不一致的报告,但本公司没有义务和责任及时更新本报告所涉及的内容并通知客户。 在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务,本公司的员工可能担任本报告所提及的公司的董事;本公司自营部门及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。客户应充分考虑可能存在的利益冲突,勿将本报告作为投资决策的唯一参考依据。 若本公司以外的金融机构发送本报告,则由该金融机构独自为此发送行为负责。该机构的客户应联系该机构以交易本报告提及的证券或要求获悉更详细的信息。本报告不构成本公司向发送本报告金融机构之客户提供的投资建议。本公司不会因任何机构或个人从其他机构获得本报告而将其视为本公司客户。提示客户及公众投资者慎重使用未经授权刊载或者转发的本公司证券研究报告,慎重使用公众媒体刊载的证券研究报告。 本报告的版权仅归本公司所有,未经书面许可,任何机构或个人不得以任何形式、任何目的进行翻版、转载、公开传播、篡改或引用,不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途。所有在本报告中使用的商标、服务标识及标记,除非另有说明,均为本公司的商标、服务标识及标记。本公司版权所有并保留一切权利。 上海上海市虹口区杨树浦路188号星立方大厦B座7层 无锡江苏省无锡市金融一街8号国联金融大厦8楼 北京北京市西城区丰盛胡同20号丰铭国际大厦B座5F 深圳深圳市福田区中心四路1号嘉里建设广场1座10层01室