谷歌发布最新一代TPU v5p及对应AIHPC,性能倍增 1)在BF16精度下,TPU v5p的训练速度提升至v4的1.7倍达459 TFLOPS,约为H100三分之一,芯片间互联(ICI)带宽提升至v4的2倍达4.8 Tbit/s(单卡6接口,单口速率为800Gbit/s); 2)单一POD中最大可互联芯片数上,v5p提升至v4的约2.2倍达8960片,因此v5pPOD最大算力为v4四倍左右; v5p服务器继续沿用3D环形拓扑结构及OCS 谷歌在前代v4服务器上使用了3D环形拓扑结构及OCS(Optical CircuitSwitch,光路交换机),v5p服务器将继续沿用。参考v4服务器架构,每64个节点组成4×4×4的立方体,每个芯片节点在6个方向上进行连接(图3),其中立方体表面上相对的芯片需连接至同一交换机(图4)。 目前在64元立方体中,芯片间使用无源电缆(PassiveElectricalCables)连接,表面上芯片则需外接光模块连接对应OCS,具体数量为96支(16支/面×6面),因此光-芯比约为1.5:1,若向H100算力看齐(约3片v5p算力等于1片H100),则等效“光-芯比”为4.5:1。 谷歌通过Apollo全光交换方案实现高效互联,光器件迎新需求 OCS及装有环行器(Circulators)的波分复用光模块是Apollo中核心部件。OCS由MEMS振镜、发射/镜头模组、光分路/合路器、伺服器等部件组成(图6)。其中发射模组射出的光线经MEMS振镜发射后,由摄像模组接收,伺服器根据接收到的相机数据持续优化MEMS振镜及信号光反射路径(图7)。OCS中振镜在v4版本中由2D升级为3D,预计v5p版本OCS中也将使用3D振镜。 环行器具有三个端口,一个端口接收光发射器(Tx)的光信号,一个端口向光接收器(Rx)传输光信号,一个端口对外收发光信号。环行器将传统双工光模块转换为双向光模块,进而将所需OCS端口及光纤数量减半。 投资建议 谷歌最新推出的芯片、服务器互联方案等进一步验证了AI算力建设大趋势带来的光通信带宽需求高弹性,同时开辟了对环行器、MEMS振镜等光学产品的新需求。推荐深度绑定北美大客户的全球光模块龙头厂商【中际旭创】及光器件领军者【天孚通信】。 风险提示:高速光模块需求不及预期;客户开拓与份额不及预期;产品研发落地不及预期;行业竞争加剧。 表1:重点公司估值 图1:v5p及前代芯片性能对比 图2:谷歌AIHPC技术架构 图3:芯片构成4×4×4立方体(拓扑结构图) 图4:芯片机柜与OCS连接 图5:3D环形拓扑图及示意图 图6:2DMEMS OCS内部实物图 图7:2DMEMS OCS光路原理图 图8:3DMEMSOCS结构图 图9:环行器在光模块中的结构图及原理示意图