您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国联证券]:通信12月周报:OCS部署有利于AI发展和算力需求增长 - 发现报告
当前位置:首页/行业研究/报告详情/

通信12月周报:OCS部署有利于AI发展和算力需求增长

信息技术2023-12-21国联证券�***
AI智能总结
查看更多
通信12月周报:OCS部署有利于AI发展和算力需求增长

OCS交换机的大规模部署 OFC2023上,谷歌介绍了其内部项目Apollo,通过大范围部署MEMS型光交换机(Optical Circuit Switch,OCS),带来了数据中心网络架构的重大变革。 Apollo的主要设计原则 1)OCS设计强调可制造性、可维护性和可靠性。用于微机电系统反射镜(Micro-Electro-Mechanical Systems(MEMS)mirrors)控制的单个相机图像的图像处理大大简化了制造。2)循环器通过将OCS有效端口数增加一倍,进一步增强了成本优势。3)结合高速光学、电子和信号处理技术开发,在四代光互连速度(40/100/200/400G)上提供了强大、低成本的WDM光模块。 OSC带来更好的扩展能力,助力AI发展 Apollo帮助Google实现了4096个TPU的互联互通,提供了良好的扩展能力。根据Google公布的关于Jupiter网络的数据,通过部署OCS,Jupiter同时将流量转发时延降低10%,将吞吐量提高30%,功耗降低40%,相应成本降低了30%。我们认为不断提升AI算力资源的利用效率,降低AI硬件成本是AI产业快速发展的必要条件。而AI产业的发展有望带来长期增长的算力需求。AI硬件的降本提效有助于AI算力需求的长期增长。 OSC的部署同样需要光模块 参照Apollo和Jupiter两种网络架构,在AB内部,Leaf交换机连接TOR交换机,TOR交换机连接服务器同样需要SR/DR光模块,光模块的选择主要取决于TPU的带宽需求。OCS交换机可以替代Spine交换机,或者部署在Spine交换机和Leaf交换机之间,CWDM光模块主要参照IEEELR4光模块标准,工作在CWDM4频段,采用PAM4调制方式。我们认为Google的CWDM光模块,内部器件和目前主流的LR400G/800G光模块大体相同。 OSC的部署带来新的光器件需求 OSC把MEMS反射镜、环形器部署在数据中心网络,带来新的器件需求。 Google指出从为了支持不同一代AB之间的直接互操作,保持相同的CWDM4波长网格至关重要。这就需要开发关键的关键组件技术,从每光通道25G开始,最重要的是非制冷CWDM DML。 投资建议 按照Juniper和Apollo网络架构,在AB内部,leaf交换机连接TOR交换机、TOR交换机连接服务器依然需要部署SR/DR光模块。OCS部署中涉及到的CWDM光模块以IEEE定义的LR4光模块和CWDM4为基础,采用了PAM4调制方式。我们认为其产品特性、上游产业链和LR4 400G、2×LR4 800G光模块基本一致。 我们认为Gemini的发布,为AI应用开发者提供了更多的选择,有利于AI产业的发展。OCS网络为AI提供更加高效的算力方案,也有望带来更多AI算力需求。我们建议关注: 聚焦北美市场的光模块供应商:中际旭创、新易盛、联特科技; 光引擎供应商:天孚通信; 光产光芯片厂商:源杰科技、仕佳光子。 风险提示:AI应发展不及预期风险,算力需求不及预期风险、产能不及预期风险,竞争加剧风险。 1.OSC在谷歌IDC网络中大规模部署 Google的数据中心网络架构一直引领行业发展。2015年,谷歌的Jupiter数据中心网络实现了超过30,000台服务器的扩展能力,每台服务器连接带宽达到40Gb/s,支持超过1Pb/sec的总带宽,并为数据中心网络带来三个全新的概念: 1)软件定义网络:一个逻辑上集中和分层的控制平面,用于编程和管理数据中心网络中成千上万的交换芯片; 2)Clos拓扑结构:一种非阻塞的多级交换拓扑结构,由较小radix的交换芯片构成,可以扩展到任意大的网络; 3)商用交换芯片:用于融合存储和数据网络的具有成本效益的通用以太网交换器件; OFC 2023上,谷歌介绍了其内部项目Apollo,通过大范围部署MEMS型光交换机(Optical Circuit Switch,OCS),带来了数据中心网络架构的重大变革。Apollo的主要设计原则包括: 1)OCS设计强调可制造性、可维护性和可靠性。用于微机电系统反射镜(Micro-Electro-Mechanical Systems (MEMS) mirrors)控制的单个相机图像的图像处理大大简化了制造。 2)循环器通过将OCS有效端口数增加一倍,进一步增强了成本优势。 3) 结合高速光学 、 电子和信号处理技术开发 , 在四代光互连速度(40/100/200/400G)上提供了强大、低成本的WDM光模块。 传统的数据中心网络架构,分为Spine交换机、Leaf交换机(AB)和TOR交换机。在Apollo数据中心网络架构中,OSC交换机取代了Spine交换机,减少了Spine层光电转换功能,节省了成本和功耗。 图表1:传统数据中心CLOS网络架构 图表2:谷歌Apollo网络架构 OCS可以替换Spine交换机,可以部署在不同的网络位置。在Google的Jupiter网络架构中,OCS作为光交换层(datacenter interconnection layer,DCNI)被部署在Spine和Leaf交换机之间。DCNI层使用光电路交换机(OCS)实现,并允许在添加AB块时对结构进行增量重新布线。通过部署OCS,Jupiter同时将流量转发时延降低10%,将吞吐量提高30%,功耗降低40%,相应成本降低了30%。 图表3:Jupiter网络中的OCS部署和网络扩展方案 OCS也被部署到Google的TPU v4集群中。如下图所示,64个TPU芯片形成一个Cube(4块),Palomar OCS是136×136结构,(128个端口加上8个用于链路测试和维修的备件),因此48个OCS连接来自64个4块(每个64个芯片)的48对电缆,产生所需的4096个TPU v4芯片。 图表4:64个TPU构成一个Cube 图表5:48个OCS连接64个Cube(4096个TPU) 2.OSC部署带来新的硬件需求 Google在OFC 2023上介绍的Apollo OCS平台由其内部开发的OCS(Palomar)、循环器和定制波分复用(WDM)光模块组成,支持通过OCS和循环器的双向链路。 PalomarOCS Google的OCS内部结构如下图所示:输入输出为两个光纤准直器阵列(fiber collimator array),光纤准直器包括光纤阵列和微透镜阵列,输入输出均为136个通道。光通过光纤进入到OCS系统后,先后经过两个2D的MEMS阵列。每个MEMS阵列含有136个平面镜,用于精确调节光的传播方向。信号光的传播方向为下图中的绿线。此外系统中还包含两个监控通道,对应下图中的红色粗线。监控通道使用850nm 波长的光,经过MEMS反射后进入到监控相机处。通过图像处理来反馈控制MEMS阵列,优化链路插损。 图表6:Palomar OCS光芯的设计和光路示意图 图表7:Palomar OCS光芯照片 采用OCS,数据中心网络可以灵活地进行网络拓展,与原有的节点形成互联,而不影响业务,如下图所示当网络中部署更高速率的光模块和交换机时,原有的低速器件可以继续使用,降低一部分成本。 图表8:OCS网络的后向兼容特性 图表9:OSC工作原理图 部署OCS之后,可以根据实际计算任务中的数据流,灵活地配置TPU的互联Torus结构,提高系统的整体性能。 图表10:灵活地配置TPU的互联Torus结构 WDM光模块和环形器 Google认为在数据中心网络中,随着带宽的扩展,WDM的采用对于提高布线效率和支持不断增长的大型计算基础设施至关重要。在最初的Apollo网络中,Google选择了基于IEEE标准的40Gb/s长距离(LR4)/单模CWDM4解决方案作为AB间互连设计的基础。为了支持不同一代AB之间的直接互操作,保持相同的CWDM4波长网格至关重要。这就需要开发关键的关键组件技术,从每光通道25G开始,最重要的是非制冷CWDM DML。 图表11:Google的WDM单模连接器发展路线图 图表12:CWDM光模块内部示意图 光环行器是一个具有循环连接的三端口设备。参照光环形器工作原理图:进入端口1的输入被引导到端口2,进入端口2的输入被定向到端口3。循环器因此将传统的双工光收发器转换为双向收发器。蓝线表示s偏振,红线表示p偏振。 与OCS类似,循环器的宽带特性允许其在多代基于CWDM4的光收发器技术中重复使用,并相应分摊成本。循环器也可以集成到光模块中,以进一步降低性能、尺寸和成本,但是会牺牲在不同一代收发器之间重复使用的能力。 图表13:光环形器工作示意图 图表14:光环形器工作原理图 3.投资建议 按照Juniper和Apollo网络架构,在AB内部,leaf交换机连接TOR交换机、TOR交换机连接服务器依然需要部署SR/DR光模块。OCS部署中涉及到的CWDM光模块以IEEE定义的LR4光模块和CWDM4为基础,采用了PAM4调制方式。我们认为其产品特性、上游产业链和LR4 400G、2×LR4 800G光模块基本一致。 我们认为Gemini的发布,为AI应用开发者提供了更多的选择,有利于AI产业的发展。OCS网络为AI提供更加高效的算力方案,也有望带来更多AI算力需求。 我们建议关注: 聚焦北美市场的光模块供应商:中际旭创、新易盛、联特科技; 光引擎供应商:天孚通信; 光产光芯片厂商:源杰科技、仕佳光子。 4.风险提示 AI应发展不及预期风险,算力需求不及预期风险、产能不及预期风险,竞争加剧风险。