您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:光通信跟踪深度:以太网在AI算力投资中的Why、How与What - 发现报告
当前位置:首页/行业研究/报告详情/

光通信跟踪深度:以太网在AI算力投资中的Why、How与What

信息技术2024-06-20张良卫、李博韦东吴证券「***
光通信跟踪深度:以太网在AI算力投资中的Why、How与What

产业链头号玩家纷纷布局,AI+以太网是确定趋势。IB网络在AI算力建设前期占据主流,但产业链一直在探索以太网适配AI计算的可能性,超以太网联盟(Ultra Ethernet Consortium,UEC)应运而生,博通、英伟达、Meta等产业链各环节的网络、系统、云计算厂商也持续投入并取得进展,RoCE有望逐渐取代IB的主流地位。 为什么用以太网&RoCE?RDMA相比传统TCP/IP技术更符合AI计算高并发、低延迟的要求,是网络技术更优选。IB和以太网均可支持RDMA,IB天然支持RDMA,是AI算力建设初期短时间内快速、保质、保量实现算力落地的局部最优解,以太网产业应用基础深厚、成本低,有望成为后续最优解。 以太网如何实现AI互联高要求?AI互联主要面对两大问题:1)“大象流”显著增加带来的长尾效应——可通过RoCE的自适应路由功能解决;2)不同计算进程间数据共接收端导致“多传一”拥塞——可通过RoCE的交换机拥塞控制算法+缓存池化解决。 以太网带来哪些产业变化?1)交换机容量提升,并增加自适应路由、拥塞控制等RoCE配套功能,同时更加丰富的软硬件也为白盒交换机提供更大发挥空间,有利于其进一步渗透;2)推理需求增长开启叠加RoCE到位,云厂加速自建推理算力带来800G光模块新增量,同时英伟达客户结构持续优化,基于训练、训推一体上的优势引领1.6T等前沿产品迭代应用;3)硅光具备保证光模块供给、承接硅基共封装趋势、降低成本三层产业逻辑,有望加速渗透。 投资建议:我们认为RoCE的渗透将有效刺激AI算力互联产业链的需求增长、产品技术迭代,行业头部厂商有望以更稳固的份额保持出货增长,国产芯片厂商有望实现技术、客户突破,推荐产业各环节领军者【中际旭创】及【天孚通信】,建议关注【新易盛】、【源杰科技】、【盛科通信】。 风险提示:下游需求不及预期;客户开拓与份额不及预期;产品研发量产不及预期;行业竞争加剧。 表1:重点公司估值 1.为什么是RoCE取代IB? 1.1.产业链巨头相继入局,RoCE有望取代IB IB网络在AI算力建设前期占据主流,但产业链一直在探索以太网适配AI计算的可能性,超以太网联盟(Ultra Ethernet Consortium,UEC)应运而生,博通、英伟达、Meta等产业链各环节的网络、系统、云计算厂商也持续投入并取得进展,RoCE有望逐渐取代IB的主流地位。 在传统以太网上延展,超以太网联盟聚集头部玩家。超以太网联盟(UEC)于2023年7月19日成立,由Linux基金会及其联合开发基金会倡议主办,目标是超越现有的以太网功能,以RDMA和RoCE等提供面向HPC和AI计算的高性能、分布式和无损传输层,其初创成员包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软。截至2024年3月19日,UEC目前已新增45名新成员,并已发布UEC规范1.0概述白皮书,简述了UEC规范可实现八大功能和超以太网传输(UET)的性能优势,预计UEC正式规范1.0白皮书将在24Q3发布。 图1:超以太网联盟历史沿革 博通持续丰富产品线,积极布局RoCE领域。博通是全球领先的有线和无线通信半导体公司,目前已在行业深耕60余年,拥有深厚的技术积累与丰富的产品组合。在RoCE领域,公司从控制器、适配器、NIC、交换机四方面入手,目前已有超30种相关产品,近期博通基于第四代RoCE推出单端口400GbE以太网适配器N1400GD和单端口400G PCIe以太网NICP1400GD,主要应用于AI、云计算、高性能计算和存储的网络构建。 图2:博通RoCE领域产品布局 英伟达积极拥抱RoCE,引领AI计算新风向。英伟达在NIC和交换机方向进行布局,尽管此前英伟达是InfiniBand的主要推动者及供应商,但也持续在RoCE方向布局,陆续推出Spectrum SN4000和Spectrum SN5000交换机则,并于今年推出与IB新产品同规格的SpectrumX800交换机,同时计划于2025年推出512端口的SpectrumUltra X800交换机,于2026年推出带宽相比X800翻倍的X1600.。 图3:英伟达RoCE领域产品布局 Meta布局多年,RoCE成功应用于Llama3集群。2020年以来,Meta始终致力于运营基于RoCE的分布式训练集群,但早期面临一致性挑战。为实现RoCE的AI计算应用落地,Meta作为创始成员成立超以太网联盟,并积极推进RoCE的部署。公司使用Arista 7800和Wedge400等组成的RoCE网络能够实现400G互连,现已成功运用于Llama3集群。 图4:Meta RoCE领域布局 1.2.为什么之前是IB,现在是RoCE? RDMA相比传统TCP/IP技术更符合AI计算高并发、低延迟的要求,是更优选。 和之前的TCP/IP软硬件架构相比,RDMA使得通信系统直接通过网卡访问GPU显存数据,流程无需经过操作系统或CPU,这种高吞吐、低延迟的网络通信非常适合在大规模并行AI计算集群中使用。 图5:传统云计算和AI计算部分特性对比 图6:RDMA和传统TCP/Ip实现方式比较 图7:RDMA相比传统以太网有更高的实际带宽 图8:RDMA相比传统以太网有更低的实际延迟 目前支持RDMA的网络有Infiniband、RoCE(RDMA over Converged Ethernet)、iWARP,各类网络特性各异: Infiniband:专为RDMA设计,从硬件级别保证可靠传输,应用效果好,无需做针对性的设计研发但是需要IB网卡和交换机支持,成本高昂 RoCE:基于以太网和传输层UDP协议设计,消耗的资源更少,可以使用普通的以太网交换机,但需要专门支持RoCE的网卡。 iWARP:基于以太网传输层TCP协议,利用TCP达到可靠传输。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源(RoCE的UDP连接不需要),对系统规格要求更高。可以使用普通的以太网交换机,但需要专门支持iWARP的网卡。 图9:三类RDMA网络对比 在AI算力建设浪潮中,IB是早期局部最优解,RoCE是更广泛最优解。在AI算力建设加速之初,高吞吐、低延迟的网络要求需要支持RDMA的网络通信,从英伟达H系列GPU持续性地供不应求也可以看出,短时间内快速、保质、保量实现算力落地是各算力投资方的核心诉求,因此英伟达的GPU加上天然适配RDMA的IB网络架构是当时的最优解。 长期看,以太网/RoCE相比IB在云计算领域有更深厚的产业应用基础,实现成本也更低,随着技术越来越成熟,且推理需求逐渐起势,以太网将逐步将来到AI算力舞台中心。 2.RDMA如何在技术上满足AI计算的互联要求? 2.1.AI计算面临的潜在互联问题 “大象流”显著增多,拥塞与长尾效应更明显。传统云计算及相应算法产生的数据流基本为占用内存小、波动范围小的流量,因此虽然网络为非全局路由,按照既定策略为流量分配路径也不会过多出现拥塞;AI计算产生的数据流中大象流(Elephant Flow)显著增加,对于少数被分配较多大象流的路径,其传输时间将显著高于大部分路径,这就会产生“长尾效应”,大部分路径传输完成后闲置等待少数路径完成传输,系统利用率因此打折扣。 图10:AI计算的数据流传输容易出现长尾相应 不同计算进程间数据共接收端,容易出现“受害者流量”。AI推理集群必然会出现多个负载处理多个用户需求或多条并发请求的情况,不同负载由不同端口输出数据,传输路径上有共用的叶、脊交换机,则共接收端的“多传一”(Many-To-One)现象容易出现网络背压、拥塞传播甚至丢包。 例如下图中,负载A由网卡1、2、3输出的路径与负载B由网卡4输出的路径共用交换机a,且路径3与路径4共用交换机b,在常规网络架构下,路径1、2、3均按最大带宽连接交换机a,交换机a处出现拥塞,网路背压导致连接交换机b的路径也出现拥塞,路径4数据流的稳态带宽受到影响,成为“受害者流量”(Victim Flow)。 图11:共接收端“多传一”带来拥塞 2.2.RDMA网络如何解决潜在问题? “自适应路由”基于网卡及交换机,可解决“大象流”带来的长尾效应。1)交换机根据各端口数据输出队列状态判断该端口的负荷情况,并将新数据路由至当前负荷最小的端口/路径,这样可有效实现各端口负载均衡;2)重新路由后的数据一般会按照与原序列不同的顺序到达网卡,网卡利用DDP协议(数据报文中的DDP前缀包含识别数据原存储位置的信息)将接收到的数据按照原顺序存放。针对AI计算中显著增加的“大象流”,自适应路由通过动态监控各端口传输负荷并按此分配路径,均衡负载,解决长尾问题。 图12:自适应路由原理图 图13:RoCE通过自适应路由减少“长尾效应”的效果明显 交换机拥塞控制算法+缓存池化实现性能隔离。1)各节点交换机实时监控传输速率及拥塞程度,由交换机芯片接收处理该节点及相邻节点的检测数据,并基于拥塞控制算法调节各相关交换机的传输速率;2)交换机将物理缓存池化,根据不同端口的接收、传输速率分配缓存。 图14:拥塞控制算法调节相关节点交换机速率 图15:交换机缓存池化 图16:Spectrum-X进行拥塞控制的网络平均带宽是传统以太网两倍 3.RoCE的渗透将带来哪些产业变化? 3.1.交换机集成更多功能,白盒交换机获更多发挥空间 芯片支持容量提升,增加RoCE配套功能。交换机芯片支持的容量迭代提升是必然趋势,博通Tomahawk5总容量达51.2T,支持64个端口单口带宽达800G,相比上代翻倍,英伟达Spectrum-X800交换机总容量51.2T、端口64个,分别是上一代的4倍和两倍;同时前一章中提到RoCE实现的自适应路由、拥塞控制及缓存池化分配等功能均需要交换机、网卡软硬件支持。 图17:博通TH系列路线图 图18:Spectrum-X800适配的软件 RoCE带来更多软件客制化可能,白盒交换机有望进一步渗透。白盒交换机采用开放式网络交换架构,将商用硬件与开源软件操作系统相结合,以实现更灵活的网络配置和管理。RoCE网络中的硬件升级以实现自适应路由、拥塞控制等功能,同时云厂商亦可根据自身硬件特性、需求和痛点自行开发相应功能的算法及软件,白盒交换机在软硬件上的发挥空间进一步扩展。 图19:白盒交换机自身特点 图20:传统交换机和白盒交换机架构对比 3.2.英伟达及云厂商一前一后拉动光模块需求 推理需求增长+RoCE技术到位,云厂自建加速带来800G光模块新增量。各大云厂均有深厚的以太网算力集群投资建设经验,在之前的算力建设阶段,训练及训推一体算力投资占比高,基本以IB为主,以太网均为400G架构,后期推理需求陆续释放,且自建RoCE可实现800G带宽,云厂有望以IB会以更大力度投资建设,800G光模块等产品需求得以加速增长 云厂不构成对英伟达总需求的分流: 一方面,英伟达的客户结构越来越多样化,大型云厂客户在公司数据中心业务收入占比由上个季度的50%以上降低至45%左右,同时后续主权AI、企业计算、自动驾驶等垂类均将增长至贡献数十亿美元收入,客户、需求结构还会进一步优化; 另一方面,对于上游光模块供应链而言,目前英伟达更多扮演前沿产品迭代引领者及新产品需求推动者的角色,英伟达IB架构的交换机容量及支持带宽相对最新RoCE产品保持一代领先,我们认为至少在后续一到两代产品中,英伟达主导训练及训推算力,云厂自建算力以推理为主,如明年英伟达出货GB200搭配1.6T光模块,以训练、训推一体为主,云厂商采用H100等搭配800G光模块自建,以推理为主。因此当前节点针对英伟达的需求应更多关注明年上量的1.6T光模块。 图21:英伟达目前规划的产品路线图 产业逻辑充分,硅光模块有望加速渗透: 1、补上EML芯片潜在缺口。云厂商采用的为单模光模块,明年