业 行DONGXING 研究 SECURITIES 东兴 券 股 证紧抓AI之光 份 有 公 司 限——2023年通信行业半年度策略 证券 研分析师李美贤联系方式:limx_yjs@dxzq.net.cn执业证书编号:S1480521080004 究报告 东兴通信 2023年07月21日 2023上半年回顾:自2023年2月以来,随着chatGPT的火爆,景气度从光模块传导到服务器、交换机等设备,市场对数据中心的算力网络的增长预期大幅提 升。今年上半年,通信板块大幅跑赢科创50、沪深300等指数。 展望下半年,我们认为AI依然是今年主线,长期来看,建议关注中国光模块产业链崛起机遇。 大模型是一种新的生产力工具,来帮助我们更准确地认知世界和预测世界。大模型的出现是一系列的变革,我们看到不仅是800G光模块、HBM需求旺盛的现象,其背后是深度学习对于链上所有参与环节的突破,包括解决存储墙出现的HBM、解决算力墙出现的集群和分布式训练、解决通信墙而出现的网 络架构革新、解决功率墙出现的液冷等等,是通信和电子一系列技术新一轮的变革。 本轮光模块800G周期有何不同?网络架构变革是800G超预期的原因。光模块行业是一个周期成长的行业,本身遵循光摩尔定律,即每2-3年网络带宽翻倍,因此光模块公司的业绩往往跟随速率升级的周期节奏。而本轮800G周期和以往100G、400G的不同之处在于,不仅仅是速率升级,还有网络架构的变革。我们看到AI数据中心网络架构有两个变革:一个是从Spine-Leaf架构→Fat-tree架构;二是GPUAll-to-all直连,这两种变革都额外地、大幅地增加了光模块需求。我们测算,由于使用Fat-tree的架构,DGXA100中GPU:光模块的比重将达到1:6,而GPUAll-to-all直连是光模块增量最大的部分, 使得GPU:光模块从1:2.5大幅提升至1:7。 网络架构的变革的驱动力?传统适用于HPC的网络,无法满足大模型集群训练的带宽和时延需求。大模型训练的本质是将权重参数网络多次迭代,海量的数据因此需要不停地从存储和计算单元反复转移,需要至少数百万次的迭代,直到输出可接受的结果。而分布式训练需要GPU之间通信,使得AI/ML数据中心东西流量大增,流量模式也异于传统云计算。分布式训练的两种方式——数据并行(Dataparallelism)和模型并行(Modelparallelism), 都涉及频繁的GPU间通信。无阻塞(Non-blocking)的网络,由于其不收敛的特点,可以提高网络效率,加快训练速度,这是专用于AI/ML训练的数据中心,其网络架构从Spine-leaf转到Fat-tree的原因。GPU本身为了解决存储墙而对HBM的采用,虽然使得存储带宽的大幅提升,但也进一步拉大了存储带宽和网络带宽的差距,使得网络带宽成为算力瓶颈,这是推动GPU进行all-to-all直连的原因。 未来,模型大型化的演进,会持续提升算力需求。 AI对算力增长的推动主要来自两个方面:1)更大规模的模型;2)多模态模型。HBM迭代加快,更高带宽的HBM3E有望今年底量产,将进一步推动网络带宽的提升。算力、存储、网络是绑定关系,更高的算力、更大带宽的存储,必然需要升级网络。第二代800G产品将采用200GPAM4,可以进一步提升带宽、降低功耗。在今年的3月举办的OFC上,包括II-VI等在内的头部光模块厂商都展出了基于200GPAM4方案的800G和1.6T光模块样品,产业落地逐步加快。 事实上,光模块已成为我国优势产业,有望尽享800G红利。 近5年来,中国光模块厂商凭借强大的工程师红利,在与海外光模块厂商竞争中不断占据上风。2022年,合计七家光模块厂商进入全球前十,中际旭创更是凭借在数通领域的强大优势,与II-VI并列第一,连续两年成为全球光模块龙头。我们认为,未来中国光模块厂商优势稳固,在全球 光模块产业链中的比重将继续提升。上游器件&芯片国产化将有望加速。依托光模块的地位,上游器件&芯片的国产替代有望加速,国内主要光 模块厂商扶持上游元器件的意愿明显。 我们认为,光模块产业链下一步可关注两个国产替代方向: 1)中高端激光芯片。10GDFB国产化相当成熟,25GDFB国产化加速,50GDFB和100GEML仍有非常大的空间。 2)TEC器件,光器件中价值量占比约13%,目前国产化程度低于光芯片以及陶瓷外壳,未来有望受益于国产替代+数据中心/激光雷达不断增长的激光芯片温控需求。 风险提示:AI技术发展不及预期,中美贸易冲突加剧。 通信行业2023年半年度投资策略 1通信行业2023上半年行情回顾 2紧握AI算力主线 2.1本轮光模块超预期的直接原因:网络架构的变革导致光模块用量大幅增长 2.2网络架构的变革的驱动力:传统适用于HPC的网络,无法满足大模型集群训练的带宽和时延需求 2.3下一步是什么?200GPAM4和持续提升的带宽需求 2.4光模块:我国目前竞争优势最突出的AI产业链环节 2.5中际旭创:光模块龙头,尽享800G红利 3关注中国光模块产业崛起机遇 3.1光模块厂商扶持上游意愿明显,光模块芯片&器件替代加速 3.2光模块上游国产替代方向1:高端光芯片 3.3源杰科技:国内光芯片优秀厂商 3.4光模块上游国产替代方向2:TEC 3.5富信科技:国内稀缺的光模块TEC厂商 2023年上半年,通信板块一路领跑。2月以来,随着chatGPT的火爆,景气度从光模块传导到服务器、交换机等设备,市场对数据中心的算力网 络的增长预期大幅提升。今年上半年,通信板块大幅跑赢科创50、沪深300等指数。 在A股所有板块中,通信涨幅最大。以通信、传媒、计算机、电子为代表的TMT板块涨幅靠前,其中,通信上半年涨幅51%,位居所有板块前列 。 上半年AI行情中,光模块产业链个股市场表现最优。以中际旭创、联特科技为代表的光模块公司、以天孚通信为代表的光器件公司、以及产业 链上数通设备、线缆公司涨幅靠前。 通信行业2023年半年度投资策略 1通信行业2023上半年行情回顾 2紧握AI算力主线 2.1本轮光模块超预期的直接原因:网络架构的变革导致光模块用量大幅增长 2.2网络架构的变革的驱动力:传统适用于HPC的网络,无法满足大模型集群训练的带宽和时延需求 2.3下一步是什么?200GPAM4和持续提升的带宽需求 2.4光模块:我国目前竞争优势最突出的AI产业链环节 2.5中际旭创:光模块龙头,尽享800G红利 3关注中国光模块产业崛起机遇 3.1光模块厂商扶持上游意愿明显,光模块芯片&器件替代加速 3.2光模块上游国产替代方向1:高端光芯片 3.3源杰科技:国内光芯片优秀厂商 3.4光模块上游国产替代方向2:TEC 3.5富信科技:国内稀缺的光模块TEC厂商 大模型是一种新的生产力工具,来帮助我们更准确地认知世界和预测世界。大模型(FoundationModel)的出现是一系列的变革,我们看到 不仅是800G光模块、HBM需求旺盛的现象,其背后是深度学习对于链上所有参与环节的突破,包括解决存储墙出现的HBM、解决算力墙出现的 集群和分布式训练、解决通信墙而出现的网络架构革新、解决功率墙出现的液冷等等,是通信和电子一系列技术新一轮的变革。 本轮光模块800G周期有何不同?光模块行业是一个周期成长的行业,本身遵循光摩尔定律,即每2-3年网络带宽翻倍,因此光模块公司的业 绩往往跟随速率升级周期节奏。而本轮800G周期和以往100G、400G的不同之处在于,不仅仅是速率升级,还有网络架构的变革。我们看到AI数据中心网络架构有两个变革:一个是从Spine-Leaf架构→Fat-tree架构;二是GPUAll-to-all直连,这两种变革都额外地、大幅地增加了 光模块需求。 变革1:Spine-Leaf架构→Fat-tree架构:与云计算普遍采用的Spine-Leaf架构不同,Fat-tree架构是一种无阻塞(Non-blocking),交 换机上行和下行的速率一致,在AI/ML的数据中心中普遍采用。由于不做收敛,需要更多的光口来保证上下行速率一致,因此增加了光模 块数量。例如,传统的Spine-Leaf一般收敛比是3:1,而Fat-tree1:1的收敛比使得光模块用量是原来的3倍; 变革2:集群内GPUAll-to-All直连。在英伟达DGXA100中,NVLink取代PCIe,负责对服务器内GPU进行直连(载体为PCB),因此获得更 大的带宽,加快训练速度,但跨服务器的GPU依然要通过英伟达的IB(Infiniband)/Ethernet进行通信。而在英伟达DGXH100集群中,不同服务器的GPU之间使用NVLink连接到NVSwitch进行通信,而不是IB/Ethernet进行连接,因此新增了一套NVSiwtch相连的光网络系统 ,每个服务器有18个OSFP和NVSwitch相连,大幅增加了光模块的使用量。 我们计算,在英伟达DGXA100集群中,GPU:光模块(200G)=1:6;而在DGXH100中,如果不使用NVSwitch,GPU:光模块(400&800G) =1:2.5,如果使用NVSwitch将集群内所有GPU进行连接,那么GPU:光模块(400&800G)之比将从1:2.5大幅升高至1:7。 大模型训练的本质是将权重参数网络多次迭代。深度学习目标是 通过反复迭代,算出预测输出准确率最高时的权重。首先,模型设定初始权重(通常服从均值为0的高斯分布),从输入逐步计算每一层神经元的值,直到计算出模型的输出,将其和实际结果比对计算出偏差,这是前向传播(Forwardpropagation)。权重和偏差的数据会暂存到DRAM中。而利用得到的偏差,再通过计算梯度调整上一层权重,逐渐反推到第一层,这是反向传播(Backpropagation)。这样,计算单元每进行一次迭代,都需要把上一次迭代得到的参数从存储中读取出来,完成计算后再存回存储,以备下一次迭代使用。现代的神经网络通常有十亿级别甚至百亿 的参数,海量的数据因此需要不停地从存储和计算单元反复转移 ,需要至少数百万次的迭代(大部分时间计算单元需要等待存储 单元读写数据,存储首先成为了算力瓶颈),直到输出可接受的 结果。 分布式训练需要GPU之间通信,使得AI/ML数据中心东西流量大增,流量模式也异于传统云计算。大模型数十亿甚至百亿的参数,远超单片芯片的计算能力,因此,目前的大模型训练通常把数百片甚至数千片 GPU组成一个集群进行训练。主要有两种分布式训练,都涉及频繁的 GPU间通信(假设两片GPU进行训练的场景): 1)数据并行(Dataparallelism)将不同样本分到不同的GPU进 行训练,可以加快训练时间。首先,CPU将样本划分成不同的 mini-batch,分发到GPU0和GPU1;GPU0和GPU1进行前向传播,将更新后权重同步到每片GPU中进行反向传播,因此需要GPU进行 通信,以保证模型的权重是同步的。 2)模型并行(Modelparallelism)将不同层的权重计算划分到 不同的GPU进行训练。首先,CPU将模型划分到不同的GPU中,向前传播中,GPU0计算第一层权重;第二步,GPU0将权重发送到GPU1中,GPU1进行前向传播计算剩余的权重;第三步,GPU1进行反向传播,将权重等数据传到GPU0;第四步,GPU0进行反向传播 ,以此循环。权重、偏差等中间数据在不同的GPU间流动。 更具体地,在数据并行训练中,通过RingAll-reduce算法, GPU之间进行了快速的权重同步: RingAll-reduce:每个GPU将自己的梯度数据发送到同一个工 作组的另一个GPU,这样可以同时利用发送和接收带宽,比如 : 第一步,GPU-0发送a0到GPU-1,同时,GPU-1将b1发