您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[南京证券]:AIGC对光通信行业的影响 - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC对光通信行业的影响

信息技术2024-01-18-南京证券单***
AI智能总结
查看更多
AIGC对光通信行业的影响

行业评级:推荐 AIGC对光通信行业的影响 研究员孙其默 投资咨询证书号S0620523060001 联系方式025-58519170 邮箱qmsun@njzq.com.cn 摘要: 本轮AI浪潮由ChatGPT掀起,并引发中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛,无论是传统龙头企业还是新进入者都在积极推出自家大模型,加大算力设备投资。展望2024年,多模态大模型与应用生态圈将成为AIGC的关键词,训练与推理需求的超预期增长将驱动算力硬件设备加速建设。 AI服务器及相关硬件直接受益于算力需求增长,数据通信需求提升驱动光模块容量、数量双增长。单体服务器方面,为满足下游算力需求,芯片龙头企业加速产品迭代抢占市场份额。各家旗舰算力产品中,算力芯片异构、显存带宽扩容驱动服务器数据吞吐需求提升,光模块传输速率从400G向800G升级势在必行。算力集群组网方面,无阻塞网络架构、算力网络GPU全互联、计算单元规模提升,使得组网所需要的光模块、交换机在数量上显著提升。 投资建议:我们对光模块24年增长保持乐观,我们预计24年100G以上数通光模块行业规模增速在45%左右。相较于200/400G光模块驱动的行业周期,是由单个或少数云厂商资本开支驱动。而此次800G光模块是所有厂商参与测试,是服务器技术升级的关键节点。23年800G光模块是处于验证阶段,只有少量光模块企业有出货。24年伴随着英伟达H100的交付,800G光模块出货量将快速释放,标的估值得到消化。并伴随AI应用落地,推理算力需求预期提升,驱动光模块行业依然处于上行周期。重点关注:中际旭创、新易盛、光迅科技、天孚通信。 风险提升:AIGC应用推广不及预期;全球头部云服务厂商资本开支不及预期;800G光模块推广不及预期;行业竞争加剧,毛利率大幅不及预期。 目录 1.0行业背景:大模型驱动算力需求 1.1多模态大模型驱动训练算力需求增长 1.2大模型应用落地驱动推理算力需求增长 2.0算力芯片与服务器发展趋势 2.1服务器性能迭代加速驱动数据吞吐带宽提升 2.2服务器组网结构升级驱动光通信设备零部件需求数量提升 3.0光模块行业 行业特征与技术发展趋势 市场规模测算与投资建议 4.0风险提示 1.0行业背景 本轮AI浪潮由ChatGPT掀起,并引发中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛。无论是传统互联网企业还是新进入者都在加大算力投资,积极推出大模型。 我们认为多模态大模型与应用生态圈将成为2024年生成式AI的关键词,生成式AI依然处于行业发展的初期,多模态大模型训练与推理需求双驱动加速算力基础设施建设。 英伟达H100买家 资料来源:财联社、南京证券研究所 1.1多模态大模型,AI感知能力更加丰富 11月6日,OpenAI公布GPT-4Turbo,平台提供多模态功能,包括视觉、图像创造(DALL.E3)和文本转语音(TTS)。 12月7号,谷歌发布AI多模态模型Gemini1.0。Gemini1.0根据不同尺寸进行了优化,分别是Ultra、Pro和Nano。GeminiUltra适用于高度复杂的任务,GeminiPro是通用版,而GeminiNano则被用于各种客户端设备。Gemini1.0可以同时理解并识别本文、图形、音频等。 伴随着大模型处理数据的类型持续扩展,多模态大模型(LMMS)成为主流,这使得未来大模型参数与训练集规模将持续扩大。当前多模态系统主要处理文本、图片和语音。伴随行业发展,大模型将可以处理视频、音乐、3D等内容。这也意味着大模型训练算力需求的增长将超预期。 ChatGPT4 资料来源:OpenAI官网、谷歌官网、华泰研究、南京证券研究所 谷歌Gemini1.0 大模型训练对算力需求 1.2应用生态圈趋于成熟,推理算力需求显著增长 OpenAI发布了GPTs,让用户们无需代码,结合自己的需求、外部知识和能力创造自定义版本的GhatGPT,满足了用户的定制化需求。此外,OpenAI在11月底上线GPTstore,让开发者们能够分享、发布自己创建GPTs。GPTs和GPTStore的上线满足了客户的特色化需求,有望加速GPT应用生态建设,进一步提高用户黏性。 GPTs降低了制作大模型应用门槛,用户无需编程基础,用自然语言就能做出专属GPTS,从而加速大模型向个人用户和垂直行业渗透。GPT应用量的增长,也意味着“杀手级”应用出现的可能性提升。大模型应用所带来的推理算力需求将会超出预期。 GPTs 资料来源:万联证券研究所、南京证券研究所 GPTstore GPTs应用数量 2.0算力芯片与服务器发展趋势 大模型算力需求支撑AI服务器产业上行周期。算力芯片技术迭代加速,传统芯片厂商(英伟达、AMD、谷歌)以及新进入者 (Amazon、Meta、微软)都在持续推出产品去抢占市场份额。服务器性能加速迭代对数据通信能力提出了更高的要求。 技术迭代单体服务器数据吞吐需求提升。 服务器之间组网结构变化驱动光模块、交换机需求提升。 数据中心产业供应链 自研AI芯片时间轴 资料来源:长江证券研究所、申万宏源研究、南京证券研究所 2.1传统标准GPU服务器内部架构 PCIE直通:CPUPCIEline限制了服务器内显卡的数量:双路AMDmilan中间通过三条xGMI链路,整机可提供128*2-32*3=160条PCIEline,8 张CPU占用了16*8=128条PCIE通道,还有32条供其他网卡等部件使用。 优势:成本较PLX方式的低;单个GPU独享x16,性能更优。 劣势:4U只能支持8张双宽GPU卡;跨GPU无法直接点对点通信。 PLX拓展:通过PLX芯片,将一个x16拓展成4-5个x16。 优势:拓展性提升,4U支持10张双宽GPU卡;同PLX下GPU可点对点通信。 劣势:成本较高;GPU上行总带宽收敛,性能有限制。 AMDMilanGPU服务器的内部拓扑IntelicelakeGPU服务器拓扑 资料来源:Itserver技术分享、南京证券研究所 2.1NVLink技术、NVSwitch芯片提升芯片互联带宽打破PCIe限制 Nvlink4代的总带宽可达到900GB/s,为PCIe5.0总线带宽的7倍,对比下一代PCIe6.0的256GB/s也有显著优势。 NVSwitch是英伟达的节点交换架构,通过连接多个NVLink,在单节点内和节点间实现多GPU的拓展。第三代NVSwitch能在带点服务器节点中支持8-16个完全链接的GPU,支持以900GB/s的速度互联每个GPU。 英伟达H100使用第四代NVLink和第三代NVSwitch,具有八个NVIDIAH100TensorCoreGPU的系统具有3.6TB/s的二等分带宽和450GB/s的缩减操作带宽。与上一代相比,这两个数字分别增加了1.5倍和3倍。英伟达摆脱了PCIe在原始带宽、延迟以及缓存一直性方面的限制。通过NVLink和NVSwitch实现多个GPU大规模集群的传输,实现更快和更可拓展的计算系统。 NVLink和NVSwitch性能指标 NVLink和NVSwitch协同 资料来源:NVIDIA、南京证券研究所 2.1英伟达DGX服务器实现内部GPU全互联 以GTCSPRING2022发布的DGXH100为例,H100分为SXM和PCIe两个版本。主流大模型依赖多卡协同,GPU之间的带宽要求较高,Nvlink全互联的GPU更加适合大模型应用场景。 SXM版本中8张H100芯片通过4张NVLinkSwitch芯片实现全互联。GPU之间带宽高达900GB/s(双向链路25GB/s*2*18条 =900GB/s),相较于PCIE5.0x16双向带宽128GB/s,互联速度得到快速提升。 PCIe版本中4张H100芯片通过PCLeSwitchPEX4:1连接到CPU,2张H100芯片通过NvlinkBridge互联。PCIE机型更加灵 活,GPU卡的数量以及PCIE的拓朴可以进行调整。 NVIDIADGX/HGXGPU和CPU互联架构H100PCIeGPUH100SXMvsPCIe 资料来源:Itserver技术分享、NVIDIA、南京证券研究所 2.1英伟达DGX服务器计算网络设计优化 DGXH100在服务器内部通信构架中可以看出计算网络的重要性。相较于DGXA100,DGXH100正在放弃传统的PCIe网卡,转而使用“Cedar”的模块进行GPU与GPU之间的互联。DGXH100通过2个Cedar7模组,每个模组包含4个ConnextX-7ICs,通过Densilink电缆连接到服务器的对外接口。虽然8张GPU配备了8张400G的网卡ICs,但接口合成成了4个800G接口。 优势:1.使用Cedar模块可以提升服务器空间效率,同时有助于服务器内部空气流通。 2.Cedar模块直接通过电缆对外连接,有助于降低PCB设计复杂度与成本。 DGXH100Cedar7 DGXA100 资料来源:NVIDIA、知乎SteveYang、南京证券研究所 DGXH100计算与存储网络DGXH100/A100接口 2.1英伟达DGX服务器CPU与GPU实现互联 Hopper架构中,CPU和GPU从原本的PCIe连接转变为了Nvlink传输,是英伟达的第一个异构加速平台,适用于HPC和AI工作负载。 NVIDIANVLink-C2C是一种内存连贯、高带宽和低延迟超级芯片互联。它允许定制芯片可以便利地连接到NVIDIA芯片。解决AI和HPC问题需要高容量和高带宽内存(HBM)。此项互联技术可以提供统一、缓存一致性的内存地址空间,后者将系统和HBMGPU显存结合在一起,能够优化可编程性。CPU和GPU之间这种一致性、高宽带的连接是解决复杂AI和HPC问题的关键。 NVIDIAGraceHopper超级芯片逻辑概述 GraceHopper超级芯片性能表现 资料来源:NVIDIA、南京证券研究所 2.1Chiplet和异构芯片成为行业发展的趋势 Chiplet:AMD早在2011年发布了APU已经是CPU+GPU架构。在2017年,AMD发布的论文《DesignandAnalysisofanAPUforExascaleComputing》中讨论包含CPU、GPU和HBM内存堆栈的APU芯片设计。在2023年6月推出了AMD首个CPU+GPU的数据中心产品。 UltraFusion:M1Ultra采用台积电5nm工艺,由两块M1Max芯片拼接而成,这样的“组合”使得其晶体管数量达到1140亿颗。使得各项硬件指标翻倍:20核CPU包含16个高性能核心、4个高能效核心;GPU核心数量增至64核;32核神经网络引擎能够带来每秒22万亿次的运算能力;统一内存最高规格达到128GB;内存带宽提升至800GB/s。这种多芯片(Multi-die)配置主要靠UltraFusion多晶粒架构,使用2.5D先进封装技术。 异构芯片互联的趋势,逐步摆脱了传统SoC的束缚,芯片面积提升不一定意味着成本大幅提升与良品率大幅下降。 M1Ultra AMDMI300X(8个GPUChiplets) 资料来源:AMD、NVIDIA、APPLE、华泰研究、南京证券研究所 英伟达和AMD主要GPU相关产品参数对比 2.1NVIDIADGXGH200-256张Gracehopper超级芯片实现互联 2023年5月28日,英伟达宣布推出NVIDIADGXGH200,这是首款100TB级别的GPU内存系统。每8个GraceHopper为一组,每组对应3台L1NvlinkSW,256个节 点分别为32组,需要32*3=96台L1NVLinkSwitches。96台L1Nvswitch需要36台L