您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:电子行业专题研究:AI服务器元年,接口芯片核心受益 - 发现报告
当前位置:首页/行业研究/报告详情/

电子行业专题研究:AI服务器元年,接口芯片核心受益

电子设备2023-05-10民生证券李***
电子行业专题研究:AI服务器元年,接口芯片核心受益

AIGC带动AI服务器需求量与日俱增,用于服务器内、外部数据传输等接口芯片也随之攀升,本文基于服务器内、外部高速互联需求,梳理了各类高速接口芯片市场情况。 海量数据带来高速传输需求,服务器高速互联芯片不可或缺: CPU和GPU等组件互联:PCIe Switch。自2003年PCIe 1.0推出起速率持续升级,目前PCIe6.0传输速率跃升至64GT/s。参考QYResearch数据,2021年全球PCIe芯片销售额7.9亿美元,预计2028年将达到18亿美元。目前全球仅少数厂商量产PCIe Switch芯片,博通、微芯科技和祥硕科技三家共占全球约58%份额。 因PCIe传输速率不断攀升,工作频率越来越高,不可避免的带来了信号衰减问题,PCIe Retimer、Redriver可有效解决信号衰减,其中PCIe Retimer有望为解决信号衰减最优方案。目前PCIe Retimer市场,谱瑞-KY、Astera labs、澜起科技三足鼎立,其中澜起为全球可量产PCIe 4.0 Retimer的唯一中国大陆供应商,且PCIe 5.0 Retimer研发顺利。 GPU与GPU互联:NVLink、NVSwitch。针对AI服务器中PCIe带宽限制,以NVDIA NVLink为代表的高速接口芯片应运而生。NVLink迭代升级至第四代,单链可实现50 GB/s的双向带宽,单芯片可支持18链路,即900 GB/s的总双向带宽。多GPU间通信则采用NVSwitch,第三代NVSwitch采用TSMC 4N工艺,每个NVSwitch芯片上拥有64个NVLink 4.0端口。此外,NVLink、NVSwitch也可实现服务器节点间的高速扩展性互联。通过在服务器外部增加一层NVSwitch,NVLink网络最多可连接32个服务器、256个GPU,并提供57.6TB/s的多对多带宽 CPU与DRAM高速互联:内存接口芯片(RCD+DB)。DDR5时代速率进一步升级,最高传输可由DDR4 Gen2plus支持的3200MT/s进一步提升至4800MT/s以上,且工作电压持续降低至1.1V。目前内存接口芯片三强争霸,澜起科技可为DDR5系列内存模组提供完整的内存接口及模组配套芯片解决方案,是目前全球可提供全套解决方案的两家公司之一。 服务器外部模块间高速传输需求激增,SerDes核心受益: 服务器互联传输速率提升,光纤成为服务器间传输的主流介质,其中光模块内需集成高速SerDes通道,例如QSFP28光模块会配备4个25Gbps SerDes通道来满足100GE速率的光电信号转化。并且随着服务器传输需求增长,光模块带宽也会增长,提升方法有两种:1)增加SerDes通道数;2)提高每个SerDes通道的比特速率。 交换机的带宽也会随应用需求而提升,各厂商正推动交换机的数据链路从100GE向400GE和800GE等更高速率方向发展带动,交换机ASIC内SerDes通道数增加至512通道,速率提升至100Gbps。 此外,服务器的各种外接设备连接、驱动等需求的提升,拓展多种接口芯片市场空间,如USB(用于连接鼠标等)、SAS(用于连接存储设备)、SATA(用于连接驱动)等。 投资建议:AI时代浪潮汹涌,海量数据催生庞大的算力需求,将带动服务器产业链需求量持续上涨。作为芯片与外部世界的交互媒介,接口芯片实现量增的同时,也朝向更高速率、更大传输带宽发展。建议关注芯原股份、裕太微-U、澜起科技、龙迅股份等。 风险提示:AI应用不及预期;AI服务器出货不及预期;国产替代进展不及预期。 重点公司盈利预测、估值与评级 1AI服务器前景广阔,接口芯片需求广泛 AIGC大时代来临,ChatGPT等大语言模型的推出,带动AI服务器需求量与日俱增。服务器行业由早期以传统服务器为主的市场格局,转变为传统服务器、云服务器、AI服务器和边缘服务器四足鼎立。当下,AI下游应用的持续火爆和算力要求的增加,AI服务器需求与日俱增。据TrendForce数据,AI服务器出货约13万台,占全球服务器出货约1%,展望2023年,Microsoft、Meta、Baidu与ByteDance相继推出基于生成式AI衍生的产品服务而积极加单,预估23年AI服务器出货量年增率可望达15.4%,且随着未来ChatGPT对AI服务器需求用量,预计2023-2027年AI服务器将以12.2%年复合增速成长。 图1:2022-2027年全球AI服务器出货量及增速 接口芯片在AI服务器数据传输中至关重要,需求将伴随服务器市场增长。在AI服务器需求增长的同时,针对于服务器内部之间或与其他设备的数据的传输、控制和管理等接口功能的要求也随之逐渐增加。服务器的升级与需求量提升也会带动接口芯片的增长。接下来,本文将具体从服务器内部互联,服务器外部接口两方面来梳理接口芯片行业情况。 2服务器内部:组件高速互联,接口芯片不可或缺 2.1以DXG H100服务器为例,拆解服务器内部高速互联架构 DGX H100于2022年推出,是NVIDIA的DGX系统的最新迭代产品,也是NVIDIA DGX SuperPOD的基础。DXG服务器配备8块H100 GPU,6400亿个晶体管,在全新的FP8精度下AI性能比上一代高6倍,可提供900GB/s的带宽。DGX H100服务器内部架构如下图所示: 图2:英伟达DGX H100服务器内部芯片互联架构图 在DGX H100服务器内部,蓝色方块为IP网卡,既可充当网卡又可发挥PCIeSwitch扩展功能,成为CPU与GPU(H100)之间互联的桥梁。其内部采用PCle 5.0标准。此外,CX7以网卡芯片的形式做成2块板卡来插入服务器,每4个CX7芯片组成一块板卡并且对外输出2个800G OSFP光模块口。 而GPU(H100)之间互联主要通过NVSwitch芯片来实现。每个DGX H100内的一个GPU向外伸出18个NVLink,单链双向带宽为50GB/s,共计18*50GB/s=900GB/s双向带宽,拆分到4个板载的NVSwitch上去,因而每个NVSwitch对应4-5个OSFP光模块(共计18个)。每个OSFP光模块采用8个光通道,每个通道的传输速率为100Gbps,因此总速率高达800Gbps,能够实现高速的数据传输。 2.2CPU、GPU等组件互联:PCIESwitch、Retimer芯片 2.2.1PCIe技术不断升级,速率持续提升 PCIeSwitch即PCIe开关或PCIe交换机,主要作用是实现PCIe设备互联,PCIeSwitch芯片与其设备的通信协议都是PCIe。由于PCIe的链路通信是一种端对端的数据传输,因此需要Switch提供扩展或聚合能力,从而允许更多的设备连接到一个PCle端口,以解决PCIe通道数量不够的问题。目前PCIeSwitch不仅已经被广泛应用在了传统存储系统中,而且在部分服务器平台中也逐渐普及,用于提高数据传输的速度。 PCIe总线技术升级,PCIe Switch每代速率提升。PCIe总线是PCI总线的高速串行替代品。2001年,Intel公布取代PCI总线的第三代I/O技术——“3GIO”,2002年该项技术经过PCI特殊兴趣组织(PCI-SIG)审核后正式改名为“PCI Express”,标志着PCIe的诞生。2003年,PCIe1.0正式发布,可支持每通道传输速率为250MB/s,总传输速率为2.5 GT/s。2007年PCI-SIG宣布推出PCI Express Base 2.0规范。在PCIe1.0的基础上将总传输速率提高了一倍,达到5 GT/s,每通道传输速率从250 MB/s上升至500 MB/s。2022年PCI-SIG正式发布PCIe6.0规范,将总带宽提高至64 GT/s。 表1:PCIe 1.0到6.0不同Lane下的带宽变化 随着PCIe在服务器中越来越广泛地被应用,PCIeSwitch的市场需求也被带动起来。根据QYResearch(恒州博智)的统计及预测,2021年全球PCIe芯片市场销售额达到了7.9亿美元,预计2028年将达到18亿美元,年复合增长率(CAGR)为11.9%。 图3:2021-2028年全球PCIe芯片市场销售额(亿美元) 中国是PCIeSwitch最大市场。随着服务器对海量数据存储与传输的要求日益提高,PCIeSwitch市场发展成为一片蓝海。中国是全球最大的电子产品生产和消费国家之一,在大数据、云计算、人工智能等领域,需要大量高速互联解决方案来实现海量数据传输。而PCIeSwitch作为高速互联解决方案,在中国市场具有极大的需求。据QYResearch(恒州博智)的报告,中国是全球PCIeSwitch最大的市场,占有大约50%的市场份额,之后是北美和欧洲,分别占比约13%和9%。 图4:PCIe Switch在不同地区的市场份额 博通、微芯科技和祥硕科技为领域龙头。目前全球仅少数几家公司具备PCIe Switch芯片技术,核心厂商主要包括博通、微芯科技和祥硕科技三家,共占有全球约58%的份额。此外,国内如边缘智芯推出一款XPU X100芯片,可用于通讯行业、边缘计算、智慧工厂等领域,该芯片为国内第一颗PCIe交换芯片,既可以起到PCIeSwitch数据芯片的功能,又可以实现以太网网络芯片的功能。 表2:PCIe Switch厂商及其产品介绍厂商地区 2.2.2信号衰减限制PCIe发展,PCIeRetimer提供解决方案 PCIeRetimer是为了解决PCIe总线的信号衰减问题而诞生的。由于PCIe传输速率不断攀升,工作频率越来越高,不可避免的带来了信号衰减问题。解决信号衰减的方案主要包括信号中继器/调节器(Redriver)、重定时器(Retimer)等。 Redriver:一种模拟信号芯片,功能主要为信号中继器。Redriver采用同等化(equalization)和预强调(pre-emphasis)技术来补偿信号损失,进而通过放大信号来增加讯号质量。Redriver信号通道包括CTLE(Continuous Time LinearEqualizer)、宽带增益节点以及线性驱动器。此外,Redriver可以发挥自动检测输入信号衰减情况和探测输出接收器(Rx)的功能,以确保Redriver在任何时候都能够提供最佳的信号传输性能。 Retimer:一种数模信号混合芯片,功能主要为重新生成信号。Retimer先恢复抖动的时钟信号,再生成新信号并重新发送,从而有效解决信号衰减问题。 与Redriver相比 ,Retimer还包含时钟数据恢复电路(CDR,Clock Data Recovery)、决策反馈均衡器(DFE,Decision Feedback Equalizer)和有限脉冲响应驱动器(FIR,Finite Impulse Response)。 在AI服务器中,GPU与CPU连接时至少需要一颗Retimer芯片来保证信号质量。具体而言,很多AI服务器都会配置多颗Retimer芯片,例如Astera Labs在AI加速器中配置了4颗Retimer芯片。 图5:Astera LabsGPU与AI加速器中的Retimer芯片配置 与Redriver相比,Retimer恢复信号的效果更好。由于Retimer具备数位信号处理(DSP)能力,能够在通讯信号已经与干扰耦合的情况下,仍然重建通讯信号。而Redriver仅能在物理层面增强信号,并且在增强信号的同时增强了噪音,因而难以处理杂糅信号。综上,在高带宽PCIe总线发展的背景下,Retimer芯片有望成为解决信号衰减问题的最优方案。 PCIeRetimer蓝海市场三足鼎立,潜在竞争者跃跃欲试。目前谱瑞-KY、Astera labs、澜起科技是PCIeRetimer蓝海市场中的三家主要厂商,占据领先地位。其中澜起科技布局PCIe较早,是全球可量产PCIe 4.0