AI服务器需求快速提升,GPU新品不断性能持续提升。Trendforce集邦咨询预计23年AI服务器出货量约120万台,同比+38.4%,占整体服务器出货量的比约为9%,2022~2026年AI服务器出货量CAGR将达22%,而AI芯片2023年出货量将成长46%。GPU作为数据并行处理的核心,是AI服务器的核心增量。2021英伟达在企业级GPU市场中占比91.4%,AMD占比8.5%。目前英伟达产品DGX GH200已发布,互连技术强大,算力进一步升级。5月29日,英伟达在其发布会上,正式发布最新的GH200 Grace Hopper超级芯片,以及拥有256个GH200超级芯片的NVIDIA DGX GH200超级计算机。GH200超级芯片内部集成了Grace CPU和H100 GPU,晶体管数量达2000亿个。同时,DGX GH200的AI性能算力将达到1 exaFLOPS。与DGX H100相比,DGX GH200的共享内存提升约230倍。而AMD在美国时间2023年6月13日,推出其新款AI芯片MI300系列,两款芯片分别为MI300A与MI300X,分别集成1460、1530亿个晶体管。MI300A内含13个小芯片,总共集成1460亿个晶体管,其内部包含24个Zen 4 CPU核心、1个CDNA 3图形引擎和128GB HBM3内存;而MI300X是针对大预言模型的优化版本,其内存达192GB,内存带宽为5.2TB/s,Infinity Fabric带宽为896GB/s,晶体管达1530亿个。AMD表示,与上代MI 250相比,MI300的AI性能和每瓦性能分别为MI250的8倍和5倍。MI300由13个小芯片整合而成,其中其计算部分由9个基于台积电 5nm 工艺制程的小芯片组成,这些小芯片包括了CPU和GPU内核。3D堆叠设计极大提升了MI 300的性能与数据吞吐量。同时,MI300两侧排列着8个合计128GB的HBM3芯片,满足其海量且高速的数据存储需求。 性能升级带动产业革新,各环节增量不断。AI大模型等AIGC产业的升级离不开算力的底层支持,使得GPU等大算力芯片性能持续提升,带来产业链各环节增量。 其中,GPU为产业链最大增量,若以每个NVIDIA H100 GPU单价4万美元测算,DGX H100的GPU价值量达32万美元;AI服务器中NAND/DRAM的数据存储需求提升3倍/8倍,且各存储龙头逐渐发力HBM,服务高性能;而在PCB方面,目前普通服务器需要6-16层板和封装基板,而AI服务器等高端服务器主板层数则达16层以上,背板层数超过20层,明确受益AI算力提升;高制程芯片设计成本与制造成本均呈现指数型的增长趋势,Chiplet等先进封装应运而生。目前以CoWoS为代表的先进封装技术产能紧缺,已成为制约GPU生产的关键环节。 国内产业链机遇,PCB/内存接口/封测深度受益。(1)在PCB领域,沪电股份为中高端通讯板龙头,深度受益AI算力爆发;胜宏科技产品持续拓展,与优质客户共同成长;奥士康产品结构持续优化,聚焦ICT核心应用。(2)在服务器接口芯片领域,澜起科技内存接口芯片位列全球前三,持续拓展新品类;聚辰股份则深耕EEPROM+NOR Flash,服务器端SPD稳步培育。(3)在封测领域,长电科技已是全球Top3封测龙头,先进封装切入高性能计算;通富微电亦为先进封测龙头,深度绑定GPU龙头AMD。(4)在算力映射领域,海光信息为国产CPU+DCU龙头,产品性能逐代提升;龙芯中科产品高度可控,构建自主生态;寒武纪则聚焦人工智能领域,产品实现多维布局。 风险提示:行业发展不及预期风险;下游需求不及预期风险;竞争加剧风险。 1.英伟达+AMD一超一强,衍生产业链各环节增量机遇 1.1.AI服务器需求快速提升,GPU新品不断性能持续提升 AI服务器发展迅速,GPU环节为英伟达与AMD所占据。AIGC的发展带动AI服务器迅速增长,TrendForce集邦咨询预计23年AI服务器出货量约120万台,同比+38.4%,占整体服务器出货量的比约为9%,2022~2026年AI服务器出货量CAGR将达22%,而AI芯片2023年出货量将成长46%。GPU作为数据并行处理的核心,是AI服务器的核心增量。全球GPU呈现“一超一强”的竞争格局,根据IDC数据,2021英伟达在企业级GPU市场中占比91.4%,AMD占比8.5%。 图1:2022~2026年AI服务器出货量(单位:万台) 图2:2021年企业级GPU市场份额 目前英伟达产品DGX GH200已发布,互连技术强大,算力进一步升级。5月29日,英伟达在其发布会上,正式发布最新的GH200 Grace Hopper超级芯片,以及拥有256个GH200超级芯片的NVIDIA DGX GH200超级计算机。GH200超级芯片内部集成了Grace CPU和H100 GPU,晶体管数量达2000亿个。其借助NVIDIA NVLink-C2C芯片互连,将英伟达Grace CPU与英伟达H100 Tensor Core GPU整合。与PCIe Gen5技术相比,其GPU和CPU之间的带宽将提高7倍,并将互连功耗减少至1/5以下。同时,DGX GH200的AI性能算力将达到1 exaFLOPS。 图3:英伟达GH200内部结构及互连技术示意图 英伟达产品DGX GH200共享内存大幅提升,突破内存瓶颈。DGX GH200系统将256个GH200超级芯片与144TB的共享内存进行连接,进一步提高系统协同性。与DGXH100相比,DGXGH200的共享内存提升约230倍。凭借强大的共享内存,GH200能够显著改善受GPU内存大小瓶颈影响的AI和HPC应用程序的性能。而在具有tb级嵌入式表的深度学习推荐模型(DLRM)、tb级图神经网络训练模型或大型数据分析工作负载中,使用DGX GH200可将速度提高4到7倍。 图4:英伟达各代产品共享内存容量对比 图5:大内存AI工作负载的性能比较 而AMD在美国时间2023年6月13日,推出其新款AI芯片MI300系列,两款芯片分别为MI300A与MI300X,分别集成1460、1530亿个晶体管。MI300A内含13个小芯片,总共集成1460亿个晶体管,其内部包含24个Zen 4 CPU核心、1个CDNA 3图形引擎和128GB HBM3内存;而MI300X是针对大预言模型的优化版本,其内存达192GB,内存带宽为5.2TB/s,Infinity Fabric带宽为896GB/s,晶体管达1530亿个。AMD表示,与上代MI 250相比,MI300的AI性能和每瓦性能分别为MI250的8倍和5倍。 图6:AMDMI300与MI250性能对比 应用先进封装Chiplet技术与HBM3,工艺技术驱动产品升级。在以往CPU、GPU设计中,AMD常利用其先进的封装堆叠技术,集成多个小核心,从而实现整体性能的提升。根据芯智讯,MI300由13个小芯片整合而成,其中其计算部分由9个基于台积电 5nm 工艺制程的小芯片组成,这些小芯片包括了CPU和GPU内核。3D堆叠设计极大提升了MI300的性能与数据吞吐量。同时,MI300两侧排列着8个合计128GB的HBM3芯片,满足其海量且高速的数据存储需求。 图7:AMDMI300结构渲染图 1.2.性能升级带动产业革新,各环节增量不断 AI大模型等AIGC产业的升级离不开算力的底层支持,使得GPU等大算力芯片性能持续提升,带来产业链各环节增量。以英伟达DGX H100为例,其在GPU、互连技术、智能网卡、内存条、硬盘等结构上均较普通服务器有较大提升,同时其PCB的面积需求量与性能要求亦高于普通服务器。 图8:英伟达H100宣传示意图 图9:英伟达H100结构示意图 (1)GPU:量价齐升,产业链最大增量。一般的普通服务器仅会配备单卡或双卡,而AI服务器由于需要承担大量的计算,一般配置四块或以上的GPU。 且AI大模型在训练与推理时的计算量巨大,中低端的GPU无法满足其运算需求。 如在英伟达DGXH100中,其配备8个NVIDIA H100 GPU,总GPU显存高达640GB;每个GPU配备18个NVIDIANVLink,GPU之间的双向带宽高达900GB/s。 若以每个NVIDIA H100 GPU单价4万美元测算,DGXH100的GPU价值量为32万美元,为AI服务器中的最大增量。 图10:英伟达A100与H100算力性能情况 (2)硬盘:AI服务器NAND数据存储需求提升3倍。AI服务器的高吞吐量及训练模型的高参数量级亦推升NAND数据存储需求。美光估计,AI服务器中NAND需求量是传统服务器的3倍。一台DGX H100中,SSD的存储容量达30TB。 (3)内存:AI服务器DRAM数据存储需求提升8倍,HBM需求快速提升。 以HBM为主要代表的存算一体芯片能够通过2.5D/3D堆叠,将多个存储芯片与处理器芯片封装在一起,克服单一封装内带宽的限制、增加带宽、扩展内存容量、并减少数据存储的延迟。根据公众号全球SSD,三星2021年2月与AMD合作开发HBM-PIM,将内存和AI处理器合而为一,在CPU和GPU安装HBM-PIM,显著提高服务器运算速度。2023年开年后,三星高带宽存储器(HBM)订单快速增加。SK海力士亦在2021年10月成功开发出HBM3,并于2022年6月开始量产,在2022年第三季度向英伟达进行供货。同时,美光估计,AI服务器中DRAM需求量是传统服务器的8倍。如在一台DGXH100中,内存容量达2TB。 图11:SK海力士HBM3性能参数 (4)PCB:AI服务器PCB明确受益AI算力提升。目前普通服务器需要6-16层板和封装基板,而AI服务器等高端服务器主板层数则达16层以上,背板层数超过20层。且除GPU外,服务器中主板、电源背板、硬盘背板、网卡、Riser卡等核心部分均需使用PCB板进行数据传输。服务器出货量的增加将推动PCB需求量的提升。 图12:服务器各结构PCB使用情况 (5)先进封装:高制程芯片设计成本与制造成本均呈现指数型的增长趋势,Chiplet等先进封装应运而生。随着制程的提升,芯片成本的提升呈现指数型增长。 以芯片设计为例,根据UCIE白皮书, 28nm 制程的芯片设计成本约0.51亿美元,但当制程提升至 5nm 时,芯片设计成本则快速升至5.42亿美元,成本提升近十倍,先进制程的推进速度愈加缓慢。因此在HPC高性能计算领域,Chiplet的重要性持续提升。 图13:芯片设计成本随制程提升而快速升高(百万美元) 图14:芯片制造成本随制程提升而快速升高(百万美元) 目前,以CoWoS为代表的高性能计算先进封装产能紧缺,制约GPU产品出货。英伟达A100、H100 GPU均采用台积电CoWoS先进封装工艺。而根据科创板日报与台湾电子时报,英伟达将原定今年Q4的先进封装CoWoS产能,改为Q2-Q4平均分配生产,订单生产时间较原计划大大提前。目前,台积电CoWoS封测产能供不应求,部分订单已外溢日月光、矽品与Amkor、联电等。我们认为,以CoWoS为代表的先进封装技术产能紧缺,已成为制约GPU生产的关键环节。 图15:台积电CoWoS-R与CoWoS-L内部结构示意图 2.国内产业链机遇,PCB/内存接口/封测深度受益 2.1.PCB——沪电股份:中高端通讯板龙头,深度受益AI算力爆发 公司以中高端企业通讯市场板、汽车板为核心产品,数通板占比超6成。公司产品广泛应用于通讯设备、汽车、工业设备、数据中心、网通、微波射频、半导体芯片等多个领域,其中又以通讯设备板、汽车板为主,办公及工业设备板、半导体芯片测试板等为有力补充。2022年公司企业通讯板业务营收占比为66%。 公司在通讯板领域产品涵盖电源设备、服务器、路由器、交换机、存储等,品类齐全,产品以中高端为主,主导产