华西计算机团队 2023年10月9日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 仅供机构投资者使用证券研究报告|行业深度研究报告 华为算力分拆:全球AI算力的第二极 AIGC行业深度报告(11) 核心逻辑: 全面对标英伟达,华为开启国产自主可控新征程。我们认为英伟达作为全球AI算力芯片龙头坐拥三大法宝,分别是高性能芯片、其中IC设计是重点,CUDA架构、助力AI加速计算生态,Nvlink、NVSwitch助力芯片快速互联互通与InfiniBand配合组网技术实现高效互联互通;而华为作为国产计算之光全面对标英伟达,在算力方面,昇腾910芯片单卡算力已经可以与英伟达A100相媲美;统一达芬奇架构助力AI计算引擎;HCCS互联技术,实现卡间高速互联。 华为构筑世界AI算力第二选择:全连接大会上,华为发布多款AI产品,为世界AI算力第二选择。华为Atlas900SuperCluster、全新的华为星河AI智算交换机亮相,打开国产算力集群想象空间,同时发布“三力四总线”,打造智能世界数字基础大设施,此外发布星河AI网络解决方案,以高运力释放AI时代的高算力;软件方面,华为携手基础软硬件创新,开启国产AI生态;华为鲲鹏、昇腾、AI助力国产千行百业数字化升级,包括金融、智能制造、工业、教育、医疗等方面。 为领衔演绎国产AI计算产业崛起:我们认为华为AI计算产业的核心在于芯片的自主可控,其中以鲲鹏和昇腾为主导的海思芯片尤为重要,因此与之相关的国产集成电路产业突围尤为重要,其中重中之重是EDA、光刻、代工产业;AI与信创双轮驱动,国产服务器需求火爆,AI服务器中的主要元器件包括CPU、GPU板组、内存、硬盘、网络接口卡组成,配合电源、主板、机箱、散热系统等基础硬件以提供信息服务,计算服务器基础硬件供应商和华为生态伙伴也将迎来发展机遇;算力组网方面,华为有望带动相关产品快速放量,其中包括国产AI服务器、交换机、光模块等产品,此外,在算网的趋势下,网络可视化将迎来黄金发展周期。 投资建议:受益标的:EDA:华大九天、概伦电子、广立微等;光刻:福晶科技、奥普光电、苏大维格、美埃科技、腾景科技等;PCB:沪电股份、胜宏科技等;内存接口:澜起科技、聚辰股份等;连接器:华丰科技、鼎通科技等;BIOS:卓易信息等;电源:杰华特、欧陆通、中国长城等;服务器:拓维信息、神州数码、天源迪科、四川长虹、高新发展等;光模块:天孚通信,剑桥科技、太辰光、中际旭创等;网络可视化:恒为科技、浩瀚深度、中新赛克等;操作系统:润和软件、测绘股份、中国软件、麒麟信安、诚迈科技等;技术开发:软通动力、常山北明等;传统应用:海量数据、超图软件、赛意信息等;AI应用:润达医疗、云鼎科技、梅安森、万达信息、龙软科技、金山办公、梦网科技等。 目录 01全面对标英伟达,开启国产自主可控新征程 02华为领衔演绎国产AI计算产业崛起 03投资建议:梳理AIGC相关受益厂商 04风险提示 01全面对标英伟达,开启国产自主可控新征程 英伟达二季度业绩持续超预期,印证AI景气度:美东时间8月23日,英伟达公布2024财年第二财季季报。二季度营收135.07亿美元,同比增长101%,远超市场预期的指引区间107.8亿到112.2亿美元,相较于华尔街预期水平高22%-29%以上。业绩指引方面,英伟达预计,本季度、即2024财年第三财季营业收入为160亿美元,正负浮动2%,相当于指引范围在156.8亿到163.2亿美元之间。以160亿美元计算,英伟达预期三季度营收将同比增长170%,连续两个季度翻倍增长,高于市场预期。 AI芯片所在业务同环比均翻倍激增较市场预期高近30%,游戏业务同比重回增长:AI对英伟达业绩的贡献突出。包括AI显卡在内的英伟达核心业务数据中心同样收入翻倍激增,二季度数据中心营业收入为103.2亿美元,同比增长171%,环比增长141%;二季度游戏营收24.9亿美元,同比增长22%,环比增长11%,英伟达称,数据中心收入主要来自云服务商和大型消费类互联网公司。基于Hopper和Ampere架构GPU的英伟达HGX平台之所以强劲需求,主要源于开发生成式AI和大语言模型的推动。 产品实现云、边、端全面布局 云端 •GPU加速云计算(在云端完成计算) •OmniverseCloud:自部署云容器、托管服务 边缘计算 •Jetson嵌入式系统:Orin系列、Xavier系列、TX2系列、Nano(在数据源或数据源附近完成计算) 终端 •游戏:驱动器、Reflex、G-SYNC显示器 •可视化:虚拟工作站、NVIDIARTXDI光线追踪等 •智能驾驶:舱内智能服务软件、地图软件、辅助驾驶平台等 全球高端GPU领导者,经数十代产品迭代,技术指标全面升级。从2011年英伟达推出TeslaM2090数据中心GPU,到2022年H100、L40等型号产品,多项核心技术指标大幅提升。其中,CUDA作为GPU内部主要的计算单元,从512个升级到超14000个;芯片工艺尺寸也从40nm降至4nm;单精度浮点算力从1332GFLOPS增至超50TFLOPS。GPU产品性能整体大幅跃升。 推出Grace系列,加速大型AI、HPC、云和超大规模工作负载。2022年公司发布首款CPU产品Grace,用于高性能计算和云计算。GraceCPU超级芯片采用NVLink®-C2C技术,可提供144个Arm®NeoverseV2核心和1TB/s的内存带宽,每瓦性能是当今领先CPU的2倍。此外,公司还推出的GraceHopper超级芯片将Grace和Hopper架构相结合,为加速AI和高性能计算(HPC)应用提供CPU+GPU相结合的一致内存模型。 2023年,英伟达发布多款AI超算产品,助力全球生态:其中包括DGX服务器、DGXGH200AI超级计算机、AIfoundations云服务等产品,其中DGXGHAI超级计算机由NVIDIAGH200GraceHopper超级芯片和NVIDIANVLinkSwitchSystem驱动,相比上一代将NVLink带宽提升了48倍以上。 英伟达部分数据中心GPU产品及参数英伟达DGXGH200AI超级计算机 GPU适用于处理大数据集,CUDA核是本质原因。最开始,GPU(图形处理单元)作为一种专用计算机处理器,可以满足实施高分辨率3D图形计算密集型任务的需求。到2012年,由于GPU已经发展成为高度并行的多核系统,让它具备了处理大量数据的能力。简而言之,CPU做的专注线性计算,GPU做的是并行计算(数据之间没有直接关系),而本质的原因是CUDA核的不同,CUDA核越多,计算性能越强,而GPU的CUDA核数是CPU的上百倍,如AMDEPYC7003系列7763核心数为64个,而英伟达A10040GB核心数为6912个。 CUDA的本质是“软件定义硬件”,实现“软件调用硬件”。CUDA是一种并行计算平台和应用程序编程接口(API),允许软件使用特定类型的图形处理单元(GPU)进行通用目的的处理,称为通用图形处理单元计算(GPGPU)。CUDA提供了直接访问GPU虚拟指令集和并行计算元素的软件层,用于执行计算内核。CUDA支持的GPU还可以使用编程框架,通过将代码编译为CUDA来使用HIP。CUDA将从前多种不同的代码整合成了一气呵成的代码,这样极大的加快了开发模型的训练速度。可以简单理解,CUDA是英伟达实现软硬件适配的一种“类编译器”,将软件的代码转换成硬件汇编代码,CUDA是英伟达实现软硬件生态的护城河。 CUDA处理流程CPU和GPU计算资源差异 CUDA处理流程: 1.将数据从驻内存复制到GPU内存 2.CPU启动GPU计算内核 3.GPU的CUDA内核并行执行计算 4.将生成的数据从GPU内存输送到内存 CUDA助力加速计算及深度学习:GPU通过图形应用程序的算法存在算法密集、高度并行、控制简单、分多个阶段执行等特征,英伟达引入的CUDA使GPU超越了图形领域。同时,CUDA的框架和库可以充分发挥GPU的并行计算能力,提供高效的矩阵运算、卷积运算等计算任务的实现,大大简化深度学习的编程工作,提高开发效率和代码质量。在经GPU加速的应用中,工作负载的串行部分在CPU上运行,而应用的计算密集型部分则以并行方式在数千个GPU核心上运行,能够大幅提升计算效率。目前NVIDIAH100GPU的CUDA数已达到14592个,远超AMDEPYCGenoa-XCPU的96个核心。 CUDA生态合作者规模翻倍增长。根据英伟达2023财年年报,目前有400万名开发者正在与CUDA合作,而且规模还在不断扩大。英伟达通过12年的时间达到200万名开发者,在过去的两年半里该数字翻了一番。目前CUDA的下载量已经超过了4000万次。 CUDA软件架构英伟达CUDA工具包 速度更快、可扩展性更强的互连已成为当前的迫切需求:AI和高性能计算领域的计算需求不断增长,对于能够在每个GPU之间实现无缝高速通信的多节点、多GPU系统的需求也在与日俱增。要打造功能强大且能够满足业务速度需求的端到端计算平台,可扩展的快速互连必不可少。简而言之,随着模型复杂程度增加,单张GPU无法完成训练任务,需要联合多张GPU,乃至多台服务器搭建集群协同工作,并需要GPU之间以及服务器之间进行数据传输交互。我们认为数据传输同样也是大模型算力集群能力的重要体现。 英伟达推出NVLink技术代替传统的PCIe技术:第四代NVIDIA®NVLink®技术可为多GPU系统配置提供高于以往1.5倍的带宽,以及增强的可扩展性。单个NVIDIAH100TensorCoreGPU支持多达18个NVLink连接,总带宽为900GB/s,是PCIe5.0带宽的7倍。NVIDIADGX™H100等服务器可利用这项技术来提高可扩展性,进而实现超快速的深度学习训练。 NVSwitch与Nvlink协同互联,助力英伟达高速通信能力构建:NVSwitch是一种高速交换机技术,可以将多个GPU和CPU直接连接起来,形成一个高性能计算系统。每个NVSwitch都有64个NVLink端口,并配有NVIDIASHARP™引擎,可用于网络内归约和组播加速。 NVlink示意图NVlink性能NVlink与NVSwitch性能一览 NVLing规格 第二代 第三代 第四代 Nvlink 300GB/s 600GB/s 900GB/s 每个GPU最大链路数 6 12 18 NVIDIA架构支持 NVIDIAVolta™架构 NVIDIAAmpere架构 NVIDIAHopper™架构 NVSwitch规格 第一代 第二代 第三代 直连或节点中GPU数量 最多8个 最多8个 最多8个 NVSwitchGPU之间带宽 300GB/s 600GB/s 900GB/s 聚合总带宽 2.4TB/s 4.8TB/s 7.2TB/s NVIDIA架构支持 NVIDIAVolta架构 NVIDIAAmpere架构 NVIDIAHopper架构 2023年5月30日COMPUTEX主题演讲,英伟达展示全新的NVIDIASpectrum-X网络平台:NVIDIASpectrum-X的核心是Spectrum-4以太网交换机、BlueField-3DPU、LinkX高性能线缆/模块和NVIDIA端到端加速软件,与传统以太网相比,实现了1.7倍的整体AI性能和效能提升,可在多租户环境中提供一致、可预测的性能,其中Spectrum-4提高了基于以太网AI云的性能与效率,与现有以太网的堆栈实现互通。单台交换机即可实现突破性的256个200Gb/s端口的连接,以支持AI云的增长和扩展。 NVIDIASpectrum-4:NVIDIASpectrumSN500