Scaling law依然有效,AI自研应需而生。ChatGPT掀起新一轮AI产业浪潮,预训练测Scaling law仍然有效,推理侧Scalinglaw刚崭露头角,AI算力有望维持高增长。全球科技龙头纷纷想抓住此轮AI浪潮的发展机遇,资本开支快速增长,但AI投入尚未得到明显回报,置身于是否加码AI投资的两难境地,自研AI芯片具备降本增效、提高自身竞争力等优势,AI自研应需而生。 英伟达深耕AI产业十多载,在GPU/网络/软件三方面筑建深厚壁垒。英伟达抓住以深度学习、大模型为核心技术的AI技术变革机遇,针对AI模型的大规模并行计算需求,在GPU、高速互连领域深度布局。其中,单GPU节点算力凭借着在结构、核心数等方面进行能力提升,过往8年内算力增长超千倍;在高速互连领域,英伟达在片间、Scale Up和ScaleOut网络域均提出相应解决方案。这些努力最终促使英伟达在AI系统领域构建了深厚的护城河。 若想取代甚至超越英伟达需要在AI加速器、高速互连等多方面取得突破。 AI产业群雄并起,自研AI有望提速。面对英伟达在AI算力领域的领导地位,以北美云厂商为首的科技企业,在算力芯片、高速互连等领域进行前瞻布局。其中,在AI自研芯片领域,亚马逊、微软、Meta等超大规模AI客户联合Broadcom、Marvell等芯片厂商,加快AI芯片推出速度;在Scale Up网络,以AMD、博通为首的科技玩家,构建UALink高速互连开放标准,提供了复制NVlink高速互连的路径,聚合全产业资源,加速追赶NVlink。在Scale Out网络,以太网凭借着生态优势、齐备的产业链和较高的性价比,得到了亚马逊、Meta、字节跳动等科技巨头们的青睐,超以太网联盟和英伟达Spectrum-X平台两大阵营均在该领域发力,推动以太网AI网络快速发展。未来基于以太网的AI网络有望成为主流解决方案。随着非英伟达阵营在AI加速器、高速互连等领域不断取得突破,AI自研方案有望加速落地。 投资建议:AI算力需求推动AI服务器、高速交换机用PCB需求维持高增长,相关公司有望深度受益。具体如下:(1)沪电股份:公司深耕北美客户,AI业务加速放量,800G交换机有望与AI服务器共振向上。(2)生益电子:公司深耕数通板行业十多载,成功开发了包括亚马逊在内的多家服务器客户,AI配套的主板及加速卡项目均已经进入量产阶段;800G交换机产品已经小批量交付,有望开始放量。(3)胜宏科技:公司前瞻布局HDI领域,AI多业务条线进展顺利,有望深度受益于AI服务器用HDI需求提升。 风险提示:AI产业发展不及预期、行业竞争格局加剧、产品导入不及预期、新技术迭代风险、原材料价格大幅上涨。 重点公司盈利预测、估值及投资评级 投资主题 报告亮点 AI技术底层原理解构,揭开AI算力基础设施面纱。本文梳理了AI技术的演进趋势,揭示了AI算力本质上是一种大规模并行计算,并通过对英伟达在GPU/高速互连领域的布局进行解构,指出了AI算力硬件产品的升级迭代的方向。 AI产业群雄并起,AI自研有望提速。本文指出了头部科技企业面临是否加码AI基础设施的两难境遇,AI自研应需而生。通过AI头部玩家在AI加速器、高速互连领域布局的分析,与前文AI算力需求、英伟达AI产业布局遥相呼应,可以看出AI自研逐步走上正轨,有望迎来快速发展期。 投资逻辑 AI产业快速发展,有望推动数通板行业迎来量价齐升。本文从AI技术底层原理出发,对AI产业头部玩家英伟达进行解构,分析非英伟达阵营在AI产业的进展,结合当前科技企业的境遇,推断出AI自研芯片有望迎来快速增长黄金期,数通板行业有望迎来量价齐升,相关PCB企业有望深度受益。 一、大模型Scaling仍在持续,推动大规模并行计算 (一)GPU与深度学习相辅相成,开启新一轮AI浪潮 深度学习开启新一轮AI浪潮,大模型接续发力。2006年图灵奖得主Hinton在《Science》提出了深度神经网络,掀起了基于深度学习的新一轮AI浪潮,奠定了大模型发展的基础。深度学习兴起的背景是计算能力的提高和大数据时代的到临,能够让机器自动地从原始数据中学习。从原始数据中提取高层次、抽象的特征是非常困难的。深度学习另辟蹊径,让计算机通过比较简单概念来构建复杂的概念,能够让计算机从经验和数据中得到提高的技术,在计算机视觉、自然语言处理等领域取得了一定的成果。深度学习早期主要用于解决机器学习中的表示学习的问题,但是由于其强大的能力,逐渐被用于解决一些通用人工智能的问题,如推理、决策等,当前主流的大模型技术本质上是由深度学习的延伸发展而来的。 图表1深度学习通过嵌套映射来学习复杂概念 图表2深度学习是一种特定的机器学习 深度学习训练、推理过程需要大量并行运算。深度学习广泛应用的模型是神经网络,主要是因为神经网络能够使用反向误差传播算法,可以很好地解决贡献度问题。深度学习狭义上就是很多层神经网络。深度神经网络通过训练以后用于推理任务,其中训练过程主要是让模型通过输入的数据不断学习,即调整模型的参数,包含前向传播和反向传播2个过程;推理过程主要是指训练好的模型对输入数据进行预测,仅包含前向传播过程。 不论是前向传播还是反向传播均需要大量的并行运算。 图表3深度神经网络前向传播过程 图表4深度神经网络反向传播过程 GPU采用高度并行架构,适用于深度学习大规模并行计算。CPU用于处理操作系统、应用程序运行中各类计算任务,需要很强的通用性;GPU可以更高效地处理并行运算任务。从架构上看,CPU与GPU主要存在几大区别: (1)并行处理能力:CPU拥有较少的计算单元(ALU),但是具有复杂的控制单元(Control),擅长逻辑控制和串行计算。GPU拥有大量的计算单元(ALU)和线程(Thread),大量ALU可以实现大的计算吞吐量,超配线程可以同时处理多个任务,能够较好处理内存延时问题,从而专注于大规模并行计算。 (2)内存架构:CPU拥有较大的Cache,可以缓存大量后续可能需要访问的数据,从而降低读取数据的时间。GPU缓存很少,且其缓存目的与CPU不同,是为更多的线程服务的,如果有很多线程需要访问一个相同的数据,缓存会合并访问需求然后去访问DRMA,获取数据后再发到对应的线程。GPU拥有更多的寄存器能够支持大量的线程。 (3)指令集:CPU的指令集通用性更强,适合执行各类任务;GPU的指令集主要用于图形处理和通用计算。CPU可以在不同的指令集之间快速切换,而GPU只是获取大量相同的指令并进行高速推送。 (4)功耗和散热:CPU功耗相对较低,散热要求也相对较低;GPU由于其高度并行特性,其功耗通常相对较高,需要更好的散热系统来保证稳定运行。 图表5CPU与GPU架构对比 GPU追求高吞吐量,CPU追求低延时。GPU与CPU的架构之间的差异是因为追求不同的目标。GPU的设计目标是最大化吞吐量,相比单个任务执行的速度,其更关心多任务的并行度,允许一次将尽可能多的任务送到GPU,然后通过大量的Core并行处理任务。CPU以序列化地方式处理任务,其目标是在尽可能低的延迟下完成任务,同时保持任务之间快速切换的能力。 图表6芯片架构设计三大目标:带宽(Bandwidth)、延时(Latency)和吞吐量(Throughput) (二)AI大模型掀起新一轮AI技术变革,大规模分布式AI算力需求迫切 AI算力需求增长迅速,拉动大规模分布式AI算力基础设施需求快速增长。深度学习掀起新一轮AI浪潮,算法、算力和数据三大要素协同迭代,推动AI模型能力不断提升。 在过去十多年时间里,受限于摩尔定律,CPU/GPU/TPU等处理器的算力增长速度远不及AI算力需求增长速度。面对迅速增长的AI算力需求,大规模分布式计算能够将复杂的任务分解到单个处理器上,用以解决单芯片性能不足的问题。未来随着大模型的广泛使用,大规模分布式AI算力需求有望持续高增长。 图表7AI算力需求增长速度远超硬件算力提升速度 图表8分布式计算与单节点计算对比 深度学习算法并行运行三大方式:数据并行、流水线并行和张量并行。 (1)数据并行:数据并行可以解决单节点算力不足的问题。该并行方式使用多个并行设备来加速训练,每个设备上部署相同的模型,将训练数据划分到不同设备上。各设备利用本地训练数据进行训练,完成前向传播和反向传播。在反向传播过程中,不同设备上的模型会生成局部梯度,需要对不同设备上相对应的局部梯度进行聚合,计算平均梯度,然后利用平均梯度更新模型参数,从而确保各设备上模型的参数是一致的。该聚合过程往往由集合通信AllReduce操作完成,通信的数据量规模和模型参数规模成正比,对于千亿、万亿规模参数的大模型来说通信数据量是很大的。 (2)流水线并行:深度神经网络由多层神经网络组成,大模型广泛采用的Transformer模型架构也是如此。流水线并行是将多层神经网络切分成多个阶段,再把不同阶段映射到不同设备上,使得不同设备去计算神经网络的不同部分。正向传播时,每个阶段的计算节点完成计算之后将结果传送到下一阶段的计算节点,同时,下一阶段的计算节点接收上一阶段计算节点的结果并开始计算;反向传播时,当最后一个计算节点的梯度算完以后,将结果发送给上一阶段计算节点,同时,上一阶段计算节点接收最后一个阶段计算节点梯度的结果,并进行本阶段的梯度计算,然后继续往前传播。该并行策略让每个设备只需计算模型的一部分,可以解决单计算节点内存不足的问题,不过其需要不同计算节点之间进行数据传输,传输的内容包括正向计算的激活值和反向计算的梯度值。这种通信在一个迭代里至少会发生几十次,但通信量一般不大,对网络的性能要求相对较低。 (3)张量并行:该并行方式是联合多个计算节点同时做一个张量运算,如:矩阵乘法。 单个计算节点对局部的张量进行计算,然后对多个计算节点做全局的AllReduce同步。 张量计算结果的大小不仅和模型参数规模有关,还和训练使用的数据batchsize相关,通常都非常大,并且在一次迭代里会发生很多AllReduce。因此,张量并行对网络带宽的需求最大。 图表9AI模型分布式并行策略 考虑三大并行策略的特点,在训练大模型时通常混合采用三种并行策略。首先,单节点内部多张GPU卡之间优先采用张量并行,充分利用单节点内部GPU之间NVLink高带宽通信能力。其次,当模型过大时,超出了单节点的内存空间,因此在多节点之间使用流水线并行策略。最后,为了进一步加快模型训练速度,使用数据并行策略。 图表10模型训练时,张量并行的通信流量远高于流水线和数据并行 图表11大模型训练中常用的混合并行训练策略 二、解构英伟达AI布局,探寻AI产业发展方向 AI算力集群通常由AI服务器、高速交换机构成。AI加速器是AI算力的最小单元,一台服务器通常包含多个加速器。为了方便管理,多台服务器组成一个机柜,并通过架顶交换机进行互连。在架顶交换机满载的情况下,可以通过在架顶交换机间增加骨干交换机(Spine Switch)进一步接入新的机柜。最终,完成对成千上万个加速器互连,利用上文所述的三种并行策略:张量并行、流水线并行和数据并行来提供大规模分布式AI算力,容纳更大的模型和数据,加快训练和推理速度。在AI大模型训练过程中,前向计算、反向计算和通信占据了主要时间,因此为了加快训练速度需要在算力、运力上同步进行提升。 图表12AI集群的典型架构 图表13AI大模型训练基本过程 英伟达在系统和网络、硬件和软件进行全方位布局,构建深厚竞争壁垒。在计算芯片方面,英伟达布局了CPU、GPU以及CPU-GPU SuperChip等产品;在网络领域,英伟达构建了两种类型的网络:一种是NVLink总线域网络,用于算力Scale Up扩展;另一种是InfiniBand和Ethernet网络,用于算力Scale Out扩展,其中基于InfiniBand的Quantum产品用于构建AI Factory,基于Ethernet的Spectru