网络是AI大模型时代的关键一环。大模型时代,我们已经开始看到光模块、交换机等网络设备迭代加速,需求爆发。但市场对于为何显卡需要搭配大量光模块,以及通信为何成为大模型痛点体会较浅。本文中,我们将从原理出发,探讨网络为何成为AI时代的全新“C位”,并将从最新的产业变化中,讨论未来网络侧的创新与背后的投资机会。 网络需求从何而来?进入大模型时代,模型体积和单卡上限之间的差距迅速拉大,业界转而寻求多服务器集群来解决模型训练问题,这也构成了AI时代网络“上位”的基础。同时,相较于过去单纯用于传输数据,如今网络更多的用于同步显卡间的模型参数,对于网络的密度,容量都提出了更高要求。 日益庞大的模型体积:(1)训练耗时=训练数据规模x模型参数量/计算速率(2)计算速率=单设备计算速率x设备数x多设备并行效率。当下,业界对于训练数据规模和参数的双重追求下,唯有加速提升计算效率,才能缩短训练耗时,而单设备计算速率的更新有其周期和限制,因此如何利用网络尽可能的扩大“设备数”和“并行效率”直接决定了算力。 多卡同步的复杂沟通:在大模型训练过程中,将模型切分至单卡后,每经过一次计算,单卡之间都需要进行对齐(Reduce、Gather等),同时,在英伟达的通信原语体系NCCL中,All-to-All(即所有节点都可以互相获取值并对齐)的操作较为常见,因此对网络之间的传输和交换提出了更高的要求。 愈发昂贵的故障成本:大模型的训练往往持续数月以上,而中间一旦发生中断,需要回到几小时或者几天前的断点进行重新训练。而整个网络中某一个软硬件环节的故障,或者过高的延迟,都有可能导致中断。更多的中断,代表着落后的进度和愈发高昂的成本。现代的AI网络,已经渐渐发展成堪比飞机、航母等的人类系统工程能力的结晶。 网络创新将走向何方?硬件随需求而动,经过两年,全球算力投资规模已经膨胀到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。 通信介质的更迭:光、铜与硅是人类传输的三大介质,在AI时代,光模块追求更高速率的同时,也迈出了LPO、LRO、硅光等降本之路。在当前时间点,铜缆凭借性价比,故障率等因素占领了机柜内连接。而Chiplet,Wafer-scaling等新半导体技术,则正在加速探索硅基互联的上限。 网络协议的竞争:片间通信协议与显卡强绑定,如英伟达的NV-LINK,AMD的InfinityFabric等等,其决定了单台服务器或者单个算力节点的能力上限,是非常残酷的巨头战场。而IB与以太网的斗争则是节点间通信的主旋律。 网络架构的变化:当下节点间网络架构普遍采用叶脊架构,叶脊具有便捷、简单、稳定等特点。但随着单个集群节点数增多,叶脊稍显冗余的架构会给超大集群带来较大的网络成本。当下,如Dragonfly架构,rail-only架构等新架构有望成为面向下一代超大集群的演进方向。 投资建议:通信系统核心环节:中际旭创、新易盛、天孚通信、工业富联、 英维克、沪电股份。通信系统创新环节:长飞光纤、太辰光、源杰科技、盛科通信-U、寒武纪、德科立。 风险提示:AI需求不及预期,Scalinglaw失效,行业竞争加剧。 重点标的 股票代码 1.投资要件 市场对于通信网络在AI训练中的重要程度认识不足。AI行情以来,市场更加从产业链逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量,并以此为基础进行产业链各个环节的产量与业绩测算,但市场对于AI与通信的底层关系的研究较少。本文从模型,多卡同步,训练性价比等三大方面,对AI时代通信网络的核心地位进行更深入的讨论。 概括来看,通信在AI时代站上C位主要有三大原因。第一,日益庞大的模型体积下,显卡的数量和连接后的运算效率直接决定了训练所需的时间,而时间,恰恰是日益激烈的巨头AI竞赛中最为宝贵的资源。第二,从训练的原理出发,在主流的并行模式由模型并行转向数据并行后,每一层运算后,都需要集群内的不同NPU之间对齐已有参数,数以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。第三,网络故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档至几小时前的存档点,对于整体训练效率和成本也会产生极大的损耗,对于分秒必争的巨头AI产品迭代来说,更为致命。同时,当下集群规模已然行至万卡,而其中的连接部件可能数以十万计,如何保证这些部件的整体稳定和良品率,已经变成了一项极其深奥的系统工程。 市场对通信网络未来迭代方向认识不足。市场对于通信网络的迭代更多的认识停留在跟随显卡换代的研究层面。我们认为,硬件迭代带来的更新的周期和方向相对固定,而其余方向的迭代和产业链创新程度与日俱增。同时,当前海外巨头的AI资本投入战争已经达到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。 总体来看,产业链对于前沿的探索主要集中于三个方向。第一,通信介质迭代,这里面既包括光、铜、硅三种基材的共同进步,也包括各种介质内的技术创新,如LPO、LRO、硅光、chiplet、Wafer-scaling等。第二,通信协议的创新,这同样包含两个方面,第一,节点内部通信,如NVLINK和InfinityFabric,该领域壁垒和创新难度极高,属于巨头战场,第二,节点间通信,产业界则主要聚焦于IB与以太网两大协议的竞争。第三,网络架构的更新,叶脊架构是否能够适应超多节点数量,OCS助力下,Drangonfly能否成为下一代网络架构主流,同时Rail-only+软件优化能够成熟,都是产业的新看点。 行业催化: 1.ScalingLaw持续有效,集群规模经一部扩大,通信网络需求持续上升。 2.海外AI正循环加速,互联网巨头加速资本开支竞赛。 投资建议:通信系统核心环节:中际旭创、新易盛、天孚通信、沪电股份。 通信系统创新环节:长飞光纤、中天科技、亨通光电、盛科通信。 2.从云计算时代迈向AI时代,为什么通信愈发重要 上一轮通信的辉煌,可以追溯到互联网时代,爆发式的网络流量传输需求,让人类第一次搭建起了以海量服务器,存储和交换机共同构成的交换体系。在这一轮建设中,思科一枝独秀,成为了人类科技进步的领头羊。但随着互联网浪潮趋于平和,光模块与交换机更多的随着宏观经济,云开支,和产品更新而波动,更加偏向于宏观经济品种,而速率,技术的更迭也较为按部就班,进入了周期波动向上稳态发展期。 小模型时代,业界更加专注于算法创新,往往整个模型体积可以由单卡、单台服务器或者较为简单的小集群来承担,因此来自AI侧的网络连接需求并不突出。但大模型的出现改变了一切,OpenAI证明了在当下,用较为简单的Transformer算法,通过堆砌参数的形式,可以较好地提高模型性能,因此,整个产业界进入了模型体积加速膨胀的快速发展期。 我们先来看两个决定模型计算速度的基本公式,从而可以更好的理解为什么大模型时代,算力规模或者说算力硬件产业链会率先受益。 (1)训练耗时=训练数据规模x模型参数量/计算速率 (2)计算速率=单设备计算速率x设备数x多设备并行效率 在当下的大模型时代,我们可以看到,在训练耗时的分子端的两项因子,正在同时扩大,在算力恒定的情况下,训练耗时将会被指数级延长,而在愈发激烈的巨头模型战场,时间是最宝贵的资源。因此,竞争之路非常明确,唯有加速堆叠算力。 在第二个公式中我们可以看到,在算力日益膨胀的今天,单卡算力由于模型体积,芯片更新的上限,在算力构成的占比中已经从全部退化成了其中一环,显卡数量,以及多设备并行效率也成为两个同样重要的一环,这也是英伟达前瞻性收购Mellanox的原因,是希望在计算速率的每一个决定因子中,都能取得领先。 我们在前期报告《AI算力的ASIC之路-从以太坊矿机说起》中详细阐述了单卡算力的多种路线,本文中不在赘述,而我们看到的后两项,设备数与多设备并行效率,并不是简单的通过堆叠显卡数量就可以简单实现。越多的设备数,对于网络结构的可靠程度,并行计算的优化程度要求呈现指数级增加,这也是为何网络成为AI重要瓶颈之一的终极原因。我们在本节中会从训练原理出发,阐述为何设备的堆叠和并行销量的提升,是人类历史上最复杂的系统工程。 2.1大模型时代的多卡合作原理,模型并行与数据并行 在模型训练中,将模型拆分至多卡的过程并非传统流水线或简单分割那样简单,而是采用更为复杂的方式来分配显卡之间的任务。总体来看,任务分配方式大体可以分为两种,模型并行与数据并行。 最早在模型体积较小但数据量上升时,业界普遍采用数据并行的方式。在数据并行式的运算中,每张GPU上都保留有完整的模型副本,而训练用的数据被分割后进入不同显卡并进行训练,在反向传播后,每张卡上的模型副本梯度将被同步减少。但随着模型参数膨胀下,单块显卡愈发难以容纳完整模型,因此,在头部大模型训练中,数据并行作为单一并行的分配方式正在逐渐减少。 图表1:数据并行演示图 模型并行则是当下在大模型时代逐渐兴起的一种分配方式。由于模型体积过于庞大,因此将模型的不同部分装载进入显卡内,并给显卡灌入相同的数据流,对每一部分的参数进行训练。 模型并行有两种主流模式,分别为张量并行与流水线并行。在一个模型训练运算的底层运算矩阵乘法中(C=AxB),张量并行指的先将B矩阵拆分成多个向量,每个设备持有一个向量,然后将A矩阵分别与每一个向量相乘,然后将得出进行汇总,即可总结出C举证。 而流水线并行则是将模型按层进行分割,将模型按层分割成若干块,每一块都交给一个设备进行,同时在前向传播过程中,每个设备将中间的激活传递给下一个阶段,在随后的向后传播过程中,每个设备将输入张量的梯度回传给前一个流水线阶段。 图表2:模型并行 在当下的大模型训练中,没有任何一种数据并行能够单独存在,在头部大模型训练中,往往需要将上述的多种技术混合,实现多维混合并行。在实际连接时,会将这个AI集群划分为若干Stage,每个Stage对应一个逻辑上的Batch,每个Stage由若干台GPU节点组成。这样在架构上满足多维混合并行的需求。 图表3:多维混合并行下的AI集群构建 无论是何种并行方式,都需要在每一轮计算后,都需要通过反向广播的形式来同步每一张GPU内的参数,不同的并行的方式,对应不同的广播延迟,也需要依靠不同的网络协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在逐步从“传输”进化成一个真正意义上的“系统工程”。 2.2大模型时代的多卡互联核心:同步的准确率 AI网络集群承担的一项重要功能,便是将不同显卡分工训练完成的结果,在计算单元之间进行对齐,从而使得显卡能够进行下一步的工作,这项工作也被称为反向广播,由于广播过程中往往对结果采用Reduce,Gather等算法进行处理,那么全局的广播则被称为AlltoAll,我们在AI集群性能指标中常见的All-to-All延迟,指的就是做一次全局反向广播需要的时间。 从原理上来看,做一次反向广播同步数据似乎较为容易,只需要每张显卡互发数据即可,但在真正的网络集群构建中,却会遇到许多问题,这也让缩短这一时延,成为了各种网络方案追求的一个重点方向。 第一个问题在于,每一张显卡完成当前计算所需要的时间长短是不一致的,如果统一等待同一组内的最后一个显卡完成任务后再进行反向广播,那会导致先一步完成任务的显卡有大量的时间处于空置状态,从而降低整个计算集群的性能。而同样,如果采用过于激进的同步方法,则有可能导致同步期间出现错误,从而导致训练中断。因此,稳定高效的同步方法,一直是业界追寻的方向。 从当下来看,主要的同步方法可以分为同步并行,异步并行,All-Reduce等等。 我们先来看同步并行,同步并行的思路我们在前文中已有提及,即在当前单元内,所有计算单元完成计算后,统一进行一次通讯,其优点是稳定与简单,但是会造成大量的计算单元空置。以下图