您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:电子行业AI系列专题报告(一):AI算力参数爆发,兼论国产算力比较 - 发现报告
当前位置:首页/行业研究/报告详情/

电子行业AI系列专题报告(一):AI算力参数爆发,兼论国产算力比较

电子设备2024-01-19德邦证券黄***
AI智能总结
查看更多
电子行业AI系列专题报告(一):AI算力参数爆发,兼论国产算力比较

算力参数:多厂商逐鹿AI,矩阵计算为核心算力参数。AI算力参数种类繁多,其本质是精度与运算效率的取舍。为更好适应AI大模型的训练与推理,FP32Tensor Core,BF16等新兴数据类型应运而生。以FP32 Tensor Core为例,其为英伟达张量计算的数据格式,使得模型训练性能大幅提升。英伟达H200的FP32算力为67TFlops,对应FP32 Tensor Core算力为989TFlops,性能大幅提升。而国内各算力厂商产品性能迭代顺利 ,华为海思此前发布的昇腾910在FP16算力性能上接近A100,下一代910B性能有望显著提升。寒武纪370对标英伟达L2芯片。海光信息深算三号研发进展顺利;龙芯中科第二代图形处理器LG200单节点性能达256GFlops-1TFlops,将基于2K3000的GPGPU技术及3C6000的龙链技术,研制专用GPGPU芯片。 互联参数:多卡互联为大模型桎梏,国内外差距巨大。相比小模型,大模型要求在模型切分后进行模型并行。模型并行使得多个GPU能同时运行模型的一部分,并在共享结果后进入到下一层。大模型的发展使得类似英伟达NVLink、NVSwitch等互联技术的重要性快速提升,同时互联性能参数也成为各大模型实际效果好坏的重要凭依。大多数厂商利用PCIe进行互联,而英伟达的NVLink能够实现GPU间的直接互联,从而大幅提升通信效率,其NVLink带宽可达到900 GB/s。在大规模高精度的3D FFT、3950亿参数的大模型训练上,H100+NVLink组合的提升显著。我们认为随着大模型的复杂化,NVLink等多卡互联技术将愈加重要。在多卡互联上,国内外厂商亦有所差距。以寒武纪MLU370-X8为例,寒武纪为多卡系统专门设计了MLU-Link桥接卡,其可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0的3.1倍。但相比英伟达NVLink 4.0的900GB/s,该互联性能仅为英伟达的22%,仍有较大提升空间。 建议关注: 算力芯片:寒武纪(思元590性能有望显著提升)、海光信息(深算三号研发进展顺利)、龙芯中科(将基于2K3000的GPGPU技术及3C6000的龙链技术研制专用GPGPU芯片) AI应用:海康威视、大华股份、乐鑫科技、晶晨股份、恒玄科技、中科蓝讯服务器:工业富联、沪电股份 服务器存储:澜起科技、聚辰股份 先进封装:通富微电、长电科技、甬矽电子、华天科技 风险提示:下游需求复苏不及预期,技术研发风险,国内外政策和技术摩擦不确定性的风险。 1.算力参数:多厂商逐鹿AI,矩阵计算为核心算力参数 AI算力参数种类繁多,其本质是精度与运算效率的取舍。在神经网络与深度学习中,使用更高精度的数据格式能够获得更稳定、更理想的训练结果。但同时,高精度计算的运算速度更慢,所需的硬件要求更高。因此,各厂商在数据类型上的选择,本质是对精度与运算效率的取舍。 谷歌和英伟达两家公司都开发了硬件和框架来支持较低精度的操作。例如,TF32格式是英伟达从A100开始提出的数据格式,其精度比FP32精度低,但比FP16精度高,主要用于深度学习的训练阶段。理论上其比FP32+FP16混合精度效果更优。而谷歌的DeepMind部门创建的16位BrainFloat(BF16)精度,亦在一定程度上平衡了计算精度和计算效率,因此在模型训练和推理中被广泛使用。 我们认为,较低精度背后的基本思想是,神经网络并不总是需要使用64位浮点的所有范围才能有较好表现。 图1:深度学习常见数据类型 为更好适应AI大模型的训练与推理,FP32Tensor Core,BF16等新兴参数数据类型应运而生。以FP32TensorCore为例,其为英伟达张量计算的数据格式,能使模型训练性能大幅提升。英伟达V100的FP32算力为15TFlops,且不支持FP32TensorCore算力。而迭代至H200,其FP32算力为67TFlops,对应FP32TensorCore算力为989TFlops。相比同颗芯片的非矩阵计算,矩阵计算的算力性能均大幅提升。 从硬件上看,Tensor Core是一种新型处理核心,它执行专门的矩阵数学运算,适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法,其中两个4*4 FP16矩阵相乘,然后将结果添加到4*4 FP16或FP32矩阵中,最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度运算,因为输入矩阵的精度为半精度,但乘积可以达到完全精度。 图2:深度学习混合精度计算 具体到硬件架构,可以看到在H100GPU中,负责运算FP32 Tensor Core的Tensor CORE占据着主要的芯片面积。一块英伟达H100芯片中包含144个SM(类似CPU的内核),每个SM中又有四个象限,各象限中有16个INT32单元(提供混合精度的INT32、INT8和INT4处理功能);32个FP32单元;16个FP64单元;和一个Tensor Core单元。 图3:H100内部芯片架构 当衡量算力芯片的AI训练能力时,矩阵FP32(如英伟达的FP32 Tensor Core)、矩阵FP16(如英伟达的FP16TensorCore)为重要参考。受益AI大模型的发展,英伟达算力芯片由此前的V100迅速迭代至H200,其算力性能大幅提升。同时AMD亦紧随其后,先后发布MI250、MI300系列芯片。各算力芯片厂商在实现更好的软硬件耦合的同时,把握AI算力芯片的硬件壁垒。各类芯片的AI训练性能均离不开矩阵FP32(如英伟达的FP32 Tensor Core)、矩阵FP16(如英伟达的FP16 Tensor Core)等算力。而对比国内外厂商芯片,国内玩家单卡性能大多处于接近A100水平。 图4:国内外各厂商算力芯片参数对比 寒武纪370对标英伟达L2芯片,590性能有望显著提升。目前寒武纪的主力产品为MLU370系列,其中包含三款卡,分别是MLU370-S4、MLU370-X4、MLU370-X8。全高全长的MLU370-X8其FP16、FP32算力分别为96、24TFlops,算力基本对标英伟达的L2芯片。其性能逐步向A100芯片靠近,但仍有一定差距。 同时,根据寒武纪官方公众号,目前在研全新一代云端智能训练芯片思元590,采用MLUarch05全新架构,实测训练性能较在售产品有了显著提升,它提供了更大的内存容量和更高的内存带宽,其PCIE接口也较上代实现了升级,有望接力290成为业务增长点。 图5:寒武纪MLU370产品矩阵 而华为海思此前发布的昇腾910在FP16算力性能上接近A100,下一代910B性能有望显著提升。昇腾910首次亮相是在2018年的华为全联接大会上,其半精度(FP16)算力达到256 TFlops,整数精度(INT8)算力达到512 Tera-OPS,在FP16上,其性能接近A100芯片。未来,910B有望在910产品的基础上,对算力、互联技术等维度进行持续升级。 图6:华为AI解决方案 目前,国内各算力厂商产品性能迭代顺利,国产算力芯片龙头厂商持续推陈出新。海光信息深算三号研发进展顺利;寒武纪思元590性能有望显著提升;龙芯中科第二代图形处理器LG200单节点性能达256GFlops-1TFlops,将基于2K3000的GPGPU技术及3C6000的龙链技术,研制专用GPGPU芯片。国产算力芯片百花齐放,国产算力产业链有望迎来放量“奇点”。同时,国外算力芯片管制的加码使得英伟达算力芯片的“性能天花板”越降越低,随着国产厂商的产品迭代,两者的性能差距将越来越小,国产算力芯片厂商将有望承接广阔的国内算力芯片需求。 2.互联参数:多卡互联为大模型桎梏,国内外差距巨大 相比小模型,大模型要求在模型切分后进行模型并行,因此多卡互联参数为芯片实际应用的重要指标。类似ResNet-50的小模型,其可在单个GPU下完成训练。而类似ChatGPT等NLP模型,由于涉及数万亿参数,因此训练与推理无法借助单芯片完成,需要对模型进行模型并行。通过模型并行,使得多个GPU能同时运行模型的一部分,并在共享结果后进入到下一层。在此期间,多个GPU间便需要高速的通信互联。大模型的发展使得类似英伟达NVLink、NVSwitch等互联技术的重要性快速提升,同时互联性能参数也成为各AI芯片实际效果好坏的重要凭依。 大多数厂商利用PCIe进行互联,而英伟达的NVLink能够实现GPU间的直接互联,从而大幅提升通信效率。2014年,NVLink 1.0发布,并应用在P100芯片上。而在H100上,NVLink已迭代至4.0,HGX H100系统通过NVLink将8个GPU进行多卡互联,每个H100 GPU连接4个NVLink交换芯片,使得GPU之间的NVLink带宽达到900 GB/s。相比之下,PCIe则是将GPU数据先传输至CPU后,再传输到其余GPU。因此,PCIe方案需要占用利用CPU资源,其传输数据也远低于NVLink传输速度(PCIe5.0的传输速度为128GB/s)。 图7:NVLink硬件结构 图8:PCIe硬件结构 使用NVLink能够使得英伟达H100在HPC、AI训练的运算效率大幅提升。 (1)对比运算效率,除个别应用外(如HPC中的基因相关应用),H100+NVLink组合的运行效率均显著高于H100方案,且在大规模高精度的3D FFT、3950亿参数的大模型训练上,H100+NVLink组合的提升愈加显著。(2)此前在美国芯片管制的影响下,英伟达发布H800芯片。除算力降低外,其互联速率也从H100的900GB/s降至400GB/s,以此削弱芯片的AI性能。此举侧面印证了互联速度的重要性。我们认为随着大模型的复杂化,NVLink等多卡互联技术将愈加重要,亦是国内厂商后续需重点发力的核心技术。 图9:英伟达A100、H100、H100+NVLink运算效率对比 在多卡互联上,国内外厂商亦有所差距。以寒武纪MLU370-X8为例,寒武纪为多卡系统专门设计了MLU-Link桥接卡,其可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0的3.1倍,但相比英伟达NVLink 4.0的900GB/s,MLU-Link的互联性能仅为英伟达的22%。 图10:MLU370-X8硬件结构及MLU-Link多芯互联技术 3.风险提示 下游需求复苏不及预期,技术研发风险,国内外政策和技术摩擦不确定性的风险。