对等关税新质生产力低空经济 DeepSeek AIGC 人形机器人智能驾驶大模型固态电池半导体银发经济

电子行业AI系列专题报告(一)：AI算力参数爆发，兼论国产算力比较

电子设备2024-01-18德邦证券黄***

AI智能总结

AI算力与互联参数分析

算力参数概览

矩阵计算核心：AI算力参数围绕精度与运算效率的权衡展开，FP32 Tensor Core、BF16等新兴数据类型应运而生，以适应AI大模型的训练与推理需求。
FP32 Tensor Core：作为英伟达张量计算的数据格式，FP32 Tensor Core大幅提升了模型训练性能，如英伟达H200的FP32算力为67TFlops，对应FP32 Tensor Core算力高达989TFlops。
国产替代：国内算力厂商如华为海思、寒武纪、龙芯中科等，其产品性能迭代顺利，逼近国际领先水平。例如，昇腾910在FP16算力性能上接近A100，寒武纪思元590性能有望显著提升。

互联参数挑战

多卡互联重要性：大模型训练对模型并行的需求显著提升了多卡互联参数的重要性，英伟达NVLink等技术成为关键。
性能差异：相比PCIe方案，NVLink能够提供高达900 GB/s的带宽，显著提升通信效率。例如，在大规模高精度计算任务中，H100+NVLink组合的提升尤为明显。
国内外差距：寒武纪的MLU-Link桥接卡在互联性能上虽优于PCIe 4.0，但与英伟达NVLink相比仍存在一定差距。

风险提示

市场风险：下游需求复苏可能低于预期，影响算力市场的整体增长。
技术风险：研发新技术、优化现有技术过程中可能存在技术难题。
政策风险：国际政策和技术摩擦可能导致供应链中断，影响算力设备的采购与部署。

行业建议与关注点

算力芯片：推荐关注寒武纪（思元590性能提升）、海光信息（深算三号研发进展）、龙芯中科（GPGPU芯片研发）。
AI应用：关注海康威视、大华股份、乐鑫科技、晶晨股份、恒玄科技、中科蓝讯等企业。
服务器：考虑工业富联、沪电股份等公司的服务器业务。
服务器存储：看好澜起科技、聚辰股份的存储解决方案。
先进封装：聚焦通富微电、长电科技、甬矽电子、华天科技等公司在封装技术上的创新。

此分析旨在提供对AI算力与互联参数的全面理解，以及针对当前市场环境的策略指导。

算力参数：多厂商逐鹿AI，矩阵计算为核心算力参数。AI算力参数种类繁多，其本质是精度与运算效率的取舍。为更好适应AI大模型的训练与推理，FP32Tensor Core，BF16等新兴数据类型应运而生。以FP32 Tensor Core为例，其为英伟达张量计算的数据格式，使得模型训练性能大幅提升。英伟达H200的FP32算力为67TFlops，对应FP32 Tensor Core算力为989TFlops，性能大幅提升。而国内各算力厂商产品性能迭代顺利，华为海思此前发布的昇腾910在FP16算力性能上接近A100，下一代910B性能有望显著提升。寒武纪370对标英伟达L2芯片。海光信息深算三号研发进展顺利；龙芯中科第二代图形处理器LG200单节点性能达256GFlops-1TFlops，将基于2K3000的GPGPU技术及3C6000的龙链技术，研制专用GPGPU芯片。互联参数：多卡互联为大模型桎梏，国内外差距巨大。相比小模型，大模型要求在模型切分后进行模型并行。模型并行使得多个GPU能同时运行模型的一部分，并在共享结果后进入到下一层。大模型的发展使得类似英伟达NVLink、NVSwitch等互联技术的重要性快速提升，同时互联性能参数也成为各大模型实际效果好坏的重要凭依。大多数厂商利用PCIe进行互联，而英伟达的NVLink能够实现GPU间的直接互联，从而大幅提升通信效率，其NVLink带宽可达到900 GB/s。在大规模高精度的3D FFT、3950亿参数的大模型训练上，H100+NVLink组合的提升显著。我们认为随着大模型的复杂化，NVLink等多卡互联技术将愈加重要。在多卡互联上，国内外厂商亦有所差距。以寒武纪MLU370-X8为例，寒武纪为多卡系统专门设计了MLU-Link桥接卡，其可实现4张加速卡为一组的8颗思元370芯片全互联，每张加速卡可获得200GB/s的通讯吞吐性能，带宽为PCIe 4.0的3.1倍。但相比英伟达NVLink 4.0的900GB/s，该互联性能仅为英伟达的22%，仍有较大提升空间。建议关注：算力芯片：寒武纪（思元590性能有望显著提升）、海光信息（深算三号研发进展顺利）、龙芯中科（将基于2K3000的GPGPU技术及3C6000的龙链技术研制专用GPGPU芯片） AI应用：海康威视、大华股份、乐鑫科技、晶晨股份、恒玄科技、中科蓝讯服务器：工业富联、沪电股份服务器存储：澜起科技、聚辰股份先进封装：通富微电、长电科技、甬矽电子、华天科技风险提示：下游需求复苏不及预期，技术研发风险，国内外政策和技术摩擦不确定性的风险。 1.算力参数：多厂商逐鹿AI，矩阵计算为核心算力参数 AI算力参数种类繁多，其本质是精度与运算效率的取舍。在神经网络与深度学习中，使用更高精度的数据格式能够获得更稳定、更理想的训练结果。但同时，高精度计算的运算速度更慢，所需的硬件要求更高。因此，各厂商在数据类型上的选择，本质是对精度与运算效率的取舍。谷歌和英伟达两家公司都开发了硬件和框架来支持较低精度的操作。例如，TF32格式是英伟达从A100开始提出的数据格式，其精度比FP32精度低，但比FP16精度高，主要用于深度学习的训练阶段。理论上其比FP32+FP16混合精度效果更优。而谷歌的DeepMind部门创建的16位BrainFloat（BF16）精度，亦在一定程度上平衡了计算精度和计算效率，因此在模型训练和推理中被广泛使用。我们认为，较低精度背后的基本思想是，神经网络并不总是需要使用64位浮点的所有范围才能有较好表现。图1：深度学习常见数据类型为更好适应AI大模型的训练与推理，FP32Tensor Core，BF16等新兴参数数据类型应运而生。以FP32TensorCore为例，其为英伟达张量计算的数据格式，能使模型训练性能大幅提升。英伟达V100的FP32算力为15TFlops，且不支持FP32TensorCore算力。而迭代至H200，其FP32算力为67TFlops，对应FP32TensorCore算力为989TFlops。相比同颗芯片的非矩阵计算，矩阵计算的算力性能均大幅提升。从硬件上看，Tensor Core是一种新型处理核心，它执行专门的矩阵数学运算，适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法，其中两个4*4 FP16矩阵相乘，然后将结果添加到4*4 FP16或FP32矩阵中，最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度运算，因为输入矩阵的精度为半精度，但乘积可以达到完全精度。图2：深度学习混合精度计算具体到硬件架构，可以看到在H100GPU中，负责运算FP32 Tensor Core的Tensor CORE占据着主要的芯片面积。一块英伟达H100芯片中包含144个SM（类似CPU的内核），每个SM中又有四个象限，各象限中有16个INT32单元（提供混合精度的INT32、INT8和INT4处理功能）；32个FP32单元；16个FP64单元；和一个Tensor Core单元。图3：H100内部芯片架构当衡量算力芯片的AI训练能力时，矩阵FP32（如英伟达的FP32 Tensor Core）、矩阵FP16（如英伟达的FP16TensorCore）为重要参考。受益AI大模型的发展，英伟达算力芯片由此前的V100迅速迭代至H200，其算力性能大幅提升。同时AMD亦紧随其后，先后发布MI250、MI300系列芯片。各算力芯片厂商在实现更好的软硬件耦合的同时，把握AI算力芯片的硬件壁垒。各类芯片的AI训练性能均离不开矩阵FP32（如英伟达的FP32 Tensor Core）、矩阵FP16（如英伟达的FP16 Tensor Core）等算力。而对比国内外厂商芯片，国内玩家单卡性能大多处于接近A100水平。图4：国内外各厂商算力芯片参数对比寒武纪370对标英伟达L2芯片，590性能有望显著提升。目前寒武纪的主力产品为MLU370系列，其中包含三款卡，分别是MLU370-S4、MLU370-X4、MLU370-X8。全高全长的MLU370-X8其FP16、FP32算力分别为96、24TFlops，算力基本对标英伟达的L2芯片。其性能逐步向A100芯片靠近，但仍有一定差距。同时，根据寒武纪官方公众号，目前在研全新一代云端智能训练芯片思元590，采用MLUarch05全新架构，实测训练性能较在售产品有了显著提升，它提供了更大的内存容量和更高的内存带宽，其PCIE接口也较上代实现了升级，有望接力290成为业务增长点。图5：寒武纪MLU370产品矩阵而华为海思此前发布的昇腾910在FP16算力性能上接近A100，下一代910B性能有望显著提升。昇腾910首次亮相是在2018年的华为全联接大会上，其半精度（FP16）算力达到256 TFlops，整数精度（INT8）算力达到512 Tera-OPS，在FP16上，其性能接近A100芯片。未来，910B有望在910产品的基础上，对算力、互联技术等维度进行持续升级。图6：华为AI解决方案目前，国内各算力厂商产品性能迭代顺利，国产算力芯片龙头厂商持续推陈出新。海光信息深算三号研发进展顺利；寒武纪思元590性能有望显著提升；龙芯中科第二代图形处理器LG200单节点性能达256GFlops-1TFlops，将基于2K3000的GPGPU技术及3C6000的龙链技术，研制专用GPGPU芯片。国产算力芯片百花齐放，国产算力产业链有望迎来放量“奇点”。同时，国外算力芯片管制的加码使得英伟达算力芯片的“性能天花板”越降越低，随着国产厂商的产品迭代，两者的性能差距将越来越小，国产算力芯片厂商将有望承接广阔的国内算力芯片需求。 2.互联参数：多卡互联为大模型桎梏，国内外差距巨大相比小模型，大模型要求在模型切分后进行模型并行，因此多卡互联参数为芯片实际应用的重要指标。类似ResNet-50的小模型，其可在单个GPU下完成训练。而类似ChatGPT等NLP模型，由于涉及数万亿参数，因此训练与推理无法借助单芯片完成，需要对模型进行模型并行。通过模型并行，使得多个GPU能同时运行模型的一部分，并在共享结果后进入到下一层。在此期间，多个GPU间便需要高速的通信互联。大模型的发展使得类似英伟达NVLink、NVSwitch等互联技术的重要性快速提升，同时互联性能参数也成为各AI芯片实际效果好坏的重要凭依。大多数厂商利用PCIe进行互联，而英伟达的NVLink能够实现GPU间的直接互联，从而大幅提升通信效率。2014年，NVLink 1.0发布，并应用在P100芯片上。而在H100上，NVLink已迭代至4.0，HGX H100系统通过NVLink将8个GPU进行多卡互联，每个H100 GPU连接4个NVLink交换芯片，使得GPU之间的NVLink带宽达到900 GB/s。相比之下，PCIe则是将GPU数据先传输至CPU后，再传输到其余GPU。因此，PCIe方案需要占用利用CPU资源，其传输数据也远低于NVLink传输速度（PCIe5.0的传输速度为128GB/s）。图7：NVLink硬件结构图8：PCIe硬件结构使用NVLink能够使得英伟达H100在HPC、AI训练的运算效率大幅提升。（1）对比运算效率，除个别应用外（如HPC中的基因相关应用），H100+NVLink组合的运行效率均显著高于H100方案，且在大规模高精度的3D FFT、3950亿参数的大模型训练上，H100+NVLink组合的提升愈加显著。（2）此前在美国芯片管制的影响下，英伟达发布H800芯片。除算力降低外，其互联速率也从H100的900GB/s降至400GB/s，以此削弱芯片的AI性能。此举侧面印证了互联速度的重要性。我们认为随着大模型的复杂化，NVLink等多卡互联技术将愈加重要，亦是国内厂商后续需重点发力的核心技术。图9：英伟达A100、H100、H100+NVLink运算效率对比在多卡互联上，国内外厂商亦有所差距。以寒武纪MLU370-X8为例，寒武纪为多卡系统专门设计了MLU-Link桥接卡，其可实现4张加速卡为一组的8颗思元370芯片全互联，每张加速卡可获得200GB/s的通讯吞吐性能，带宽为PCIe 4.0的3.1倍，但相比英伟达NVLink 4.0的900GB/s，MLU-Link的互联性能仅为英伟达的22%。图10：MLU370-X8硬件结构及MLU-Link多芯互联技术 3.风险提示下游需求复苏不及预期，技术研发风险，国内外政策和技术摩擦不确定性的风险。

点击免费查看完整报告

你可能感兴趣

电子行业AI系列专题报告(一)：AI算力参数爆发，兼论国产算力比较

AI算力与互联参数分析

算力参数概览

互联参数挑战

风险提示

行业建议与关注点

你可能感兴趣

电子AI+系列专题报告（六）：DeepSeek重塑开源大模型生态，AI应用爆发持续推升算力需求

算力知识普惠系列一：AI芯片的基础关键参数

电子AI+系列专题报告（一）：AI大语言模型的原理、演进及算力测算

通信设备行业国产算力系列(一)：重铸算力基座，奔赴AI时代

国君电子|国内AI开支步入爆发期,国产算力迎发展机遇