行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

算力知识普惠系列一：AI芯片的基础关键参数

信息技术2024-08-06缪欣君天风证券E***

AI智能总结

根据提供的研报内容，本文主要围绕AI芯片的基础关键参数、算力与AI算力的分类、AI芯片的硬件重点性能指标、GPU与ASIC架构特点、Nvidia AI芯片的技术演进、TPU架构基础与布局、风险提示以及股票投资评级等内容进行了详细的总结。

算力与AI算力

算力：衡量计算机处理信息能力的重要指标，包括基础算力、智能算力（AI算力）和超算算力。AI算力专注于AI应用，提供算法模型训练与推理服务，常见单位为TOPS和TFLOPS，由GPU、ASIC、FPGA、NPU等芯片提供支持。

AI芯片架构与参数

GPU与ASIC：AI芯片通常采用GPU和ASIC架构。GPU因其在运算和并行任务处理上的优势成为AI计算的关键组件。GPU的核心包括CudaCore、Tensor Core等，其中Tensor Core专注于深度学习领域的矩阵运算加速。

NVDIA H200 Tensor Core GPU

性能指标：NVIDIA H200 Tensor Core GPU在AI吞吐量方面较Pascal架构提高了12倍，拥有强大的计算能力、显存和低功耗特性。

TPU架构基础与性能对比

TPU设计：TPU（张量处理单元）是Google为加速深度神经网络运算能力而开发的ASIC芯片，拥有矩阵乘法单元、DDR3 DRAM/Weight FIFO、统一缓存区等功能，专为机器学习任务设计。
性能优势：TPU在神经网络上的性能最大可达CPU的71倍，与GPU相比，其脉动阵列架构更适用于深度学习任务的并行计算。

风险提示

AI算力景气度下降：AI应用的突破速度可能影响算力支出的增长。
AI芯片竞争加剧：市场竞争可能加剧，技术发展不确定性增加。
技术发展风险：AI芯片技术快速迭代，可能导致产品过时。

股票投资评级

评级体系：提供了基于股票相对收益的评级体系，包括买入、增持、持有、卖出以及与大盘比较的评级。

综上所述，本文深入探讨了AI芯片的关键参数、架构特点、性能指标、以及市场风险，为投资者提供了全面的分析框架，同时也强调了技术创新与市场竞争的动态性。

行业报告：行业专题研究证券研究报告 2024年08月07日计算机算力知识普惠系列一：AI芯片的基础关键参数分析师缪欣君SAC执业证书编号：S1110517080003 作者：联系人刘鉴请务必阅读正文之后的信息披露和免责申明行业评级：强于大市（维持评级）上次评级：强于大市请务必阅读正文之后的信息披露和免责申明 2 摘要算力是衡量计算机处理信息能力的重要指标，其中AI算力专注于AI应用，常见单位为TOPS和TFLOPS，通过GPU、ASIC、 FPGA等专用芯片提供算法模型训练和推理。算力精度作为衡量算力水平的一种方式，其中FP16、FP32应用于模型训练，FP16、INT8应用于模型推理。 AI芯片通常采用GPU和ASIC架构。GPU因其在运算和并行任务处理上的优势成为AI计算中的关键组件，它的算力和显存、带宽决定了GPU的运算能力。GPU的核心可分为CudaCore、TensorCore等；TensorCore是增强AI计算的核心，相较于并行计算表现卓越的CudaCore，它更专注于深度学习领域，通过优化矩阵运算来加速AI深度学习的训练和推理任务，其中NvidiaVoltaTensorCore架构较Pascal架构（CudaCore的AI吞吐量增加了12倍。此外，TPU作为ASIC的一种专为机器学习设计的AI芯片，相比于CPU、GPU，其在机器学习任务中的高能效脱颖而出，其中TPUv1在神经网络性能上最大可达同时期CPU的71倍、GPU的27倍。建议关注： 1）四小龙：寒武纪、海光信息、神州数码、中科曙光 2）华为：软通动力、烽火通信、广电运通、拓维信息风险提示：AI算力景气度下降的风险、AI芯片竞争加剧的风险、技术发展风险 1 算力基础请务必阅读正文之后的信息披露和免责申明3 资料来源：英伟达官网，天风证券研究所 4 1、AI计算的生命周期 AI计算是一种计算机器学习算法的数学密集型流程，通过加速系统和软件，从大量数据集中提取新的见解并在此过程中学习新能力。AI计算的三个主要过程包括：1）提取转换加载数据（ETL）：数据科学家需要整理和准备数据集。2）选择或设计AI模型：数据科学家选择或设计最适合其应用的AI模型，一些公司会从一开始就设计并训练自己的模型，另一些公司可能采用预训练模型并根据需求进行自定义。3）AI推理：企业通过模型对数据进行筛选，AI在此过程中提供可行的洞察与见解。图：AI计算的生命周期资料来源：中国科学院半导体研究所公众号、《2023年智能算力发展白皮书》、珠海组工公众号等，天风证券研究所 5 1、算力及AI算力主要芯片的分类算力通常是指计算机处理信息的能力，特别是在进行数学运算、数据处理和执行程序时的速度和效率。根据使用设备和提供算力强度的不同，算力可分为：基础算力、智能算力、超算算力。智能算力即AI算力，是面向AI应用，提供AI算法模型训练与模型运行服务的计算机系统能力，其算力芯片通常包括GPU、ASIC、FPGA、NPU等各类专用芯片。 1基础算力：由基于CPU芯片的服务器所提供的算力，主要用于基础通用计算，如移动计算和物联网等。日常提到的云计算、边缘计算等均属于基础算力。 2智能算力：基于GPU（图像处理器）、FPGA（现场可编程逻辑门阵列）、ASIC（专用集成电路）等AI芯片的加速计算平台提供的算力，主要用于AI的训练和推理计算，比如语音、图像和视频的处理。 3超算算力：由超级计算机等高性能计算集群所提供的算力，主要用于尖端科学领域的计算，比如行星模拟、药物分子设计、基因分析等。图：算力的主要分类图：AI算力芯片的主要分类 1、算力的常见单位在计算机领域，常用算力的衡量指标包括FLOPS每秒浮点运算次数）、OPS（每秒运算次数）。FLOPS特别适用于评估超级计算机、高性能计算服务器和GPU等设备的计算性能。在计算性能的度量中，常见单位包括KiloMegaGigaTeraPetaExa，算力通常以PetaFlOPS（每秒千万亿次浮点运算）单位来衡量。 AI算力常见单位分为TOPS和TFLOPS。推理算力，即通常用设备处理实时任务的能力，通常以TOPS（每秒万亿次操作）为单位来衡量。而训练算力，即设备的学习能力和数据处理能力，常用TFLOPS（每秒万亿次浮点操作）来衡量。TFLOPS数值越高，反映了模型在训练时的效率越高。图：算力的通常计量单位资料来源：联想智库公众号、石河子市政府服务和大数据局公众号，天风证券研究所6 资料来源：网络安全和信息化公众号、九维数智公众号，天风证券研究所 7 1、不同场景对应算力精度表示不同算力精度作为可以衡量算力水平的一种方式，可分为浮点计算和整型计算。其中浮点计算可细分为半精度（2Bytes，FP16）、单精度（4Bytes，FP32）和双精度（8Bytes，FP64）浮点计算，加上整型精度（1Byte，INT8）。不同场景对应算力精度表示不同。FP64主要用于对精度要求很高的科学计算，如制造产品设计、机械模拟和Ansys应用中的流体动力学， AI训练场景下支持FP32和FP16，模型推理阶段支持FP16和INT8。表：常见浮点整型规格及定义图：不同精度可执行任务对比资料来源：九维数智公众号、汽车之心公众号，天风证券研究所 8 1、稀疏算力和稠密算力稀疏算力和稠密算力用于描述计算资源的利用程度。在实际场景中，稀疏算力和稠密算力存在互补关系与转换关系。稠密算力：指的是在计算过程中，数据点之间的管理都较高，需要处理大量连续的数据。通常用于需要密集型计算的任务，如图像处理、视频编码、大规模数值模拟等稀疏算力：指在计算过程中，数据点之间的关联度较低，数据分布稀疏。这种算力常用于处理稀疏矩阵或者稀疏数据集，如社交网络分析、推荐系统、基因序列分析等。表：稠密算力与稀疏算力特性对比图：稠密算力与稀疏算力结构对比 2 AI芯片架构与参数请务必阅读正文之后的信息披露和免责申明9 2、AI芯片通常采用GPU与ASIC架构目前通用的CPU、GPU、FPGA等都能执行AI算法，只是执行效率差异较大。但狭义上讲一般将AI芯片定义为“专门针对AI算法做了特殊加速设计的芯片”。AI芯片可以分为GPU、FPGA和ASIC架构，根据场景可以分为云端和端侧。和其他芯片相比，AI芯片重点增强了运行AI算法的能力。目前主流AI芯片为GPU和ASIC。国际上，Nvidia的H200TensorCoreGPU以其卓越的计算性能和能效比领先市场，而Google的第六代TPUTrilliumASIC芯片则以其专为机器学习优化的设计提供高速数据处理。在国内，寒武纪的思元370芯片ASIC凭借其先进的计算处理能力在智能计算领域占据重要地位，已与主流互联网厂商开展深入适配海光信息的DCU系列基于GPGPU架构，以其类“CUDA”通用并行计算架构较好地适配、适应国际主流商业计算软件和AI软件。图：AI芯片的分类图：AI芯片在模拟场景和模型运行中具有显著的计算优势对比英伟达GPU和AMDx86CPU）资料来源：迪普微科技公众号，TheNextPlatform官网，天风证券研究所10 2、TensorCore是增强AI计算的核心，能更好的处理矩阵乘运算图：Nvidia初代TensorCore的VoltaGV100SM架构 TensorCore是用于加速深度学习计算的关键技术，其主要功能是执行深度神经网络中的矩阵乘法和卷积计算。与传统CUDACore相比，TensorCore在每个时钟周期能执行多达4x4x4的GEMM运算，相当于同时进行64个浮点乘法累加（FMA）运算。其计算原理是采用半精度（FP16）作为输入和输出（矩阵Ax矩阵B），并利用全精度（矩阵C）进行存储中间结果计算，以确保计算精度的同时最大限度地提高计算效率。图：TensorCore计算原理图：VoltaTensorCore较Pascal架构的AI吞吐量增加了12倍资料来源：《NvidiaTeslaV100GPUArchitecture》白皮书、摩崖芯公众号，天风证券研究所11 资料来源：英伟达官网、GPU算力公众号等，天风证券研究所 12 2、AI芯片的硬件重点性能指标 AI芯片指标定义计算能力 GPU执行浮点运算的能力，通常以TFLOPs每秒浮点操作次数为单位衡量。高计算能力对科学计算、模拟和深度学习等计算密集型任务至关重要。它能加速模型训练、数据分析以及复杂模拟的处理速度。显存是GPU用于存储数据和纹理的专用内存，与系统内存RAM不同，显存具有更高的带宽和更快的访问速度。显存的大小和性能直接影响GPU处理大规模数据的能力。功耗即功率损耗，指单位时间内的能量消耗，反应消耗能量的速率，单位是瓦特W。卡间互联 NVIDIANVLink是世界首项高速GPU互连技术，与传统的PCIe系统解决方案相比，能为多GPU系统提供更快速的替代方案。NVLink技术通过连接两块NVIDIA显卡能够实现显存和性能扩展，从而满足最大视觉计算工作负载的需求。显存带宽作为GPU与显存之间数据传输的桥梁；显存带宽显存位宽x显存频率图：NvidiaH200TensorCoreGPU规格 2、GPU在运算及并行任务处理能力上具有显著优势图片处理器GPU又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像运算工作的微处理器，是显卡或GPU卡的“心脏”。 CPU和GPU在架构组成上都包括3个部分：运算单元（ALU）、控制单元（Control）、缓存单元（Cache）。从结构上看，在CPU中，缓存单元占50，控制单元占25，运算单元占25；然而在GPU中，运算单元占90比重，缓存、控制各占5；由此可见，CPU运算能力更加均衡，GPU更适合做大量运算。 GPU通过将复杂的数学任务拆解成简单的小任务，并利用其多流处理器来并行处理，从而高效地执行图形渲染、数值分析和AI推理。图：CPU与GPU基本组成单元对比图：GPU将极为复杂的任务进行拆解并行处理资料来源：书圈公众号，天风证券研究所 13 2、GPU核心分类及CUDACore结构特点表：通用GPU核心类型通常GPU核心可分为三种：CUDACore、TensorCore、RT Core。每个CUDA核心含有一个ALU整数单元和一个浮点单元，并且提供了对于单精度和双精度浮点数的FMA指令。图：Cuda核心结构如果将GPU处理器比作玩具工厂，CUDA核心就是其中的流水线。流水线越多，生产的玩具就越多，虽然“玩具工厂”的性能可能会越好，但也受限于每个流水线的生产效率、生产设备的架构、生产存储资源能力等。反应在GPU上，还需考虑显卡架构、时钟速度、内存带宽、内存速度、VRAM等因素。图：CUDA的核心数量并不能直接反映不同代GPU性能的好坏资料来源：贵安数字产业研究院公众号，天风证券研究所 14 2、GPU的架构及流式多处理器的结构组成以NvidiaVolta架构的GV100为例，其主要组成部分可分为： 1）6个GPC（图像处理集群）：每个包含7个纹理处理集群（TPCs），每个TPC包括两个SM，共14个SM；2）84个VoltaSM（流式多处理器，见右图）：每个包含8个TensorCore、64个FP32核心、64个INT32核心、32个FP64核心、4个纹理单元；3）8个512位内存控制器（总共 4096位）。图：GPU架构组成（以NvidiaGPU架构VoltaGV100为参考）图：GPU的流式多处理器结构资料来源：英伟达《NVIDATESLAV100GPUARCHITECTURE》白皮书，天风证券研究所 15 2、NvidiaAI芯片的技术演进 Nvidi

点击免费查看完整报告