行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

电子行业：“AI革命”算力篇

电子设备2023-04-07国盛证券有***

AI智能总结

GPU作为算力的核心硬件，在全球范围内展现出惊人的增长潜力和市场需求。根据Verified Market Research的数据，2021年全球GPU市场规模为334.7亿美元，预计到2030年将大幅增长至4473.7亿美元，期间复合年增长率(CAGR)高达33.3%。这一增长主要得益于AI和机器学习技术的迅速发展，以及GPU在云计算、独立显卡和数据中心等领域的广泛应用。

然而，全球GPU市场呈现出高度的海外垄断状态。根据Jon Peddie Research的报告，2022年第四季度，英特尔、英伟达和AMD分别占据了PC GPU市场的71%、17%和12%份额；而在独立GPU市场，这一比例分别调整为6%、85%和9%。这一现象反映了GPU市场被英伟达、英特尔和AMD三巨头所主导。

随着LLM（Large Language Model）模型的兴起，算力需求激增。例如，训练GPT-3模型需要庞大的算力支持，若使用英伟达的A100 GPU进行训练，仅完成一天的训练就需要超过30000块A100 GPU。这意味着在实际操作中，要达到类似的训练速度，需要大幅增加GPU数量。这不仅突显了LLM模型在性能和学习能力上的优势，也为GPU市场带来了巨大的增量需求。

在服务器领域，GPU作为加速芯片的首选，其价值量占比接近50%。以Nvidia DGX A100为例，其搭载8块Nvidia A100 Tensor GPU，售价约为19.9万美元，计算显示GPU在Nvidia DGX A100中的价值量占比约为48.24%。根据TrendForce的数据，2022年全球搭载GPGPU的AI服务器出货量占整体服务器比重约1%，预计2023年随着AI应用的推动，出货量将增长8%，年复合增长率可达10.8%。

此外，AI服务器市场正在快速增长。TrendForce预测，2023年全球AI服务器出货量将达14.4万台，到2026年将增至20万台。考虑到训练和推理服务器的比例为1:4，以及每台AI服务器所需的GPU数量，预计2023年和2026年全球AI服务器领域所需的GPU数量分别为86.4万块和120万块。以A100约1.2万美元的价格估算，2023年和2026年AI服务器所需GPU的价值分别为103.7亿美元和144.0亿美元。

汽车智能化也推动了GPU算力需求的增长。自动驾驶技术的发展对算力提出了更高要求，尤其是L2及以上级别的自动驾驶系统需要处理大量来自传感器的数据。预计全球新能源汽车销量将持续增长，对GPU的需求也将随之上升。

从供给端看，GPU的性能在持续迭代，英伟达、英特尔和AMD三巨头占据全球GPU市场。英伟达的GPU性能提升速度远超摩尔定律，且在2012年至2021年间，GPU单芯片推理性能提升了约317倍，这得益于工艺制程的进步。英伟达的CUDA架构显著降低了开发者的开发门槛，推动了GPU在通用计算领域的应用。

然而，高端GPU产品的出口限制引发了对GPU国产化的紧迫需求。2022年8月，美国政府对英伟达实施了针对中国和俄罗斯的出口限制，这直接影响了国内相关领域的发展。考虑到国内大模型如百度的ERNIE 3.0 Titan对GPU的巨大需求，国产GPU的迫切需求愈发凸显。

综上所述，GPU市场展现出巨大的增长潜力和需求，尤其是在AI、云计算和自动驾驶领域。尽管全球市场主要被海外企业垄断，但随着国产GPU技术的不断发展和市场需求的增加，GPU国产化进程面临着机遇与挑战。

GPU：算力的核心硬件，海外绝对垄断。根据Verified Market Research数据，2021年全球GPU市场规模为334.7亿美金，预计到2030年将达到4473.7亿美金，期间CAGR 33.3%。全球GPU市场目前被海外企业垄断，根据Jon Peddie Research数据，2022年四季度PC GPU中，英特尔/英伟达/AMD份额分别为71%/17%/12%；2022Q4独立GPU中，英特尔/英伟达/AMD份额分别为6%/85%/9%，全球范围内GPU市场呈现出海外三巨头垄断局面。 LLM模型带动算力需求。LLM模型的训练需要大量的计算资源和海量的文本数据，因此需要使用分布式计算和大规模数据处理技术。例如，GPT-3模型拥有约1750亿参考量，这使得GPT-3拥有其他较少参考量模型来说更高的准确性：仅需少量的样本训练就能够接近于BETR模型使用大量样本训练后的效果。但同时，如果以英伟达旗舰级GPU产品A100对GPT-3进行训练，1024块A100卡需要耗费超过1个月（大于30天），则我们可以按比例计算出，如果需要单日完成训练，需要的A100数量将超过30000块。我们认为，LLM模型无论在性能还是在学习能力上，相较于其他模型都具备明显优势，未来或将成为行业趋势，同时大规模的训练模型与之对应的便是庞大的算力需求。服务器：GPU市场的重要增长动力。服务器中GPU由于其具有最强的计算能力同时具备深度学习等能力，目前成为服务器中加速芯片的首选。AI服务器中GPU单品类硬件价值量占比较高：我们以Nvidia DGX A100为例，通过计算我们发现其GPU价值量占比约为48.24%。根据TrendForce数据，截止2022年全球搭载GPGPU的AI服务器出货量占整体服务器比重约1%，同时TrendForce预测2023年伴随AI相关应用加持，年出货量增速达到8%，2022~2026年CAGR为10.8%。我们假设训练AI服务器和推理AI服务器的比例为1:4，计算得到2023/2026年训练服务器的数量大约为3.60/5.00万台。同时假设推理AI服务器和训练AI服务器使用的GPU数量分别为4张和8张，算出2023年和2026年全球AI服务器领域所需GPU数量约为86.4万张和120万张，以A100约1.20w美金的价格作为参考计算出2023年和2026年AI服务器所需GPU的价值分别为103.7亿美元和144.0亿美元。硬件国产化迫在眉睫！2022年8月，美国政府通知英伟达，其需要获得许可才能够向中国和俄罗斯出口任何基于最新架构的A100 GPU或DGX/HGX等系统，同时该项规定也同时适用于最新发布的H100 GPU或者实现类似功能的产品。国内公司百度旗下大模型ERNIE 3.0 Titan参数量达到2600亿，高于GPT-3的1750亿，其所需的同规格GPU数量将远大于GPT-3，根据比例我们可以计算出在相同时间下（超过一个月）ERNIE 3.0 Titan所需A100数量约为1522块。同时我们认为，未来AI倘若进入大模型时代，相关算力需求将快速增加，届时对于国产高算力GPU需求将进一步提升，所以说GPU国产化进程迫在眉睫。优秀国产GPU公司不断涌现。目前包括景嘉微、沐曦集成电路、壁仞科技、摩尔线程在内一批优秀的国产GPU公司不断涌现，通过对比我们发现：在单精度浮点运算性能（FP32）算力中，国内外厂商均处于TFLOPS量级，海外龙头英伟达和AMD旗舰信号H100 SXM和MI250x分别实现FP32算力67 TFLOPS和47.9 TFLOPS。国内摩尔线程最高FP32算力产品MTT S3000，算力为15.2 TFLOPS；壁仞科技壁砺™100P产品最高实现240 TFLOPS的FP32算力；芯动科技“风华1号”产品实现FP32算力5 TFLOPS。通过对比我们发现在大部分情况下国产GPGPU相较于海外旗舰款仍存在差距。标的推荐：景嘉微、寒武纪、芯原股份、海光信息。风险提示：下游需求不及预期，国产化进程不及预期，测算误差风险。一、GPU：始于图形，不止于图形 1.1GPU——算力核心硬件 GPU用途由图形处理拓展至计算。GPU是图形处理器的简称，它是一种专门用于处理图形、视频、游戏等高性能计算的硬件设备。GPU相对于传统的中央处理器（CPU）而言，其拥有更多的计算核心和更快的内存带宽，能够大幅度提高计算效率和图形渲染速度。现阶段，随着例如英伟达A100、H100等型号产品的发布，GPU在算力方面的优势相较于其他硬件具有较大优势，GPU的工作也从一开始的图形处理逐步转化为计算。根据用途和性能表现，GPU可以分为专业卡和消费级卡两类：专业卡通常用于工程、科学、医学等领域的高性能计算和大规模数据处理，主要厂商包括英伟达、AMD等；消费级卡则主要用于普通家庭和游戏玩家，主要厂商包括英伟达、AMD、英特尔等。图表1：英伟达专业GPU：A100（ForHGX）图表2：英伟达消费级GPU：GeForceRTX 4090 根据芯片不同，GPU又可分为独立GPU和集成GPU：其中独立GPU表示具有自己的处理器、存储器以及电源，可以独立于计算机主板的独立芯片；集成GPU是一种内置于CPU芯片中的图形处理器。二者区别主要在于性能和功能，独立GPU性能通常更为强大，可以处理较为复杂的图形、计算任务；集成GPU性能通常低于独立GPU，但其优势在于低功耗以及小型化设计，更加适合笔记本电脑、平板电脑等小型设备。图表3：独立GPU和集成GPU 目前GPU在硬件中拥有最高的算力，成为最适合支撑人工智能训练和学习的硬件，我们认为其原因主要在于：更多处理单元：GPU相比于CPU等其他硬件有更多的处理单元（核心数更多），因此可以并行处理更多的数据。主要系GPU最初是为了图形渲染而设计的，而图形渲染涉及的计算是高度并行化的。这种并行化的特性使GPU非常适合进行机器学习和深度学习这样的大规模数据并行计算。具有更高的内存带宽和更大的内存容量：在进行深度学习等计算时，需要大量的内存和高速的内存带宽来存储和处理海量数据。GPU相比于其他硬件（如CPU），具有更高的内存带宽和更大的内存容量，可以更有效地存储和处理数据，从而提高计算速度。具有专门的计算单元：相较于其他硬件，GPU具有例如张量核心和矩阵乘法等计算单元，可以更快地执行常见的机器学习和深度学习操作：如卷积和矩阵乘法。这些计算单元与通用计算单元相比，具有更高的效率和更快的速度。图表5：GPU在训练速度上具有绝对优势（注：CPU选择英特尔至强Gold 图表4：GPU具有更多处理单元 GPGPU——为计算而生。GPGPU全称是“general-purpose computing on graphics processing units”，简称“通用图形处理单元”，其主要利用GPU的功能来执行CPU的任务，虽然在设计初期是为了更好地图形处理，但是多内核多通道的设计使其非常适合科学计算，发展至今GPGPU也成为了专为计算而设计的硬件。图表6：GPGPU架构多领域驱动，GPU千亿美金市场拉开序幕。GPU市场规模的大小取决于多种因素：其中游戏和娱乐市场一直是GPU市场的主要驱动力，因为这些领域需要高性能的GPU来支持更高质量的游戏画面和娱乐内容。同时人工智能和机器学习的发展对GPU市场也有着巨大的影响，因为这些技术需要大量的计算能力，而GPU可以提供比CPU更高的效率。此外，科学和研究领域的需求以及新兴市场（如游戏机和数据中心）也对GPU市场的规模产生了影响。根据VerifiedMarketResearch数据，2021年全球GPU市场规模为334.7亿美金，预计到2030年将达到4473.7亿美金，期间CAGR 33.3%。图表7：CPU全球市场规模及复合增速（亿美金，%） 1.2需求端——大模型算力需求激增 LLM模型带动算力需求：算力是指计算机系统能够完成的计算任务量，通常用来描述计算机的处理能力。算力的单位通常采用FLOPS（Floating Point Operations PerSecond）表示每秒钟能够完成的浮点运算或指令数，例如一台计算机每秒钟可以完成10亿次浮点运算，那么它的FLOPS值就是10 GFLOPS（10 Giga FLOPS）。目前我们以全球龙头英伟达在2020年发布的A100产品为例，根据英伟达官方介绍，A100的理论浮点运算性能可以达到19.5 TFLOPS（19.5 TeraFLOPS），即每秒195万亿次浮点运算。图表8：算力数量级前缀及说明图表9：世界范围内最快的超级计算机算力演变过程（GFLOPS）站在“智能革命”起点。我们回顾历史，人类社会目前经历了三次重大的产业变革：蒸汽时代、电气时代、信息时代，其分别对应了18世纪60年代末期英国人詹姆斯·瓦特制造的第一代具有实用价值的蒸汽机、美国在19世界60年代实现电力的广泛应用，以及电灯被发明、1946年美国制造出人类第一台二进制计算机。我们认为，每一次的产业革命都具有几个共通点，首先均有标志性的产品面世，其次持续时间较长以及对于世界发展影响深远。2022年11月，ChatGPT的发布让世界看到了无限的可能性，我们认为这仅仅只是“智能革命”的起点，未来或将呈现出各行业各接纳人工智能，人工智能助推世界发展的景象。图表10：历史上经历的重大产业革命深度学习对算力要求大幅提升。人工智能通过模拟和延展人类及自然智能的功能，拓展机器的能力边界，使其能部分或全面地实现类人的感知（如视觉、语音）、认知功能（如自然语言理解），或获得建模和解决问题的能力（如机器学习等方法）。人工智能实现方法之一为机器学习，而深度学习是用来实现机器学习的技术，通常可分为“训练”和“推理”两个阶段。训练阶段：需要基于大量的数据来调整和优化人工智能模型的参数，使模型的准确度达到预期，核心在于算力；推理阶段：训练结束后，建立的人工智能模型可用于推理或预测待处理输入数据对应的输出（例如给定一张图片，识别该图片中的物体），这个过程为推理阶段，对单个任务的计算能力不及训练，但总计算量也相当可观。图表11：人工智能、机器学习与深度学习的关系图表12：深度学习的训练和推理阶段大型语言模型（Large Language Model，简称LLM）是一种使用深度学习算法处理、理解自然语言的基础学习模型。LLM基于数亿到数千亿个参数的神经网络，通过训练数据学习自然语言的规律和模式，并能够生成高质量的自然语言文本。这些模型的训练需要大量的计算资源和海量的文本数据，因此需要使用分布式计算和大规模数据处理技术。目前，LLM模型能够在例如语音识别、文本摘要、智能翻译等领域中实际应用，但是LLM模型大规模应用目前仍然存在一些挑战和限制：需要大量的训练数据和计算资源，很难处理语言的多样性和不确定性。图表13：全球范围内LLM模型爆炸增长 GPT-3开启大模型时代。GPT-3是由OpenAI研发的一种基于深度学习的自然语言处理模型，其使用了大量的语料库进行预训练，使其能够理解语言的规则和模式，并生成与输入文本相关的自然语言文本，GPT-3的主要特点是它具有大规模的预训练模型，而同时大规模的训练模型与之对应的便是庞大的算力需求，根据OpenAI团队成员2020年发表的论文《Language Models areFew-Shot Learners》，GPT-3模型拥有约1750亿参考量，这使得GPT-3拥有其他较少参考量模型来说更高的准确性。同时基于1750亿参数的模型仅需少量的样本训练，就能够接近于BETR模型使用大量样本训练后的效果。我们认为，大模型无论在性能还是在学习能力上，相较于其他模型都具备明显优势，未来或将成为行业趋势。图表14：参数提升对于模型整体改善显著图表15：GPT-3仅需32条样本即可达到其他模型相同训练效果伴

点击免费查看完整报告

你可能感兴趣

电子行业：“AI革命”算力篇

你可能感兴趣

电子行业深度：“AI革命”存储篇：算力拉动，拐点提前

服务器行业深度研究报告：AI革命已至，算力竞赛推动服务器迎来升级浪潮

计算机行业DeepSeek掀起算力成本革命，助推AI Agent加速落地

通信行业2024年中期投资策略：新质生产力时代的“AI算力+国产替代+卫星”革命

电子行业周报：算力革命，电子受益几何