行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

AI算力行业深度：AI模型乘风起，GPU掌舵算力大时代

电子设备2023-04-16张益敏财通证券劫***

AI智能总结

GPU在人工智能(AI)、自动驾驶和游戏领域的广泛应用推动了全球GPU市场的强劲增长。据Global Market Insights预测，全球GPU市场预计将以复合年增长率(CAGR)25.9%增长，到2030年达到4000亿美元规模。这一增长主要由大语言模型的持续推出及其参数量的不断增长所驱动，特别是在AI训练和推理方面。

行业概况与驱动因素

1. AI、自动驾驶与游戏市场驱动

AI领域：大语言模型的持续发展和参数量的增加促进了AI训练和推理端GPU需求的增长。
自动驾驶：随着自动驾驶技术向更高级别发展，对计算能力的需求随之增加，尤其是L4-L5级别的高度自动驾驶，需要GPU提供更多的计算能力来处理复杂的路况信息。
游戏市场：游戏市场的画质升级和对高性能图形处理的需求，驱动了GPU显卡性能的持续升级。

竞争力来源

1. 微架构与平台生态

微架构：GPU的微架构设计是性能的关键，全球领先的厂商如英伟达和AMD通过持续的微架构迭代和制程升级来保持竞争优势。
平台生态：成熟的软件平台生态，如英伟达的CUDA，形成强大的用户粘性，为GPU厂商构建长期的竞争壁垒。

国内外发展现状

1. 海外龙头

英伟达：作为GPU行业的领军者，英伟达通过不断的技术创新和市场拓展，主导着GPU市场，尤其是在AI、游戏和数据中心等领域。

2. 国内发展

国产GPU厂商：近年来，国产GPU厂商在图形渲染GPU和高性能计算GPU领域取得了进展，产品性能不断接近主流产品，特定领域达到业界一流水平。
生态兼容：大多数国产GPU厂商兼容英伟达CUDA，融入大生态，加速市场导入。

市场机会与策略

关注国产替代机会：在高端GPU芯片进口受限的情况下，国产GPU厂商有望借助政策东风，快速成长。
产品与生态融合：国产GPU厂商需聚焦产品性能优化和生态建设，通过兼容主流平台，吸引开发者和企业用户。

风险提示

技术迭代风险：快速的技术变革可能导致现有产品迅速过时。
宏观经济风险：全球经济波动可能影响市场需求。
国产替代风险：市场竞争激烈，替代进程面临挑战。
行业竞争风险：市场集中度高，竞争压力大。

综上所述，GPU行业正经历AI时代的重大变革，市场前景广阔，但同时也面临着技术、经济和竞争等多重挑战。

GPU掌舵AI算力大时代，千亿级市场再迎增量：GPU因其强大的并行计算能力而广泛应用于人工智能、图像渲染、科学计算等领域。AI、自动驾驶与游戏市场是GPU需求增长的主要场景，据Global Market Insights数据，全球GPU市场预计将以CAGR 25.9%持续增长，至2030年达到4000亿美元规模。其中AI领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端GPU需求快速增长。微架构和平台生态共筑竞争壁垒：GPU的微架构设计是决定硬件性能的关键，全球龙头厂商英伟达与AMD均以保持架构升级节奏以及制程升级速率来保证产品竞争力。此外，成熟且完善的平台生态形成的强大用户粘性将在长时间内塑造GPU厂商的软实力，以英伟达通用计算平台CUDA为例，从软件栈的完整度和对硬件性能的高效利用角度出发降低了通用计算GPU开发者编译难度，建立起卡位全球的开发生态，从而实现长期竞争壁垒。兼容主流生态对标行业龙头，国内厂商持续发力：近年来，国产GPU厂商在图形渲染GPU和高性能计算GPGPU领域上均推出了较为成熟的产品，在性能上不断追赶行业主流产品，在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达CUDA，融入大生态进而实现客户端不断导入。在高端GPU芯片进口受限的背景下，国产GPU厂商预计将乘政策东风，抓住国产替代契机快速成长。建议关注：1）已上市标的：寒武纪、海光信息、景嘉微、芯原股份、龙芯中科；2）未上市标的：壁仞科技、摩尔线程、芯动科技、兆芯、天数智芯、沐曦。风险提示：技术迭代风险、宏观经济风险、国产替代风险、行业竞争风险。 1行业概况：GPU掌舵AI算力大时代，千亿级市场再迎增量 1.1GPU：提供大规模并行计算解决方案 GPU，专注图像处理。GPU（图形处理器）最初是为了解决CPU在图形处理领域性能不足的问题而诞生。CPU作为核心控制计算单元，高速缓冲存储器（Cache）、控制单元（Control）在CPU硬件架构设计中所占比例较大，主要为实现低延迟和处理单位内核性能要求较高的工作而存在，而计算单元（ALU）所占比例较小，这使得CPU的大规模并行计算表现不佳。GPU架构内主要为计算单元，采用极简的流水线进行设计，适合处理高度线程化、相对简单的并行计算，在图像渲染等涉及大量重复运算的领域拥有更强运算能力。图1.CPU架构示意图图2.GPU架构示意图 GPGPU，脱胎于GPU，通用性提升。GPU计算单元既可运用于图形渲染领域，也能够进行通用计算。传统GPU应用局限于图形渲染计算，而面对非图像显示领域并涉及大量并行运算的领域，比如AI、加密解密、科学计算等领域则更需要通用计算能力。随着GPU可编程性的不断提高，去掉或减弱GPU的图形显示部分能力，全部投入通用计算的GPGPU（通用计算处理器）应运而生。表1.NVIDIA架构演进历史 CPU+GPU异构计算解决多元化计算需求。使用不同的体系架构的计算单元组成混合系统，GPU作为协处理器负责并行加速计算，CPU作为控制中心的异构计算面对复杂场景可实现更优性能。图3.CPU+GPU的异构计算 1.2“AI+汽车+游戏”三驾马车驱动行业发展大语言模型开启AI元年。2022年11月，OpenAI推出基于大型语言模型GPT-3的AI对话机器人ChatGPT，其可以与用户进行富有逻辑和创造力的自然语言对话。2017年由Google提出的Transformer模型是大型语言模型发展的里程碑，Transformer是一种基于注意力（Attention）机制构建的神经网络模型，克服了传统的递归神经网络（RNN）和卷积神经网络（CNN）在自然语言处理时容易被无关信息干扰的缺点，能够更好的理解长序列和上下文的关系。图4.GPT-3Transformer模型结构图5.LLM基础模型国内AI巨头持续跟进，大模型产业迎发展契机。腾讯、阿里、百度以及华为等厂商都已布局大模型产业，以“通用大模型+专精小模型”的层次化协同发展模式持续发力。百度是国内最早进行大模型研发的科技企业之一，立足文心NLP大模型推出“文心一言”对话机器人（Ernie Bot）。百度在2019年3月率先发布中国首个正式开放的预训练模型文心大模型（Ernie）1.0，2021年12月，文心大模型3.0参数突破千亿，升级为全球首个知识增强千亿大模型，成为目前为止全球最大的中文单体模型，根据IDC发布的《2022中国大模型发展白皮书》，文心大模型在国内市场格局中处于第一梯队，产品能力、生态能力、应用能力均处于行业领先地位。2023年3月16日，百度正式发布“文心一言”对话机器人，拥有文学创作、商业文案创作、数理逻辑推理、中文理解和多模态生成五大能力，表现出对文本语义的深度理解。图6.百度文心大模型图7.文心大模型性能评测阿里达摩院推通义大模型，打造国内首个AI统一底座。2022年9月2日，阿里达摩院在世界人工智能大会大规模预训练模型主题论坛上发布了最新的“通义”大模型，其打造了国内首个AI统一底座，构建了通用与专业模型协同的层次化人工智能体系，“统一学习范式”是通义大模型的最大亮点，通过多模态统一模型M6-OFA完成了架构、模块与任务的三大统一，赋予模型不新增结构即可处理包括图像描述、文档摘要、视觉定位等单模态和跨模态任务的能力。“模块化设计”也是模型特点之一，其借鉴了人脑“能力模块”结构，采用模块化 Transformer Encoder-Decoder结构，切分出基础层、通用层、任务层、功能性四大模块，每个模块间相互解耦，分工合作。该设计便于对不同板块进行微调与继续训练，以实现大模型的轻量化。图8.阿里通义大模型层次示意图图9.多模态模块化设计阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在4月11日阿里云峰会上表示，阿里巴巴所有产品未来将接入“通义千问”大模型，进行全面改造，未来有望重塑产品格局。图10.阿里所有产品未来将接入“通义千问”大模型华为盘古大模型基于其ModelArts平台开发，模型泛化有望多场景落地。 ModelArts平台为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成，及端-边-云模型按需部署能力。盘古大模型基于ModelArts开发，由NLP大模型、CV大模型、多模态大模型、科学计算大模型多个大模型构成，通过模型泛化可在不同部署场景下抽取出不同大小的模型，动态范围可根据需求调整，从特定的小场景到综合性的复杂大场景均能覆盖。目前，盘古大模型已经在能源、零售、金融、工业、医疗、环境、物流等100多个行业场景完成验证。图11.ModelArts平台架构参数数量是决定模型表现的最重要因素。大语言模型的特点是拥有强大的自学习能力，随着训练数据集和模型参数的增加，可以显著提高模型的泛化能力和通用能力，模型规模的扩大已经成为了大语言模型的发展趋势。以OpenAI为例，其初代GPT模型参数量仅有15亿，而基于GPT-3的chatGPT参数量已经达到了1750亿，目前主流AI厂商都进入了“千亿参数时代”。模型表现改善的同时，不断增长的参数量对硬件算力提出了更高的要求。据OpenAI研究表明，最大的AI训练模型所需的算力每3-4个月翻倍，而2012-2018年间这个指标增长超过300,000倍。图12.主流NLP预训练模型规模图13.深度学习模型对算力的需求增速 GPU已成为AI加速芯片通用性解决方案，提供大语言模型推理训练所需的海量算力。为构建有效的AI部署方案，CPU和加速芯片结合的异构计算是经典的计算框架，目前最常见的AI加速芯片主要为GPU、FPGA和ASIC，而GPU凭借其高性能、高灵活度特点成为AI加速方案首选。表2.GPU、FPGA、ASIC指标对比图14.中国AI芯片市场份额（按类型）自动驾驶升级推动边缘计算需求增加，GPU车载领域价值逐步显现。在云计算架构中，数据通过高速网络传输至拥有大规模高性能计算设备的云计算中心进行计算，而边缘计算则将数据计算与储存集中在靠近数据源头的本地设备上，能够更快的响应计算需求。自动驾驶是边缘计算架构最前沿的应用场景之一，目前大多数自动驾驶处于L2-L3（部分自动驾驶）级别，而要实现L4-L5级别高度自动驾驶，则需要人工智能短时、高频地处理大量路况信息并自主完成大部分决策，因此需要GPU为汽车芯片提供更多计算能力来处理复杂数据。根据地平线对 OEM厂商需求情况的分析，更高级别的自动驾驶意味着更高的算力需求，L2级别需要2TOPS、L3级别需要24TOPS、L4级需要320TOPS，L5级则需要4000+TOPS。图15.全球自动驾驶渗透率图16.汽车自动驾驶分级以及对算力需求 GPU提供核心计算能力，是自动驾驶算力升级趋势关键。目前，市面上主流的自动驾驶芯片采用NVIDIA推出的Orin系统级芯片（SoC），Orin集成NVIDIAAmpere架构GPU和Arm Hercules内核CPU以及全新深度学习加速器（DLA）和计算机视觉加速器（PVA），可以提供每秒254TOPS的计算能力，几乎是NVIDIA上一代系统级芯片Xavier性能的7倍。而根据英伟达公告，其预计在2024年发布下一代车载系统级芯片Thor，通过更新芯片内含的GPU架构，Thor预计可以为自动驾驶汽车提供约2000TOPS的计算能力。图17.Orin系统架构图18.NVIDIA自动驾驶平台算力升级路线图游戏市场画质升级驱动GPU显卡性能升级需求。GPU最初作为图形处理器而诞生，在游戏显卡市场伴随玩家对游戏品质的追求不断提升，以光线追踪算法（RayTracing）为代表的特殊渲染算法更多的应用到游戏显卡以提升显示画质。 2018年，NVIDIA联合Microsoft共同发布了RTX（RayTracing X）标准，NVIDIA也在其同年发布的Turing架构GPU中引入了加速光线追踪计算的RT Core，实现了光线追踪的实时化。光追通过在场景中发射光线并跟踪每个像素的光线路径来模拟真实的光传播，在提供更具真实感的画面效果的同时对于计算复杂度以及计算量需求大幅增加，整体游戏市场画质升级将驱动GPU显卡性能持续升级图19.光线追踪算法过程图20.NVIDIARTX平台图21.英伟达中端GPU显卡单位价格性能持续升级 1.3大语言模型助推GPU算力需求增长市场对3D图像处理和AI深度学习计算等需求不断增加，GPU市场保持高增速。据Global Market Insights的数据，全球GPU市场预计将以CAGR25.9%持续增长，至2030年达到4000亿美元规模。在GPU市场中，NVIDIA依靠在深度学习、人工智能等领域布局的先发优势并凭借其优异产品性能以及成熟的生态平台长期处于领导地位，根据JPR数据，2022年Q1，NVIDIA的在独显市场份额约为78%。图22.全球GPU市场规模（十亿美元）图23.全球独立GPU市场占比（按厂商）大语言模型有望拉动GPU需求增量，我们测算23/24/25年大模型有望贡献GPU市场增量69.88/166.2/209.95亿美元。具体假设测算如下：训练端，近年来各大厂商陆续发布大模型，我们假设23/24/25年新增5/10/15个大模型，根据OpenAI团队于2020发表的论文《Scaling Laws for Neural Language Models》提出的计算方法，对于以Transformer为基础的模型，假设模型参数量为N，单Token所需的训练算力约为6N。参考OpenAI团队2020同年发表的论文《Language Models are Few-Shot Learners》，GPT-3模型参数量约为1750亿个，Token数量约为3000亿个，近年发布的模型均在千亿级参数级别，因此我们中性假设23年

点击免费查看完整报告