GPU掌舵AI算力大时代,千亿级市场再迎增量:GPU因其强大的并行计算能力而广泛应用于人工智能、图像渲染、科学计算等领域。AI、自动驾驶与游戏市场是GPU需求增长的主要场景,据Global Market Insights数据,全球GPU市场预计将以CAGR 25.9%持续增长,至2030年达到4000亿美元规模。其中AI领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端GPU需求快速增长。 微架构和平台生态共筑竞争壁垒:GPU的微架构设计是决定硬件性能的关键,全球龙头厂商英伟达与AMD均以保持架构升级节奏以及制程升级速率来保证产品竞争力。此外,成熟且完善的平台生态形成的强大用户粘性将在长时间内塑造GPU厂商的软实力,以英伟达通用计算平台CUDA为例,从软件栈的完整度和对硬件性能的高效利用角度出发降低了通用计算GPU开发者编译难度,建立起卡位全球的开发生态,从而实现长期竞争壁垒。 兼容主流生态对标行业龙头,国内厂商持续发力:近年来,国产GPU厂商在图形渲染GPU和高性能计算GPGPU领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达CUDA,融入大生态进而实现客户端不断导入。在高端GPU芯片进口受限的背景下,国产GPU厂商预计将乘政策东风,抓住国产替代契机快速成长。 建议关注:1)已上市标的:寒武纪、海光信息、景嘉微、芯原股份、龙芯中科;2)未上市标的:壁仞科技、摩尔线程、芯动科技、兆芯、天数智芯、沐曦。 风险提示:技术迭代风险、宏观经济风险、国产替代风险、行业竞争风险。 1行业概况:GPU掌舵AI算力大时代,千亿级市场再迎增量 1.1GPU:提供大规模并行计算解决方案 GPU,专注图像处理。GPU(图形处理器)最初是为了解决CPU在图形处理领域性能不足的问题而诞生。CPU作为核心控制计算单元,高速缓冲存储器 (Cache)、控制单元(Control)在CPU硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得CPU的大规模并行计算表现不佳。GPU架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。 图1.CPU架构示意图 图2.GPU架构示意图 GPGPU,脱胎于GPU,通用性提升。GPU计算单元既可运用于图形渲染领 域,也能够进行通用计算。传统GPU应用局限于图形渲染计算,而面对非图像显示领域并涉及大量并行运算的领域,比如AI、加密解密、科学计算等领域则更需要通用计算能力。随着GPU可编程性的不断提高,去掉或减弱GPU的图形显示部分能力,全部投入通用计算的GPGPU(通用计算处理器)应运而生。 表1.NVIDIA架构演进历史 CPU+GPU异构计算解决多元化计算需求。使用不同的体系架构的计算单元组成混合系统,GPU作为协处理器负责并行加速计算,CPU作为控制中心的异构计算面对复杂场景可实现更优性能。 图3.CPU+GPU的异构计算 1.2“AI+汽车+游戏”三驾马车驱动行业发展 大语言模型开启AI元年。2022年11月,OpenAI推出基于大型语言模型GPT-3的AI对话机器人ChatGPT,其可以与用户进行富有逻辑和创造力的自然语言对话。2017年由Google提出的Transformer模型是大型语言模型发展的里程碑,Transformer是一种基于注意力(Attention)机制构建的神经网络模型,克服了传统的递归神经网络(RNN)和卷积神经网络(CNN)在自然语言处理时容易被无关信息干扰的缺点,能够更好的理解长序列和上下文的关系。 图4.GPT-3Transformer模型结构 图5.LLM基础模型 国内AI巨头持续跟进,大模型产业迎发展契机。腾讯、阿里、百度以及华为等厂商都已布局大模型产业,以“通用大模型+专精小模型”的层次化协同发展模式持续发力。 百度是国内最早进行大模型研发的科技企业之一,立足文心NLP大模型推出“文心一言”对话机器人(Ernie Bot)。百度在2019年3月率先发布中国首个正式开放的预训练模型文心大模型(Ernie)1.0,2021年12月,文心大模型3.0参数突破千亿,升级为全球首个知识增强千亿大模型,成为目前为止全球最大的中文单体模型,根据IDC发布的《2022中国大模型发展白皮书》,文心大模型在国内市场格局中处于第一梯队,产品能力、生态能力、应用能力均处于行业领先地位。2023年3月16日,百度正式发布“文心一言”对话机器人,拥有文学创作、商业文案创作、数理逻辑推理、中文理解和多模态生成五大能力,表现出对文本语义的深度理解。 图6.百度文心大模型 图7.文心大模型性能评测 阿里达摩院推通义大模型,打造国内首个AI统一底座。2022年9月2日,阿里达摩院在世界人工智能大会大规模预训练模型主题论坛上发布了最新的“通义”大模型,其打造了国内首个AI统一底座,构建了通用与专业模型协同的层次化人工智能体系,“统一学习范式”是通义大模型的最大亮点,通过多模态统一模型M6-OFA完成了架构、模块与任务的三大统一,赋予模型不新增结构即可处理包括图像描述、文档摘要、视觉定位等单模态和跨模态任务的能力。“模块化设计”也是模型特点之一,其借鉴了人脑“能力模块”结构,采用模块化 Transformer Encoder-Decoder结构,切分出基础层、通用层、任务层、功能性四大模块,每个模块间相互解耦,分工合作。该设计便于对不同板块进行微调与继续训练,以实现大模型的轻量化。 图8.阿里通义大模型层次示意图 图9.多模态模块化设计 阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在4月11日阿里云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造,未来有望重塑产品格局。 图10.阿里所有产品未来将接入“通义千问”大模型 华为盘古大模型基于其ModelArts平台开发,模型泛化有望多场景落地。 ModelArts平台为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力。盘古大模型基于ModelArts开发,由NLP大模型、CV大模型、多模态大模型、科学计算大模型多个大模型构成,通过模型泛化可在不同部署场景下抽取出不同大小的模型,动态范围可根据需求调整,从特定的小场景到综合性的复杂大场景均能覆盖。目前,盘古大模型已经在能源、零售、金融、工业、医疗、环境、物流等100多个行业场景完成验证。 图11.ModelArts平台架构 参数数量是决定模型表现的最重要因素。大语言模型的特点是拥有强大的自学习能力,随着训练数据集和模型参数的增加,可以显著提高模型的泛化能力和通用能力,模型规模的扩大已经成为了大语言模型的发展趋势。以OpenAI为例,其初代GPT模型参数量仅有15亿,而基于GPT-3的chatGPT参数量已经达到了1750亿,目前主流AI厂商都进入了“千亿参数时代”。模型表现改善的同时,不断增长的参数量对硬件算力提出了更高的要求。据OpenAI研究表明,最大的AI训练模型所需的算力每3-4个月翻倍,而2012-2018年间这个指标增长超过300,000倍。 图12.主流NLP预训练模型规模 图13.深度学习模型对算力的需求增速 GPU已成为AI加速芯片通用性解决方案,提供大语言模型推理训练所需的海量算力。为构建有效的AI部署方案,CPU和加速芯片结合的异构计算是经典的计算框架,目前最常见的AI加速芯片主要为GPU、FPGA和ASIC,而GPU凭借其高性能、高灵活度特点成为AI加速方案首选。 表2.GPU、FPGA、ASIC指标对比 图14.中国AI芯片市场份额(按类型) 自动驾驶升级推动边缘计算需求增加,GPU车载领域价值逐步显现。在云计算架构中,数据通过高速网络传输至拥有大规模高性能计算设备的云计算中心进行计算,而边缘计算则将数据计算与储存集中在靠近数据源头的本地设备上,能够更快的响应计算需求。自动驾驶是边缘计算架构最前沿的应用场景之一,目前大多数自动驾驶处于L2-L3(部分自动驾驶)级别,而要实现L4-L5级别高度自动驾驶,则需要人工智能短时、高频地处理大量路况信息并自主完成大部分决策,因此需要GPU为汽车芯片提供更多计算能力来处理复杂数据。根据地平线对 OEM厂商需求情况的分析,更高级别的自动驾驶意味着更高的算力需求,L2级别需要2TOPS、L3级别需要24TOPS、L4级需要320TOPS,L5级则需要4000+TOPS。 图15.全球自动驾驶渗透率 图16.汽车自动驾驶分级以及对算力需求 GPU提供核心计算能力,是自动驾驶算力升级趋势关键。目前,市面上主流的自动驾驶芯片采用NVIDIA推出的Orin系统级芯片(SoC),Orin集成NVIDIAAmpere架构GPU和Arm Hercules内核CPU以及全新深度学习加速器 (DLA)和计算机视觉加速器(PVA),可以提供每秒254TOPS的计算能力,几乎是NVIDIA上一代系统级芯片Xavier性能的7倍。而根据英伟达公告,其预计在2024年发布下一代车载系统级芯片Thor,通过更新芯片内含的GPU架构,Thor预计可以为自动驾驶汽车提供约2000TOPS的计算能力。 图17.Orin系统架构 图18.NVIDIA自动驾驶平台算力升级路线图 游戏市场画质升级驱动GPU显卡性能升级需求。GPU最初作为图形处理器而诞生,在游戏显卡市场伴随玩家对游戏品质的追求不断提升,以光线追踪算法 (RayTracing)为代表的特殊渲染算法更多的应用到游戏显卡以提升显示画质。 2018年,NVIDIA联合Microsoft共同发布了RTX(RayTracing X)标准,NVIDIA也在其同年发布的Turing架构GPU中引入了加速光线追踪计算的RT Core,实现了光线追踪的实时化。光追通过在场景中发射光线并跟踪每个像素的光线路径来模拟真实的光传播,在提供更具真实感的画面效果的同时对于计算复杂度以及计算量需求大幅增加,整体游戏市场画质升级将驱动GPU显卡性能持续升级 图19.光线追踪算法过程 图20.NVIDIARTX平台 图21.英伟达中端GPU显卡单位价格性能持续升级 1.3大语言模型助推GPU算力需求增长 市场对3D图像处理和AI深度学习计算等需求不断增加,GPU市场保持高增速。据Global Market Insights的数据,全球GPU市场预计将以CAGR25.9%持续增长,至2030年达到4000亿美元规模。在GPU市场中,NVIDIA依靠在深度学习、人工智能等领域布局的先发优势并凭借其优异产品性能以及成熟的生态平台长期处于领导地位,根据JPR数据,2022年Q1,NVIDIA的在独显市场份额约为78%。 图22.全球GPU市场规模(十亿美元) 图23.全球独立GPU市场占比(按厂商) 大语言模型有望拉动GPU需求增量,我们测算23/24/25年大模型有望贡献GPU市场增量69.88/166.2/209.95亿美元。具体假设测算如下: 训练端,近年来各大厂商陆续发布大模型,我们假设23/24/25年新增5/10/15个大模型,根据OpenAI团队于2020发表的论文《Scaling Laws for Neural Language Models》提出的计算方法,对于以Transformer为基础的模型,假设模型参数量为N,单Token所需的训练算力约为6N。参考OpenAI团队2020同年发表的论文《Language Models are Few-Shot Learners》,GPT-3模型参数量约为1750亿个,Token数量约为3000亿个,近年发布的模型均在千亿级参数级别,因此我们中性假设23年