证券研究报告 半导体行业评级:领先大市-A 华金证券电子团队—走进“芯”时代系列深度之六十“AI算力GPU” AI产业化再加速,智能大时代已开启 ——GPU行业深度报告 孙远峰/王臣复/王海维 SAC执业证书编号:S0910522120001/S0910523020006/S0910523020005 2023年3月26日 本报告仅供华金证券客户中的专业投资者参考请仔细阅读在本报告尾部的重要法律声明 在芯片算力快速提升、日趋庞大的数据量共同支撑下,AI算法迭代升级加速。AI的发展经历了很长时间的积累,其能不断跨越科学与应用之间的鸿沟主要得益于技术突破、行业落地、产业协作等多方面的推动,而技术突破是其中最为关键的要素。从起步阶段发展到当下深度学习阶段,算法、数据和算力构成了AI三大基本要素,并共同推动AI向更高层次的感知和认知发展。算法方面,目前深度学习仍然是AI技术发展的主导路线,但是早期所使用的有监督学习方式由于受限于对大量标注数据依赖与理解能力缺乏,而且模型通用性较差,正逐步被新的技术所取代,在芯片算力的快速提升、日益庞大的数据量这两者的支撑下,新算法正处于加速迭代升级过程中。 自监督学习的算法模型快速发展,“预训练+精调”的开发范式迈向成熟,新一轮AI技术产业化之路开启。谷歌、脸书等多家企业先后发布使用自监督学习的算法模型,通过挖掘无标注数据的监督信息,减少人为干预。现阶段自监督学习本质上仍依赖规范化、标签化的数据,主要借助预训练模型构筑并学习数据特征。“预训练”的做法一般是将大量低成本收集的训练数据放在一起,经过某种预训方法去学习其中的共性,然后将其中的共性“移植”到特定任务的模型中,再使用相关特定领域的少量标注数据进行“微调”,这样的话,模型只需要从“共性”出发,去“学习”该特定任务的“特殊”部分即可。预训练模型成功的关键是自监督学习与Transformer的结合。预训练大模型在海量数据的学习训练后具有良好的通用性和泛化性,用户基于大模型通过零样本、小样本学习即可获得领先的效果,同时“预训练+精调”等开发范式,让研发过程更加标准化,显著降低了人工智能应用门槛。整体上来看,关于本轮AI技术突破所带来的产业化变局,我们有三个核心观点:1、基于GPT为代表的大模型AI的通用能力,未来几年大模型AI的渗透广度、深度和速度有可能会超预期;2、ChatGPT采用的是闭源模型,其加速的产业落地会刺激更多的厂商加大大模型AI的研发投入,进而推动AI产业化发展;3、大模型AI通用能力的提升,带动的将不仅仅是云计算市场的增长,伴随着多种技术与商业化路径的逐步成熟,云、边缘、端的增量市场空间均有望渐次打开。 云端计算进入高性能计算时代,大模型训练仍以GPU为主。虽然AI芯片目前看有GPU、ASIC、CPU、FPGA等几大类,但是基于几点原因,我们判断GPU仍将是训练模型的主流硬件:1、Transformer架构是最近几年的主流,该架构最大的特点之一就是能够利用分布式GPU进行并行训练,提升模型训练效率;2、ASIC的算力与功耗虽然看似有优势,但考虑到AI算法还是处于一个不断发展演进的过程,用专用芯片部署会面临着未来算法更迭导致芯片不适配的巨大风险;3、英伟达强大的芯片支撑、生态、算法开源支持。 模型小型化技术逐步成熟,从训练走向推理,云、边、端全维度发展。我们认为至少有四大投资主线应持续关注:1、GPU方面,在英伟达的推动下,其从最初的显卡发展到如今的高性能并行计算,海外大厂已经具备了超过20年的技术、资本、生态、人才等储备,形成了大量的核心技术专利,而且也能充分享有全球半导体产业链的支撑,这都或是目前国内厂商所缺失的。近几年在资本的推动下,国内涌现出数十家GPU厂商,各自或都具备一定的发展基础,但整体经营时间较短,无论从技术积淀、产品料号布局、高端料号性能来说,与国外大厂仍具备较大差距。但国产化势在必行,国内相关产业链重点环节也积极对上游芯片原厂进行扶持,国产算力芯片需要不断迭代以实现性能的向上提升,后续持续关注相关厂商料号升级、生态建设和客户突破;2、AI在端侧设备应用普及是大势所趋,目前,知识蒸馏、剪枝、量化等模型小型化技术在逐步成熟,AI在云、边、端全方位发展的时代已至。除了更加广泛的应用带来需求量的提升外,更复杂算法带来更大算力的需求也将从另一个维度推动市场扩容;3、数据的高吞吐量需要大带宽的传输支持,光通信技术作为算力产业发展的支撑底座,具备长期投资价值;4、Chiplet技术可以突破单一芯片的性能和良率等瓶颈,降低芯片设计的复杂度和成本。基于向Chiplet模式的设计转型,已经是大型芯片厂商的共识,相关产业链具备长期投资价值。 建议关注:瑞芯微、晶晨股份、星宸科技(待上市)、全志科技、北京君正、中科蓝讯、富瀚微、恒玄科技 风险提示:技术创新风险、宏观经济和行业波动风险、国际贸易摩擦风险。 01 02 03 04 由专用走向通用,GPU赛道壁垒高筑产业化路径显现,全球AI竞赛再加速全维智能化大时代,国产算力行则必至建议关注 05 产业相关 06 风险提示 由专用走向通用,GPU赛道壁垒高筑 01 • 1.1 什么是GPU • 1.14 走向新场景的GPGPU • 1.2 始于图形处理设备 • 1.15 GPU与GPGPU的对比 • 1.3 浮点计算能力与可编程性结合 • 1.16 GPGPU与CPU的对比 • 1.4 GPU发展三大方向 • 1.17 并行计算发展的核心 • 1.5 英传达显卡发展历程 • 1.18 SIMT,主流GPU的系统架构核心 • 1.6 GeForceRTX40系列,时代最强 • 1.19 GPGPU架构,以A100为例 • 1.7 英特尔的核显 • 1.20 Fermi是第一个完整的GPU计算架构 • 1.8 核显与独显性能对比 • 1.21 通用算力提升是英伟达GPU架构演进的重点之一 • 1.9 图形流水线是GPU工作的通用模型 • 1.22 多方面构建的高壁垒 • 1.10 统一渲染架构的推出开启了通用计算大时代 • 1.23 人才与研发投入,以英伟达为例 • 1.11 从简单到越来越复杂的流水线 • 1.24 国外厂商多年间构筑了庞大的专利池 • 1.12 光线追踪时代开启 • 1.25 英伟达全栈布局构筑强大生态 • 1.13 光线追踪算法要求的计算量巨大 • 1.26 走向异构,海外厂商横向布局不断 分目录(2) 产业化路径显现,全球AI竞赛再加速 02 • 2.1 AI技术赋能实体经济面临的瓶颈 • 2.14 数据中心迈入“高算力”时代,兵家必争 • 2.2 ChatGPT的破圈 • 2.15 英伟达数据中心业务快速增长 • 2.3 ChatGPT的成功离不开预训练大模型 • 2.16 自动驾驶研发两大商业路线 • 2.4 预训练模型的发展历程 • 2.17 自动驾驶实现的两种技术路线 • 2.5 Transformer架构成主流 • 2.18 单车智能化推动算力升级加速 • 2.6 自监督学习与Transformer的结合 • 2.19 自动驾驶具备广阔市场前景 • 2.7 大模型的突现能力 • 2.8 参数量爆发式增长的ChatGPT • 2.9 预训练大模型,第三波AI发展的重大拐点 • 2.10 生成式AI、边缘AI技术即将步入成熟期 • 2.11 大模型是大算力和强算法结合的产物 • 2.12 AI芯片三剑客 • 2.13 训练端GPU担纲 分目录(3) 全维智能化大时代,国产算力行则必至 03 • 3.1 全球数据中心负载任务量快速增长 • 3.16 先求有,再求好 • 3.2 全球计算产业投资空间巨大 • 3.17 生态先兼容主流,未来将走向自建 • 3.3 预训练大模型对于GPU的需求 • 3.18 国产之路已开启,部分国产GPU设计厂商列表 • 3.4 国内市场需求将保持高增长 • 3.19 GPU发展离不开全球产业链的支撑 • 3.5 云计算及云部署方式 • 3.20 制程升级对于算力芯片性能提升具有较高贡献度 • 3.6 不同云部署方式的市场占比 • 3.21 摩尔定律发展趋缓 • 3.7 企业上云持续向细分行业渗透 • 3.22 Chiplet技术潜力大 • 3.8 从“资源上云”迈入“深度用云” • 3.23 Chiplet技术发展历程 • 3.9 信创从试点走向推广 • 3.24 行业巨头推动,产业加速落地 • 3.10 公有云主要参与厂商 • 3.25 采用Chiplet技术的产品不断出现 • 3.11 云计算产业链 • 3.26 算力两大演进方向:更大算力&更多样化应用 • 3.12 集成显卡与独立显卡市场份额 • 3.27 存量替代与增量成长并存 • 3.13 独立显卡英伟达一家独大 • 3.28 高吞吐量离不开高速传输 • 3.14 性能强大的H100 • 3.29 光通信前景可期 • 3.15 国产厂商两条发展路径:GPU和GPGPU 分目录(4) 建议关注 产业相关 04 05 • 4.1 瑞芯微 • 5.1 海光信息 • 4.2 晶晨股份 • 5.2 龙芯中科 • 4.3 星宸科技(待上市) • 5.3 景嘉微 • 4.4 全志科技 • 5.4 寒武纪-U • 4.5 北京君正 • 5.5 中芯国际 • 4.6 中科蓝讯 • 5.6 芯原股份-U • 4.7 富瀚微 • 5.7 华大九天 • 4.8 恒玄科技 • 5.8 概伦电子 • 5.9 长电科技 06 • 5.10 华天科技 • 5.11 通富微电 • 5.12 炬芯科技 • 5.13 源杰科技 • 5.14 光迅科技 • 5.15 摩尔线程(未上市) 风险提示 •技术创新风险 •宏观经济和行业波动风险 •国际贸易摩擦风险 目录01 由专用走向通用,GPU赛道壁垒高筑 01 • 1.1 什么是GPU • 1.10 统一渲染架构的推出开启了通用计算大时代 • 1.19 GPGPU架构,以A100为例 • 1.2 始于图形处理设备 • 1.11 从简单到越来越复杂的流水线 • 1.20 Fermi是第一个完整的GPU计算架构 • 1.3 浮点计算能力与可编程性结合 • 1.12 光线追踪时代开启 • 1.21 通用算力提升是英伟达GPU架构演进的重点之一 • 1.4 GPU发展三大方向 • 1.13 光线追踪算法要求的计算量巨大 • 1.22 多方面构建的高壁垒 • 1.5 英传达显卡发展历程 • 1.14 走向新场景的GPGPU • 1.23 人才与研发投入,以英伟达为例 • 1.6 GeForceRTX40系列,时代最强 • 1.15 GPU与GPGPU的对比 • 1.24 国外厂商多年间构筑了庞大的专利池 • 1.7 英特尔的核显 • 1.16 GPGPU与CPU的对比 • 1.25 英伟达全栈布局构筑强大生态 • 1.8 核显与独显性能对比 • 1.17 并行计算发展的核心 • 1.26 走向异构,海外厂商横向布局不断 • 1.9 图形流水线是GPU工作的通用模型 • 1.18 SIMT,主流GPU的系统架构核心 02 产业化路径显现,全球AI竞赛再加速 03 全维智能化大时代,国产算力行则必至 04 建议关注 05 产业相关 06 风险提示 1.1什么是GPU 图形处理器(graphicsprocessingunit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。 NVIDIA公司在1999年发布GeForce256图形处理芯片时首先提出GPU的概念。从此NVIDIA显卡的芯片就用这个新名字GPU来称呼。GPU使显卡削减了对CPU的依赖,并执行部分原本CPU的工作,尤其是在3D图形处理时。 SOC中的GPU模块 GPU与显卡 资料来源:痞