GPU:算力的核心硬件,海外绝对垄断。根据Verified Market Research数据,2021年全球GPU市场规模为334.7亿美金,预计到2030年将达到4473.7亿美金,期间CAGR 33.3%。全球GPU市场目前被海外企业垄断,根据Jon Peddie Research数据,2022年四季度PC GPU中,英特尔/英伟达/AMD份额分别为71%/17%/12%;2022Q4独立GPU中,英特尔/英伟达/AMD份额分别为6%/85%/9%,全球范围内GPU市场呈现出海外三巨头垄断局面。 LLM模型带动算力需求。LLM模型的训练需要大量的计算资源和海量的文本数据,因此需要使用分布式计算和大规模数据处理技术。例如,GPT-3模型拥有约1750亿参考量,这使得GPT-3拥有其他较少参考量模型来说更高的准确性:仅需少量的样本训练就能够接近于BETR模型使用大量样本训练后的效果。但同时,如果以英伟达旗舰级GPU产品A100对GPT-3进行训练,1024块A100卡需要耗费超过1个月(大于30天),则我们可以按比例计算出,如果需要单日完成训练,需要的A100数量将超过30000块。我们认为,LLM模型无论在性能还是在学习能力上,相较于其他模型都具备明显优势,未来或将成为行业趋势,同时大规模的训练模型与之对应的便是庞大的算力需求。 服务器:GPU市场的重要增长动力。服务器中GPU由于其具有最强的计算能力同时具备深度学习等能力,目前成为服务器中加速芯片的首选。AI服务器中GPU单品类硬件价值量占比较高:我们以Nvidia DGX A100为例,通过计算我们发现其GPU价值量占比约为48.24%。根据TrendForce数据,截止2022年全球搭载GPGPU的AI服务器出货量占整体服务器比重约1%,同时TrendForce预测2023年伴随AI相关应用加持,年出货量增速达到8%,2022~2026年CAGR为10.8%。 我们假设训练AI服务器和推理AI服务器的比例为1:4,计算得到2023/2026年训练服务器的数量大约为3.60/5.00万台。同时假设推理AI服务器和训练AI服务器使用的GPU数量分别为4张和8张,算出2023年和2026年全球AI服务器领域所需GPU数量约为86.4万张和120万张,以A100约1.20w美金的价格作为参考计算出2023年和2026年AI服务器所需GPU的价值分别为103.7亿美元和144.0亿美元。 硬件国产化迫在眉睫!2022年8月,美国政府通知英伟达,其需要获得许可才能够向中国和俄罗斯出口任何基于最新架构的A100 GPU或DGX/HGX等系统,同时该项规定也同时适用于最新发布的H100 GPU或者实现类似功能的产品。国内公司百度旗下大模型ERNIE 3.0 Titan参数量达到2600亿,高于GPT-3的1750亿,其所需的同规格GPU数量将远大于GPT-3,根据比例我们可以计算出在相同时间下(超过一个月)ERNIE 3.0 Titan所需A100数量约为1522块。同时我们认为,未来AI倘若进入大模型时代,相关算力需求将快速增加,届时对于国产高算力GPU需求将进一步提升,所以说GPU国产化进程迫在眉睫。 优秀国产GPU公司不断涌现。目前包括景嘉微、沐曦集成电路、壁仞科技、摩尔线程在内一批优秀的国产GPU公司不断涌现,通过对比我们发现:在单精度浮点运算性能(FP32)算力中,国内外厂商均处于TFLOPS量级,海外龙头英伟达和AMD旗舰信号H100 SXM和MI250x分别实现FP32算力67 TFLOPS和47.9 TFLOPS。国内摩尔线程最高FP32算力产品MTT S3000,算力为15.2 TFLOPS; 壁仞科技壁砺™100P产品最高实现240 TFLOPS的FP32算力;芯动科技“风华1号”产品实现FP32算力5 TFLOPS。通过对比我们发现在大部分情况下国产GPGPU相较于海外旗舰款仍存在差距。 标的推荐:景嘉微、寒武纪、芯原股份、海光信息。 风险提示:下游需求不及预期,国产化进程不及预期,测算误差风险。 一、GPU:始于图形,不止于图形 1.1GPU——算力核心硬件 GPU用途由图形处理拓展至计算。GPU是图形处理器的简称,它是一种专门用于处理图形、视频、游戏等高性能计算的硬件设备。GPU相对于传统的中央处理器(CPU)而言,其拥有更多的计算核心和更快的内存带宽,能够大幅度提高计算效率和图形渲染速度。现阶段,随着例如英伟达A100、H100等型号产品的发布,GPU在算力方面的优势相较于其他硬件具有较大优势,GPU的工作也从一开始的图形处理逐步转化为计算。 根据用途和性能表现,GPU可以分为专业卡和消费级卡两类:专业卡通常用于工程、科学、医学等领域的高性能计算和大规模数据处理,主要厂商包括英伟达、AMD等;消费级卡则主要用于普通家庭和游戏玩家,主要厂商包括英伟达、AMD、英特尔等。 图表1:英伟达专业GPU:A100(ForHGX) 图表2:英伟达消费级GPU:GeForceRTX 4090 根据芯片不同,GPU又可分为独立GPU和集成GPU:其中独立GPU表示具有自己的处理器、存储器以及电源,可以独立于计算机主板的独立芯片;集成GPU是一种内置于CPU芯片中的图形处理器。二者区别主要在于性能和功能,独立GPU性能通常更为强大,可以处理较为复杂的图形、计算任务;集成GPU性能通常低于独立GPU,但其优势在于低功耗以及小型化设计,更加适合笔记本电脑、平板电脑等小型设备。 图表3:独立GPU和集成GPU 目前GPU在硬件中拥有最高的算力,成为最适合支撑人工智能训练和学习的硬件,我们认为其原因主要在于: 更多处理单元:GPU相比于CPU等其他硬件有更多的处理单元(核心数更多),因此可以并行处理更多的数据。主要系GPU最初是为了图形渲染而设计的,而图形渲染涉及的计算是高度并行化的。这种并行化的特性使GPU非常适合进行机器学习和深度学习这样的大规模数据并行计算。 具有更高的内存带宽和更大的内存容量:在进行深度学习等计算时,需要大量的内存和高速的内存带宽来存储和处理海量数据。GPU相比于其他硬件(如CPU),具有更高的内存带宽和更大的内存容量,可以更有效地存储和处理数据,从而提高计算速度。 具有专门的计算单元:相较于其他硬件,GPU具有例如张量核心和矩阵乘法等计算单元,可以更快地执行常见的机器学习和深度学习操作:如卷积和矩阵乘法。这些计算单元与通用计算单元相比,具有更高的效率和更快的速度。 图表5:GPU在训练速度上具有绝对优势(注:CPU选择英特尔至强Gold 图表4:GPU具有更多处理单元 GPGPU——为计算而生。GPGPU全称是“general-purpose computing on graphics processing units”,简称“通用图形处理单元”,其主要利用GPU的功能来执行CPU的任务,虽然在设计初期是为了更好地图形处理,但是多内核多通道的设计使其非常适合科学计算,发展至今GPGPU也成为了专为计算而设计的硬件。 图表6:GPGPU架构 多领域驱动,GPU千亿美金市场拉开序幕。GPU市场规模的大小取决于多种因素:其中游戏和娱乐市场一直是GPU市场的主要驱动力,因为这些领域需要高性能的GPU来支持更高质量的游戏画面和娱乐内容。同时人工智能和机器学习的发展对GPU市场也有着巨大的影响,因为这些技术需要大量的计算能力,而GPU可以提供比CPU更高的效率。此外,科学和研究领域的需求以及新兴市场(如游戏机和数据中心)也对GPU市场的规模产生了影响。根据VerifiedMarketResearch数据,2021年全球GPU市场规模为334.7亿美金,预计到2030年将达到4473.7亿美金,期间CAGR 33.3%。 图表7:CPU全球市场规模及复合增速(亿美金,%) 1.2需求端——大模型算力需求激增 LLM模型带动算力需求: 算力是指计算机系统能够完成的计算任务量,通常用来描述计算机的处理能力。算力的单位通常采用FLOPS(Floating Point Operations PerSecond)表示每秒钟能够完成的浮点运算或指令数,例如一台计算机每秒钟可以完成10亿次浮点运算,那么它的FLOPS值就是10 GFLOPS(10 Giga FLOPS)。目前我们以全球龙头英伟达在2020年发布的A100产品为例,根据英伟达官方介绍,A100的理论浮点运算性能可以达到19.5 TFLOPS(19.5 TeraFLOPS),即每秒195万亿次浮点运算。 图表8:算力数量级前缀及说明 图表9:世界范围内最快的超级计算机算力演变过程(GFLOPS) 站在“智能革命”起点。我们回顾历史,人类社会目前经历了三次重大的产业变革:蒸汽时代、电气时代、信息时代,其分别对应了18世纪60年代末期英国人詹姆斯·瓦特制造的第一代具有实用价值的蒸汽机、美国在19世界60年代实现电力的广泛应用,以及电灯被发明、1946年美国制造出人类第一台二进制计算机。我们认为,每一次的产业革命都具有几个共通点,首先均有标志性的产品面世,其次持续时间较长以及对于世界发展影响深远。2022年11月,ChatGPT的发布让世界看到了无限的可能性,我们认为这仅仅只是“智能革命”的起点,未来或将呈现出各行业各接纳人工智能,人工智能助推世界发展的景象。 图表10:历史上经历的重大产业革命 深度学习对算力要求大幅提升。人工智能通过模拟和延展人类及自然智能的功能,拓展机器的能力边界,使其能部分或全面地实现类人的感知(如视觉、语音)、认知功能(如自然语言理解),或获得建模和解决问题的能力(如机器学习等方法)。人工智能实现方法之一为机器学习,而深度学习是用来实现机器学习的技术,通常可分为“训练”和“推理”两个阶段。训练阶段:需要基于大量的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期,核心在于算力;推理阶段:训练结束后,建立的人工智能模型可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),这个过程为推理阶段,对单个任务的计算能力不及训练,但总计算量也相当可观。 图表11:人工智能、机器学习与深度学习的关系 图表12:深度学习的训练和推理阶段 大型语言模型(Large Language Model,简称LLM)是一种使用深度学习算法处理、理解自然语言的基础学习模型。LLM基于数亿到数千亿个参数的神经网络,通过训练数据学习自然语言的规律和模式,并能够生成高质量的自然语言文本。这些模型的训练需要大量的计算资源和海量的文本数据,因此需要使用分布式计算和大规模数据处理技术。 目前,LLM模型能够在例如语音识别、文本摘要、智能翻译等领域中实际应用,但是LLM模型大规模应用目前仍然存在一些挑战和限制:需要大量的训练数据和计算资源,很难处理语言的多样性和不确定性。 图表13:全球范围内LLM模型爆炸增长 GPT-3开启大模型时代。GPT-3是由OpenAI研发的一种基于深度学习的自然语言处理模型,其使用了大量的语料库进行预训练,使其能够理解语言的规则和模式,并生成与输入文本相关的自然语言文本,GPT-3的主要特点是它具有大规模的预训练模型,而同时大规模的训练模型与之对应的便是庞大的算力需求,根据OpenAI团队成员2020年发表的论文《Language Models areFew-Shot Learners》,GPT-3模型拥有约1750亿参考量,这使得GPT-3拥有其他较少参考量模型来说更高的准确性。同时基于1750亿参数的模型仅需少量的样本训练,就能够接近于BETR模型使用大量样本训练后的效果。我们认为,大模型无论在性能还是在学习能力上,相较于其他模型都具备明显优势,未来或将成为行业趋势。 图表14:参数提升对于模型整体改善显著 图表15:GPT-3仅需32条样本即可达到其他模型相同训练效果 伴