华西计算机团队 2023年3月8日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 证券研究报告|行业深度研究报告 ChatGPT:加速计算服务器时代到来 AIGC行业深度报告(5) 核心逻辑: 大模型出现有望带动AI服务器需求爆发 我们认为ChatGPT具备跨时代的意义的本质是AI算法大模型,因此科技巨头已经开始算力“军备赛”,大模型的出现有望带动AI服务器需求爆发。服务器架构随负载量扩张不断优化,已经经历传统单一部署与集群模式,目前正处于分布式模式的转变阶段。CPU、内部存储和外部存储是服务器的核心部件。 加速计算是服务器成长的核心驱动力 按照CPU指令集架构的差异,服务器可分为CISC(复杂指令集)、RISC(精简指令集)、VLIM等架构,代表架构为X86。人工智能应用场景下的加速计算服务器是中国服务器的核心驱动力,AI服务器相较于通用服务器区别在于硬件架构、加速卡数量与设计方面;我们认为AI服务器众芯片组为服务器的核心,且价值成本占比较高。 算力时代到来,服务器价值再次凸显 我们认为服务器是“伴科技类”的硬件产品,随着科技的服务形式和应用方式不断进步,服务器同样在不断迭代升级或更新换代,近年来随着互联网+、云计算、AI+、边缘计算的出现,服务器市场迎来了极大的发展;根据IDC的数据显示,国家计算力指数与GDP/数字经济的走势呈现出了显著的正相关,而AI服务器作为算力载体为数字经济时代提供广阔动力源泉,更加凸显其重要性。 投资建议: 关注两条投资主线: 1)AI服务器生产商,重点推荐中科曙光,其他受益标的为浪潮信息、拓维信息、神州数码; 2)具备算力芯片的厂商,受益标的为寒武纪、海光信息、龙芯中科、景嘉微。 风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。 目录 01AI服务器需求呈现加速状态 02拥抱AI服务器的星辰大海 03投资建议:梳理AIGC相关受益厂商 04风险提示 01AI服务器需求呈现加速状态 大模型是人工智能发展的必然趋势:大模型即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。 大模型是辅助式人工智能向通用性人工智能转变的坚实底座:大模型增强了人工智能的泛化性、通用性,生产水平得到质的飞跃,过去分散化模型研发下,单一AI应用场景需要多个模型支撑,每个模型需要算法开发、数据处理、模型训练、参数调优等过程。大模型实现了标准化AI研发范式,即简单方式规模化生产,具有“预训练+精调”等功能,显著降低AI开发门槛,即“低成本”和“高效率”。 算力是打造大模型生态的必备基础,服务器是算力的载体:算力是训练大模型的底层动力源泉,一个优秀的算力底座在大模型(AI算法)的训练和推理具备效率优势;服务器是算力的底层载体,包含CPU、GPU、内存、硬盘、网卡等,在ChatGPT中具有举足轻重的作用,算力是服务器通过对数据进行处理后实现结果输出的一种能力。 数据、平台、算力、算法关系示意图 我们认为大模型的出现有望带动AI服务器需求:我们认为除了对低延迟低功耗算力的性能需求,在服务器的种类上也产生了多样化、细分化的场景应用需求。各行业与人工智能技术的深度结合及应用场景的不断成熟与落地,使人工智能芯片朝着多元化的方向发展,为了迎合芯片的多元化,服务器的类型也将越来越丰富,并适用越来越多的行业应用场景。根据IDC的数据,在2021年的统计,预计到2025年中国加速服务器市场规模将达到108.6亿美元,且2023年仍处于中高速增长期,增长率约为20%。 AI大模型对算力的需求分别来自训练和推理两个环节。1)训练环节:通过标记过的数据来训练出一个复杂的神经网络模型,使其能够适应特定的功能,模型具有一定的通用性,以便完成各种各样的学习任务。该环节需要处理海量的数据,注重绝对的计算能力。2)推理环节:利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。该环节对算力要求比训练环节略低,但注重综合指标,单位能耗算力、时延、成本等都要考虑。 2021-2025年中国服务器市场规模及增速(亿美元)AI大模型对于算力(服务器)的需求 服务器价值凸显:计算机的一种,它比普通计算机运行更快、负载更高、价格更贵,主要用于在网络中为其它客户机提供计算或者应用服务。服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。服务器一般具备承担响应服务请求、承担服务、保障服务的能力。其内部的结构与普通的计算机相差不大,主要包括如:CPU、硬盘、内存,系统、系统总线等,但相较于PC端需考虑几方面,例如可拓展性、易使用性、可用性和易管理性。 服务器架构随负载量扩张而不断优化:服务器架构经历了从传统单一模式到集群模式,再到分布式架构的优化过程。传统单一模式,服务器诞生初期将所有功能汇集在同一个系统,缺点为不便于维护、横向拓展性不佳;因此集群模式诞生,这种集群模式将同一项目放在多个服务器上,有效缓解用户访问量大的压力,但由于各个服务器间功能重复却缺乏协同,系统维护成本仍然较高,且增加了用户重复登陆问题,因此服务器架构进化到分布式模式。在分布式架构中,整个系统按照不同功能拆分为多个单一功能的子模块,每个模块被放到不同服务器中相互协作,共同组成服务器网络,能够有效解决功能耦合度高等问题且代码复用性高。 服务器架构演变过程示意图 服务器的组成:服务器主要由主板、内存、CPU、磁盘、网卡、显卡、电源、主机箱等硬件设备组成;其中CPU、内部存储和外部存储是组成核心部件。 CPU处理器:负责整个服务器的运算与控制,相当于人的大脑,是直接影响到服务器性能的核心部件。单台服务器可由多个CPU组成,一般服务器CPU个数多为2-4颗,也可有单颗的;虚拟化主机CPU有4-8颗的。CPU越多服务器性能越高。CPU的核 数一般都是四核。 内部存储:是CPU和硬盘之间的缓冲设备,是临时存储器(作用是临时存放数据),程序在运行的时候,都会调度到内存中运行,服务器关闭或程序关闭之后数据将自动从内存中释放掉。 外部存储:永久存放数据的存储器,其中常用的硬盘有300GB, 500GB,1TB,3TB,4TB等。硬盘类型分机械硬盘,固态硬盘 两种。 硬件成本构成:我们认为,以一台通用服务器为例,CPU(主板或芯片组)占比最高,大约占成本50%以上,内存(内部存储 +外部存储)占比约为20%。 H3CUniServerR4900G5服务器硬件结构拆解 编号 名称 编号 名称 3 中置GPU模块 12 内存 5、6 网卡 13 主板 7 Riser卡 18 电源模块 8 GPU卡 23 硬盘 9 存储控制卡 25 超级电容 10 CPU 27 加密模块 12 内存 28 系统电池 H3CUniServerR4900G5服务器硬件结构注释 服务器按照机箱结构可分为:塔式服务器、机架式服务器、机柜式服务器、刀片式服务器。 塔式服务器:采用台式机箱结构,常见的入门级和工作组级服务器基本上都采用这一服务器结构类型。优点:对放置空间要求较小,拓展性高,应用范围广泛,成本较低;缺点:升级扩张有限,独立性强; 机架式服务器:设计宗旨主要是为了尽可能减少服务器空间的占用,例如专业网络设备。优点:比塔式服务器对空间的要求更小。可扩 展性强,扩展操作便利;缺点:拓展和散热受到一定限制,因此无法实现完美的设备扩张,单机性能有限; 机柜式服务器:应用于企业端,内部设备较多或不同设备单元放置在一个机柜中。优点:功能模块与支撑模块彻底分离,可靠高效。灵活架构,允许网络、计算、存储有机共存、维护简便,缺点:投入成本较高、能耗高、内部拓展性有限。 刀片式服务器:专为特殊应用行业和高密度计算机环境而生,每一片“刀片”即模板,类似独立服务器,在集群模式下,具备高速网络 环境、资源共享等领域,广泛应用于数码媒体、医学、航天、军事等领域,性能较高,可实现轻松替换且便于维护,但是价格成本较高。 塔式服务器示意图机架式服务器示意图刀片式服务器示意图机柜式服务器 伴随应用需求不断扩张,不同架构服务器百花齐放:按照CPU指令集架构的差异,服务器可分为CISC、RISC、VLIM等架构。 CISC(复杂指令集):庞大复杂的指令数目,常见CISC微指令集主要集中在:AMD、Intel、VIA等IA-32、X86架构的CPU产品;优点在于能够有效缩短新指令的微代码设计时间,允许设计师实现CISC体系机器的向上相容,指令丰富且功能强大,而缺点指令使用率不均衡、不利于采用先进结构提高性能等。 RISC(精简指令集):对指令数目和寻址方式都做了精简。包含了简单、基本的指令,透过这些简单、基本的指令,就可以组合成复杂指令,常见RISC微指令集主要集中在:DECAlpha、ARC、ARM、AVR、MIPS、PA-RISC、PowerPC、RISC-V中,优点在于指令执行效率高,原因是90%指令由硬件直接完成,10%的指令是由软件以组合的方式完成;缺点在于指令数较少,功能不及CISC强大。 VLIM(超长指令集架构):采用多个独立的功能部件,指令调度是由编译器静态调度完成,因此指令可同时流出数目越大,超长指令的性能就明显;优点在于结构简单且价格低廉,缺点在于编译器负担较重,且需要更多内存,目前微处理器有Intel的IA-64和AMD的x86-64。 CISC与RISC比较 芯片根据指令集分类 1 CISC RISC 指令系 统 指令系统丰富,有专用指令来完成特定的功能,处理特殊任务效率较高、指令长度不同 保留简单高效的常用指令,复杂指令通过简单指令组合实现特殊功能效率低,可通过流水技术弥补,指令长度相同 存储操作 存储器操作指令多,可直接操作内存和寄存器,数据流控制复杂 对存储器操作有限制,运算基本都限于寄存器间,控制简单。 程序 汇编语言程序编程相对简单,科学计算及复杂操作的程序设计相对容易,效率较高 汇编语言程序一般需要较大的内存空间,实现特殊功能时程序复杂 指令执行时间 很多复杂指令都通过CPU内的微码来完成,微码比较复杂的指令需要多个时钟周期才能完成,指令不等长周期增加了指令流水线优化的难度 大部分的指令都可以在一个时钟周期内完成降低了指令流水线设计的复杂度 中断 CISC计算机是在一条指令执行结束后响应中断 RISC计算机在一条指令执行的适当地方可以响应中断,但是相比CISC指令执行的时间短,所以中断响应及时 CPU CPU包含有丰富的电路单元,因而功能强、面积大、功耗大 CPU包含有较少的单元电路,因而面积小、功耗低 设计周期 CISC微处理器结构复杂,设计周期长,采用微程序可适当降低复杂性 RISC微处理器结构简单,布局紧凑,设计周期短,且易于采用最新技术 X86架构服务器仍占绝对优势,ARM架构服务器潜力巨大:根据市场应用占比把服务器分为X86服务器和非X86服务器,目前使用X86架构的服务器CPU仍然占据绝对优势。根据芯八哥数据,按照2021年统计数据,X86架构市场占比高达97%,ARM占比仅为2.07%,PowerBI占比为0.27%,但以ARM为代表的RISC结构近年来增长迅猛,尤其国内诞生了以华为海思、阿里平头哥为代表芯片企业。 X86和ARM各具优势:ARM体积小、低功耗、低成本、执行更加高效、指令长度固定,然而在性能上不及X86,如果ARM要在性能上接近X86,就需要极高的频率,从而带来较高