您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:AIGC行业深度报告(6):ChatGPT:存算一体,算力的下一极 - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC行业深度报告(6):ChatGPT:存算一体,算力的下一极

信息技术2023-04-04刘泽晶华西证券市***
AIGC行业深度报告(6):ChatGPT:存算一体,算力的下一极

华西计算机团队 2023年4月4日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 仅供机构投资者使用证券研究报告|行业深度研究报告 ChatGPT:存算一体,算力的下一极 AIGC行业深度报告(6) 核心逻辑: ChatGPT开启大模型“军备赛”,存储作为计算机重要组成部分明显受益:ChatGPT开启算力军备赛,大模型参数呈现指数规模,引爆海量算力需求,模型计算量增长速度远超人工智能硬件算力增长速度,同时也对数据传输速度提出了更高的要求。XPU、内存、硬盘组成完整的冯诺依曼体系,以一台通用服务器为例,芯片组+存储的成本约占70%以上,芯片组、内部存储和外部存储是组成核心部件;存储是计算机的重要组成结构,“内存”实为硬盘与CPU之间的中间人,存储可按照介质分类为ROM和RAM两部分。 存算一体,后摩尔时代的必然发展:过去二十年中,算力发展速度远超存储,“存储墙”成为加速学习时代下的一代挑战,原因是在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰。因此存算一体有望打破冯诺依曼架构,是后摩时代下的必然选择,存算一体即数据存储与计算融合在同一个芯片的同一片区之中,极其适用于大数据量大规模并行的应用场景。存算一体优势显著,被誉为AI芯片的“全能战士”,具有高能耗、低成本、高算力等优势;存算一体按照计算方式分为数字计算和模拟计算,应用场景较为广泛,SRAM、RRAM有望成为云端存算一体主流介质。 存算一体前景广阔、渐入佳境:存算一体需求旺盛,有望推动下一阶段的人工智能发展,原因是我们认为现在存算一体主要AI的算力需求、并行计算、神经网络计算等;大模型兴起,存算一体适用于从云至端各类计算,端测方面,人工智能更在意及时响应,即“输入”即“输出”,目前存算一体已经可以完成高精度计算;云端方面,随着大模型的横空出世,参数方面已经达到上亿级别,存算一体有望成为新一代算力因素;存算一体适用于人工智能各个场景,如穿戴设备、移动终端、智能驾驶、数据中心等。我们认为存算一体为下一代技术趋势并有望广泛应用于人工智能神经网络相关应用、感存算一体,多模态的人工智能计算、类脑计算等场景。 投资建议:关注四条投资主线:1)具备算力能力的厂商,受益标的为:首都在线、中科曙光、拓维信息、神州数码、浪潮信息、寒武纪、海光信息、龙芯中科、景嘉微;2)具备存储芯片能力的厂商,受益标的为:东芯股份、兆易创新、北京君正、澜起科技、聚辰股份、普冉股份;3)具备存储模组能力的厂商,受益标的为:江波龙、佰维存储、德明利;4)与存储相关的其他厂商,受益标的为:中科曙光、易华录、同有科技、恒烁股份。 风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。 目录 01存算一体,开启算力新篇章 02存算一体,打开海量应用空间 03投资建议:梳理AIGC相关受益厂商 04风险提示 01存算一体,开启算力新篇章 ChatGPT开启算力军备赛:我们已经在《ChatGPT:百度文心一言畅想》中证明数据、平台、算力是打造大模型生态的必备基础,且算力是训练大模型的底层动力源泉,一个优秀的算力底座在大模型(AI算法)的训练和推理具备效率优势;同时,我们在《ChatGPT打响AI算力“军备战”》中证明算力是AI技术角逐“入场券”,其中AI服务器、AI芯片等为核心产品;此外,我们还在《ChatGPT,英伟达DGX引爆AI“核聚变”》中证明以英伟达为代表的科技公司正在快速补足全球AI算力需求,为大模型增添必备“燃料”。 大模型参数呈现指数规模,引爆海量算力需求:根据财联社和OpenAI数据,ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达万亿级别,因此对算力需求也随之攀升。 大模型参数数量和训练数据规模快速增长近年大模型的参数规模增长趋势 服务器的组成:我们以一台通用服务器为例,服务器主要由主板、内存、芯片组、磁盘、网卡、显卡、电源、主机箱等硬件设备组成;其中芯片组、内部存储和外部存储是组成核心部件。 GPU服务器优势显著:GPU服务器超强的计算功能可应用于海量数据处理方面的运算,如搜索、大数据推荐、智能输入法等,相较于通用服务器,在数据量和计算量方面具有成倍的效率优势。此外,GPU可作为深度学习的训练平台,优势在于1、GPU服务器可直接加速计算服务,亦可直接与外界连接通信;2、GPU服务器和云服务器搭配使用,云服务器为主,GPU服务器负责提供计算平台;3、对象存储COS可以为GPU服务器提供大数据量的云存储服务。 AI服务器芯片组价值成本凸显:以一台通用服务器为例,主板或芯片组占比最高,大约占成本50%以上,内存(内部存储+外部存储)占比约为20%。此外,根据Wind及芯语的数据,AI服务器相较于高性能服务器、基础服务器在芯片组(CPU+GPU)的价格往往更高,AI服务器(训练)芯片组的成本占比高达83%、AI服务器(推理)芯片组占比为50%,远远高于通用服务器芯片组的占比。 H3CUniServerR4900G5服务器硬件结构拆解 编号 名称 编号 名称 3 中置GPU模块 12 内存 5、6 网卡 13 主板 7 Riser卡 18 电源模块 8 GPU卡 23 硬盘 9 存储控制卡 25 超级电容 10 CPU 27 加密模块 12 内存 28 系统电池 H3CUniServerR4900G5服务器硬件结构注释 存储是计算机的重要组成结构:存储器是用来存储程序和数据的部件,对于计算机来说,有了存储器才有记忆功能,才能保证正常工作。存储器按其用途可分为主存储器和辅助存储器,主存储器又称内存储器(简称内存),辅助存储器又称外存储器(简称外存)。 内存:主板上的存储结构,与CPU直接沟通,并用其存储数据的部件,存放当前正在使用的(即执行中)的数据和程序,一旦断电,其中的程序和数据就会丢失; 外存:磁性介质或光盘,像硬盘,软盘,CD等,能长期保存信息,并且不依赖于电力来保存信息。 XPU、内存、硬盘组成完整的冯诺依曼体系:“内存”实为硬盘与CPU之间的中间人,CPU如果直接从硬盘中抓数据,时间会太久。所以“内存”作为中间人,从硬盘里面提取数据,再让CPU直接到内存中拿数据做运算。这样会比直接去硬盘抓数据,快百万倍;CPU里面有一个存储空间Register(寄存器),运算时,CPU会从内存中把数据载入Register,再让Register中存的数字做运算,运算完再将结果存回内存中,因此运算速度Register>内存>硬盘,速度越快,价格越高,容量越低。 数据存储示意图数据存储示意图 存储按照易失性分类:分别为ROM(只读存储器)是ReadOnlyMemory的缩写,RAM(随机存取存储器)是RandomAccessMemory的缩写。 ROM在系统停止供电的时候仍然可以保持数据,而RAM通常都是在掉电之后就丢失数据,典型的RAM就是计算机的内存。 RAM(随机存取存储器)作为内存架构广泛应用于计算机中:是与中央处理器直接交换数据的内部存储器。可以随时读写且速度很快,通常作为操作系统或其他正在运行中的程序的临时资料存储介质。RAM可分为静态SRAM与动态DRAM,SRAM速度非常快,是目前读写最快的存储设备了,但是价格昂贵,所以只在要求很苛刻的地方使用,譬如CPU的一级缓冲,二级缓冲;DRAM保留数据的时间很短,速度也比SRAM慢,不过比任何的ROM都要快,但从价格上来说DRAM相比SRAM要便宜,因此计算机内存大部分为DRAM架构; ROM(只读存储器)作为硬盘介质广泛使用:Flash内存的存储特性相当于硬盘,它结合了ROM和RAM的长处,不仅具备了电子可擦除可编程的性能,还不会断电丢失数据同时可以快速读取数据,近年来Flash已经全面替代传统ROM在嵌入式系统的定位,目前Flash主要有两种NORFlash和NANDFlash。Nand-flash存储器具有容量较大,改写速度快等优点,适用于大量数据的存储,因此被广泛应用在各种存储卡,U盘,SSD,eMMC等等大容量设备中;NOR-Flash则由于特点是芯片内执行,因此应用于众多消费电子领域。 存储分类示意图易失性存储器分类 比较 动态RAM(DRAM) 静态RAM(SRAM) 存储原理 电容存储电荷的方式 触发器的方式 集成度 高 低 芯片引脚 少 多 功耗 小 大 价格 低 高 速度 慢 块 刷新 有 无 算力发展速度远超存储,存储带宽限制计算系统的速度:在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。因此,目前的存储速度严重滞后于处理器的计算速度。能耗方面,从处理单元外的存储器提取所需的时间往往是运算时间的成百上千倍,因此能效非常低;“存储墙”成为加速学习时代下的一代挑战,原因是数据在计算单元和存储单元的频繁移动。 存储墙、带宽墙和功耗墙成为首要限制关键:在传统计算机架构中,存储与计算分离,存储单元服务于计算单元,因此会考虑两者优先级;如今由于海量数据和AI加速时代来临,不得不考虑以最佳的配合方式为数据采集、传输、处理服务,然而存储墙、带宽墙和功耗墙成为首要挑战,虽然多核并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰。 存算一体有望打破冯诺依曼架构,是后摩时代下的必然选择:存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。存内计算和存内逻辑,即存算一体技术优势在于可直接利用存储器进行数据处理或计算,从而把数据存储与计算融合在同一个芯片的同一片区之中,可以彻底消除冯诺依曼计算架构瓶颈,特别适用于深度学习神经网络这种大数据量大规模并行的应用场景。 算力发展速度远超存储器存储墙瓶颈 存算一体概念已有50年历史:早在1969年,斯坦福研究所的Kautz等人提出了存算一体计算机的概念。但受限于当时的芯片制造技术和算力需求的匮乏,那时存算一体仅仅停留在理论研究阶段,并未得到实际应用。然而为了打破冯诺依曼架构,降低“存储-内存-处理单元”过程数据搬移带来的开销,业内广泛采用3D封装技术实现3D堆叠提供更大带宽,但是并没有改变数据存储与数据处理分离的问题; 近年来,存算一体随着人工智能的驱动得到较快发展:随着半导体制造技术突破,以及AI等算力密集的应用场景的崛起,为存算一体技术提供新的制造平台和产业驱动力。2016年,美国加州大学团队提出使用RRAM构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯诺伊曼架构的传统方案,PRIME可以实现功耗降低约20倍、速度提升约50倍;此外,2017年,英伟达、微软、三星等提出存算一体原型;同年起,国产存算一体芯片企业开始“扎堆”入场,例如千芯科技、智芯微、亿铸科技、后摩时代、苹芯科技等。 存算一体发展简史 存算一体优势显著,被誉为AI芯片的“全能战士”其优势如下: 1、成百上千倍的提高计算效率,降低成本:存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗,使用存储单元提升算力; 2、特定领域提供更高算力与能效:存算一体架构消除了计算与存储的界限,直接在存储器内完成计算,因此属于非冯诺伊曼架构,在特定领域可以提供更大算力(1000TOPS以上)和更高能效(超过10-100TOPS/W),明显超越现有ASIC算力芯片; 3、存算一体代表了未来AI计算芯片的主流架构:除AI计算外,存算技术也可用于感存算一体芯片和类脑