您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:电子:如何看待算力芯片与服务器的弹性? - 发现报告
当前位置:首页/行业研究/报告详情/

电子:如何看待算力芯片与服务器的弹性?

电子设备2023-03-31莫文宇信达证券缠***
电子:如何看待算力芯片与服务器的弹性?

如何看待AI算力芯片与服务器的弹性? 2023年3月31日 证券研究报告 如何看待AI算力芯片与服务器的弹性? 2023年3月31日 行业点评 行业专题研究(普通) 电子 本期内容提要: Transformer模型是参数量可以无限增长的通用模型,可以处理长序 列的输入、输出。Transformer模型是一种基于自注意力机制的深度 看好 上次评级 看好 投资评级 学习模型,相较于传统AI模型如循环神经网络(RNN)和卷积神经网络(CNN),它在处理序列数据时具有更高的并行性和可扩展性。其中,自注意力机制使得模型能够捕捉序列中长距离依赖关系,同时避免了RNN中的梯度消失或爆炸问题。Transformer模型的参数量之所以会随着数据量和任务复杂度无限增长,是因为它可以通过堆叠更 多的层或增加隐藏层宽度来提高模型性能,从而适应更复杂的数据和 莫文宇电子行业首席分析师 执业编号:S1500522090001 联系电话:13437172818 邮箱:mowenyu@cindasc.com 任务;在传统CNN/RNN模型中,增加网络参数量会提高模型的拟合能力,但过多的参数容易导致过拟合现象。因此,长期来看大模型领域或许会出现没有上限的“军备竞赛”。 韩字杰联系人 邮箱:hanzijie@cindasc.com 训练:根据英伟达测算,在4096颗A100GPU互联的情况下,训练10000亿参数的模型约需要3-4周时间,而在4096颗H100GPU互联的情况下,时间约需要1周左右。考虑到1周是研发阶段可承受的周期,因此我们认为4000颗左右H100将是一个大型云计算企业每年支持30-50个5000亿参数模型项目训练所需要的芯片数量。考虑到目前大模型参数量已经步入万亿级别,芯片需求量可能会继续上升。若以英伟达HGXH100-8计算集群为单位(1024NvidiaH100GPUs),总共需要4-8个计算集群,考虑到售价为4900万美金/集群,则单个支持GPT训练的云计算中心至少投入1.96-3.92亿美金用于服务器的购买。 推理:相比训练,模型的部署是更大的市场。我们认为应用对于服务器的最大承载能力要求在于过峰,即满足PCU时刻的访问需求。根据Statista,Steam2021年月活用户约为1.32亿人左右,而Steam公布服务器最高访问人数截至2021年12月31日为2738万人,最高817万人同时在线进行游戏。因此我们合理推断一款被高强度访问的应用,最高在线人数约为月活用户的6.19%-20.74%。假设在国内8亿用户体量下,最高并发访问人数可高达4952万人-16592万人。根据10DGXH100服务器一秒内可支持300用户的并发访问,若响应时长延缓至5秒及以上,最高可支持1000人以上的并发访问。据此测算,国内由AI带动的服务器需求量约为5万台-16.6万台,芯片为50-166万颗。假设全球活跃用户体量为国内用户体量的3倍,则全球服务器需求量为15-50万台,芯片需求量为150-500万颗。 投资建议:ChatGPT的快速渗透侧面反映出大模型在通用任务上所展现的强大能力,也为人工智能产业未来的投资指引了方向。在AIGC驱动新一轮产业革命的趋势下,我们认为AI算力产业链上下游均有投资机会。 建议关注:海光信息、寒武纪-U、龙芯中科、澜起科技、工业富联、紫光国微、中芯国际、华虹半导体、华大九天、概伦电子、芯原股份、兴森科技、通富微电、华正新材、方邦股份、长电科技、海康威视、大华股份、晶晨股份、瑞芯微、全志科技。 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区闹市口大街9号院1号楼邮编:100031 风险提示:技术迭代不及预期;制裁风险;本文对服务器、芯片需求量等测算是基于一定前提假设,存在假设条件不成立、市场发展不及预期等因素导致测算结果偏差。 目录 训练与部署:我们如何测算AI芯片及服务器的弹性4 训练:迈入万亿参数时代,千卡互联、超级计算是大势所趋4 部署:强AI助手有望实现大规模渗透,服务器市场注入新活力6 投资建议:趋势确立,下注未来7 风险因素9 表目录 表1:汽车及细分行业近年销量增速情况(%)5 图目录 图1:传统NLP模型存在梯度下降/爆炸问题,无法解决长序列的处理4 图2:英伟达H100训练卡对LLM的训练时长函数曲线5 图3:2022Q4全球云计算服务商市场份额6 图4:英伟达10DGXH100瞬时支持的300人的并发访问7 图5:英伟达过去5个季度收入构成(百万美元)7 图6:全球服务器市场产值及出货量预测7 训练与部署:我们如何测算AI芯片及服务器的弹性 训练:迈入万亿参数时代,千卡互联、超级计算是大势所趋 Transformer模型是参数量可以无限增长的通用模型,可以处理长序列的输入、输出。 Transformer模型是一种基于自注意力机制的深度学习模型,相较于传统AI模型如循环神经网络(RNN)和卷积神经网络(CNN),它在处理序列数据时具有更高的并行性和可扩展性。其中,自注意力机制使得模型能够捕捉序列中长距离依赖关系,同时避免了RNN中的梯度消失或爆炸问题。Transformer模型的参数量之所以会随着数据量和任务复杂度无限增长,是因为它可以通过堆叠更多的层或增加隐藏层宽度来提高模型性能,从而适应更复杂的数据和任务;在传统CNN/RNN模型中,增加网络参数量会提高模型的拟合能力,但过多的参数容易导致过拟合现象。这意味着模型可能在训练集上表现良好,但在测试集或实际应用中的泛化能力较差。 图1:传统NLP模型存在梯度下降/爆炸问题,无法解决长序列的处理 资料来源:AttentionIsAllYouNeed(AshishVaswani等),信达证券研发中心 训练的过程就是不断调整参数矩阵的过程,参数矩阵体量越大,消耗的数据和算力越多。 AI模型的训练可以理解为一个根据输入数据(如文字、图像、声音等)进行预测的过程。在这个过程中,模型通过不断调整其内部参数,试图让预测结果尽可能接近真实的目标。参数矩阵是AI模型中用于存储权重和偏置的矩阵。权重和偏置是模型的关键参数,它们在模型的训练过程中被不断更新,以使模型在训练数据上获得更好的预测性能。在训练过程中,每次迭代时,模型都会通过计算损失函数(衡量模型预测值与真实值之间的差距)的 梯度,然后根据这个梯度调整参数矩阵中的数值,使损失函数最小化。对参数矩阵的操作主要包括以下几个方面: 初始化:在训练开始时,参数矩阵中的权重和偏置通常会被随机初始化,这样可以保 证模型从一个比较广泛的参数空间开始学习。 前向传播:根据输入数据和当前参数矩阵,模型计算输出预测值。这个过程中涉及到矩阵乘法和激活函数等操作。 反向传播:计算损失函数关于参数矩阵的梯度,这个梯度表示了损失函数在当前参数下的变化方向和程度。 更新参数:根据梯度和设定的学习率,调整参数矩阵中的数值。这个过程通常使用优化算法(如随机梯度下降、Adam等)完成。 通过反复进行以上操作,AI模型在训练过程中不断调整参数矩阵,以提高在训练数据上的预测性能。 表1:汽车及细分行业近年销量增速情况(%) ModelName nparams nlayers dmodel nheads dhead BatchSize LearningRate GPT-3Small 125M 12 768 12 64 0.5M 6.0×10-4 GPT-3Medium 350M 24 1024 16 64 0.5M 3.0×10-4 GPT-3Large 760M 24 1536 16 96 0.5M 2.5×10-4 GPT-3XL 1.3B 24 2048 24 128 1M 2.0×10-4 GPT-32.7B 2.7B 32 2560 32 80 1M 1.6×10-4 GPT-36.7B 6.7B 32 4096 32 128 2M 1.2×10-4 GPT-313B 13.0B 40 5140 40 128 2M 1.0×10-4 GPT-3175B 175.0B 96 12288 96 128 3.2M 0.6×10-4 资料来源:LanguageModelsareFew-ShotLearners(TomB.Brown等),信达证券研发中心 根据英伟达测算,在4096颗A100GPU互联的情况下,训练10000亿参数的模型约需要3-4周时间,而在4096颗H100GPU互联的情况下,时间约需要1周左右。考虑到1周是研发阶段可承受的周期,因此我们认为4000颗左右H100将是一个大型云计算企业每年支持30-50个5000亿参数模型项目训练所需要的芯片数量。考虑到目前大模型参数量已经步入万亿级别,芯片需求量可能会继续上升。 图2:英伟达H100训练卡对LLM的训练时长函数曲线 资料来源:COLFAX,信达证券研发中心 若以英伟达HGXH100-8计算集群为单位(1024NvidiaH100GPUs),总共需要4-8个左右集群,考虑到售价为4900万美金/集群,则单个支持GPT训练的云计算中心至少投入1.96-3.92亿美金用于服务器的购买。 图3:2022Q4全球云计算服务商市场份额 其他 IBM 阿里云 谷歌云 微软云 亚马逊云 资料来源:CRN,信达证券研发中心 部署:强AI助手有望实现大规模渗透,服务器市场注入新活力 部署即将大模型应用到服务器端,向消费者提供服务的过程,要讨论部署对服务器市场的拉动,我们必须先理清三个名词的含义和他们之间的对应关系: 活跃用户数量:指的是在任意一个时间段内活跃的用户总数,这个数字可以反映一个 网站或应用的流行程度。若这个时间段以月为单位,则称为月活用户数量(MonthlyActiveUsers,简称MAU)。 最高并发访问人数(PeakConcurrentUsers,简称PCU):表示在某一特定时刻, 服务器能够同时承载的最大访问人数。这个指标可以用来衡量服务器的处理能力和承载压力。 服务器压力(ServerLoad):指的是服务器在处理用户请求时所承受的负荷,它通常 受到并发访问人数、请求处理速度、网络带宽等多种因素的影响。服务器压力过大可能导致服务器性能下降、访问速度减缓甚至宕机。维持合理的服务器压力对于保障用户体验至关重要。 对于服务器的需求数量来说,它取决于最高并发访问时的服务器压力,而最高访问数量又与活跃用户数量挂钩,但远小于总用户体量。月活用户数量(MAU)和服务器最高并发访问人数(PCU)之间的相关关系确实存在,但这两者并非完全线性关系。尽管月活用户数量能够反映一个网站或应用的流行程度,但并发访问人数受到很多其他因素的影响,例如用户访问行为、访问时间段以及地域分布等。 根据Statista,Steam2021年月活用户约为1.32亿人左右,而Steam公布服务器最高访问人数截至2021年12月31日为2738万人,最高817万人同时在线进行游戏。因此我们合理推断一款被高强度访问的应用,最高在线人数约为月活用户的6.19%-20.74%。假设在国内8亿用户体量下,最高并发访问人数可高达4952万人-16592万人。根据10DGXH100服务器一秒内可支持300用户的并发访问,若响应时长延缓至5秒及以上,最 高可支持1000人以上的并发访问。据此测算,国内由AI带动的服务器需求量约为5万台- 16.6万台,芯片为50-166万颗。假设全球活跃用户体量为国内用户体量的3倍,则全球服务器需求量为15-50万台,芯片需求量为150-500万颗。 图4:英伟达10DGXH100瞬时支持的300人的并发访问 资料来源:Nvidia官网,NVIDIAH100CustomerDeck,信达证券研发中心 投资建议:趋势确立,下注未来 回顾英伟达业绩,可以看出在宏观经济、美国加息等因素影响下,英伟达下游的虚拟货币需求受到影响,主要体现在游戏