热门搜索：

电子：如何看待算力芯片与服务器的弹性？

电子设备2023-03-31莫文宇信达证券缠***

如何看待AI算力芯片与服务器的弹性？ 2023年3月31日证券研究报告如何看待AI算力芯片与服务器的弹性？ 2023年3月31日行业点评行业专题研究（普通）电子本期内容提要: Transformer模型是参数量可以无限增长的通用模型，可以处理长序列的输入、输出。Transformer模型是一种基于自注意力机制的深度看好上次评级看好投资评级学习模型，相较于传统AI模型如循环神经网络（RNN）和卷积神经网络（CNN），它在处理序列数据时具有更高的并行性和可扩展性。其中，自注意力机制使得模型能够捕捉序列中长距离依赖关系，同时避免了RNN中的梯度消失或爆炸问题。Transformer模型的参数量之所以会随着数据量和任务复杂度无限增长，是因为它可以通过堆叠更多的层或增加隐藏层宽度来提高模型性能，从而适应更复杂的数据和莫文宇电子行业首席分析师执业编号：S1500522090001 联系电话：13437172818 邮箱：mowenyu@cindasc.com 任务；在传统CNN/RNN模型中，增加网络参数量会提高模型的拟合能力，但过多的参数容易导致过拟合现象。因此，长期来看大模型领域或许会出现没有上限的“军备竞赛”。韩字杰联系人邮箱：hanzijie@cindasc.com 训练：根据英伟达测算，在4096颗A100GPU互联的情况下，训练10000亿参数的模型约需要3-4周时间，而在4096颗H100GPU互联的情况下，时间约需要1周左右。考虑到1周是研发阶段可承受的周期，因此我们认为4000颗左右H100将是一个大型云计算企业每年支持30-50个5000亿参数模型项目训练所需要的芯片数量。考虑到目前大模型参数量已经步入万亿级别，芯片需求量可能会继续上升。若以英伟达HGXH100-8计算集群为单位（1024NvidiaH100GPUs），总共需要4-8个计算集群，考虑到售价为4900万美金/集群，则单个支持GPT训练的云计算中心至少投入1.96-3.92亿美金用于服务器的购买。 推理：相比训练，模型的部署是更大的市场。我们认为应用对于服务器的最大承载能力要求在于过峰，即满足PCU时刻的访问需求。根据Statista，Steam2021年月活用户约为1.32亿人左右，而Steam公布服务器最高访问人数截至2021年12月31日为2738万人，最高817万人同时在线进行游戏。因此我们合理推断一款被高强度访问的应用，最高在线人数约为月活用户的6.19%-20.74%。假设在国内8亿用户体量下，最高并发访问人数可高达4952万人-16592万人。根据10DGXH100服务器一秒内可支持300用户的并发访问，若响应时长延缓至5秒及以上，最高可支持1000人以上的并发访问。据此测算，国内由AI带动的服务器需求量约为5万台-16.6万台，芯片为50-166万颗。假设全球活跃用户体量为国内用户体量的3倍，则全球服务器需求量为15-50万台，芯片需求量为150-500万颗。 投资建议：ChatGPT的快速渗透侧面反映出大模型在通用任务上所展现的强大能力，也为人工智能产业未来的投资指引了方向。在AIGC驱动新一轮产业革命的趋势下，我们认为AI算力产业链上下游均有投资机会。 建议关注：海光信息、寒武纪-U、龙芯中科、澜起科技、工业富联、紫光国微、中芯国际、华虹半导体、华大九天、概伦电子、芯原股份、兴森科技、通富微电、华正新材、方邦股份、长电科技、海康威视、大华股份、晶晨股份、瑞芯微、全志科技。信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区闹市口大街9号院1号楼邮编：100031 风险提示：技术迭代不及预期；制裁风险；本文对服务器、芯片需求量等测算是基于一定前提假设，存在假设条件不成立、市场发展不及预期等因素导致测算结果偏差。目录训练与部署：我们如何测算AI芯片及服务器的弹性4 训练：迈入万亿参数时代，千卡互联、超级计算是大势所趋4 部署：强AI助手有望实现大规模渗透，服务器市场注入新活力6 投资建议：趋势确立，下注未来7 风险因素9 表目录表1：汽车及细分行业近年销量增速情况（%）5 图目录图1：传统NLP模型存在梯度下降/爆炸问题，无法解决长序列的处理4 图2：英伟达H100训练卡对LLM的训练时长函数曲线5 图3：2022Q4全球云计算服务商市场份额6 图4：英伟达10DGXH100瞬时支持的300人的并发访问7 图5：英伟达过去5个季度收入构成（百万美元）7 图6：全球服务器市场产值及出货量预测7 训练与部署：我们如何测算AI芯片及服务器的弹性训练：迈入万亿参数时代，千卡互联、超级计算是大势所趋 Transformer模型是参数量可以无限增长的通用模型，可以处理长序列的输入、输出。 Transformer模型是一种基于自注意力机制的深度学习模型，相较于传统AI模型如循环神经网络（RNN）和卷积神经网络（CNN），它在处理序列数据时具有更高的并行性和可扩展性。其中，自注意力机制使得模型能够捕捉序列中长距离依赖关系，同时避免了RNN中的梯度消失或爆炸问题。Transformer模型的参数量之所以会随着数据量和任务复杂度无限增长，是因为它可以通过堆叠更多的层或增加隐藏层宽度来提高模型性能，从而适应更复杂的数据和任务；在传统CNN/RNN模型中，增加网络参数量会提高模型的拟合能力，但过多的参数容易导致过拟合现象。这意味着模型可能在训练集上表现良好，但在测试集或实际应用中的泛化能力较差。图1：传统NLP模型存在梯度下降/爆炸问题，无法解决长序列的处理资料来源：AttentionIsAllYouNeed（AshishVaswani等），信达证券研发中心训练的过程就是不断调整参数矩阵的过程，参数矩阵体量越大，消耗的数据和算力越多。 AI模型的训练可以理解为一个根据输入数据（如文字、图像、声音等）进行预测的过程。在这个过程中，模型通过不断调整其内部参数，试图让预测结果尽可能接近真实的目标。参数矩阵是AI模型中用于存储权重和偏置的矩阵。权重和偏置是模型的关键参数，它们在模型的训练过程中被不断更新，以使模型在训练数据上获得更好的预测性能。在训练过程中，每次迭代时，模型都会通过计算损失函数（衡量模型预测值与真实值之间的差距）的梯度，然后根据这个梯度调整参数矩阵中的数值，使损失函数最小化。对参数矩阵的操作主要包括以下几个方面： 初始化：在训练开始时，参数矩阵中的权重和偏置通常会被随机初始化，这样可以保证模型从一个比较广泛的参数空间开始学习。 前向传播：根据输入数据和当前参数矩阵，模型计算输出预测值。这个过程中涉及到矩阵乘法和激活函数等操作。 反向传播：计算损失函数关于参数矩阵的梯度，这个梯度表示了损失函数在当前参数下的变化方向和程度。 更新参数：根据梯度和设定的学习率，调整参数矩阵中的数值。这个过程通常使用优化算法（如随机梯度下降、Adam等）完成。通过反复进行以上操作，AI模型在训练过程中不断调整参数矩阵，以提高在训练数据上的预测性能。表1：汽车及细分行业近年销量增速情况（%） ModelName nparams nlayers dmodel nheads dhead BatchSize LearningRate GPT-3Small 125M 12 768 12 64 0.5M 6.0×10-4 GPT-3Medium 350M 24 1024 16 64 0.5M 3.0×10-4 GPT-3Large 760M 24 1536 16 96 0.5M 2.5×10-4 GPT-3XL 1.3B 24 2048 24 128 1M 2.0×10-4 GPT-32.7B 2.7B 32 2560 32 80 1M 1.6×10-4 GPT-36.7B 6.7B 32 4096 32 128 2M 1.2×10-4 GPT-313B 13.0B 40 5140 40 128 2M 1.0×10-4 GPT-3175B 175.0B 96 12288 96 128 3.2M 0.6×10-4 资料来源：LanguageModelsareFew-ShotLearners（TomB.Brown等），信达证券研发中心根据英伟达测算，在4096颗A100GPU互联的情况下，训练10000亿参数的模型约需要3-4周时间，而在4096颗H100GPU互联的情况下，时间约需要1周左右。考虑到1周是研发阶段可承受的周期，因此我们认为4000颗左右H100将是一个大型云计算企业每年支持30-50个5000亿参数模型项目训练所需要的芯片数量。考虑到目前大模型参数量已经步入万亿级别，芯片需求量可能会继续上升。图2：英伟达H100训练卡对LLM的训练时长函数曲线资料来源：COLFAX，信达证券研发中心若以英伟达HGXH100-8计算集群为单位（1024NvidiaH100GPUs），总共需要4-8个左右集群，考虑到售价为4900万美金/集群，则单个支持GPT训练的云计算中心至少投入1.96-3.92亿美金用于服务器的购买。图3：2022Q4全球云计算服务商市场份额其他 IBM 阿里云谷歌云微软云亚马逊云资料来源：CRN，信达证券研发中心部署：强AI助手有望实现大规模渗透，服务器市场注入新活力部署即将大模型应用到服务器端，向消费者提供服务的过程，要讨论部署对服务器市场的拉动，我们必须先理清三个名词的含义和他们之间的对应关系： 活跃用户数量：指的是在任意一个时间段内活跃的用户总数，这个数字可以反映一个网站或应用的流行程度。若这个时间段以月为单位，则称为月活用户数量（MonthlyActiveUsers，简称MAU）。 最高并发访问人数（PeakConcurrentUsers，简称PCU）：表示在某一特定时刻，服务器能够同时承载的最大访问人数。这个指标可以用来衡量服务器的处理能力和承载压力。 服务器压力（ServerLoad）：指的是服务器在处理用户请求时所承受的负荷，它通常受到并发访问人数、请求处理速度、网络带宽等多种因素的影响。服务器压力过大可能导致服务器性能下降、访问速度减缓甚至宕机。维持合理的服务器压力对于保障用户体验至关重要。对于服务器的需求数量来说，它取决于最高并发访问时的服务器压力，而最高访问数量又与活跃用户数量挂钩，但远小于总用户体量。月活用户数量（MAU）和服务器最高并发访问人数（PCU）之间的相关关系确实存在，但这两者并非完全线性关系。尽管月活用户数量能够反映一个网站或应用的流行程度，但并发访问人数受到很多其他因素的影响，例如用户访问行为、访问时间段以及地域分布等。根据Statista，Steam2021年月活用户约为1.32亿人左右，而Steam公布服务器最高访问人数截至2021年12月31日为2738万人，最高817万人同时在线进行游戏。因此我们合理推断一款被高强度访问的应用，最高在线人数约为月活用户的6.19%-20.74%。假设在国内8亿用户体量下，最高并发访问人数可高达4952万人-16592万人。根据10DGXH100服务器一秒内可支持300用户的并发访问，若响应时长延缓至5秒及以上，最高可支持1000人以上的并发访问。据此测算，国内由AI带动的服务器需求量约为5万台- 16.6万台，芯片为50-166万颗。假设全球活跃用户体量为国内用户体量的3倍，则全球服务器需求量为15-50万台，芯片需求量为150-500万颗。图4：英伟达10DGXH100瞬时支持的300人的并发访问资料来源：Nvidia官网，NVIDIAH100CustomerDeck，信达证券研发中心投资建议：趋势确立，下注未来回顾英伟达业绩，可以看出在宏观经济、美国加息等因素影响下，英伟达下游的虚拟货币需求受到影响，主要体现在游戏

点击免费查看完整报告

你可能感兴趣

电子：如何看待算力芯片与服务器的弹性？

你可能感兴趣

电子行业：如何看待AI算力芯片与服务器的弹性？

算力芯片及AI服务器专题：AI的iPhone时刻到来，电子的AI机遇兴起

软件与服务行业研究：美芯片禁令下国产算力服务器的结构性机会

电子行业深度报告：AI系列深度，ChatGPT掀起算力潮，芯片及服务器上游投资价值凸显

电子行业深度报告：AI系列深度：ChatGPT掀起算力潮，芯片及服务器上游投资价值凸显