战略科技(计算机) 行业研究/行业周报 详解大模型训练与推理对算力产业链的需求影响 报告日期:2023-3-26 行业评级:增持 主要观点: 类chatGPT大模型带来的算力增长,毋庸置疑。但算力的需求, 行业指数与沪深300走势比较 分析师:尹沿技 执业证书号:S0010520020001邮箱:yinyj@hazq.com 分析师:王奇珏 执业证书号:S0010522060002 邮箱:wangqj@hazq.com 联系人:张旭光 执业证书号:S0010121090040 邮箱:zhangxg@hazq.com 相关报告 1.《华安证券_行业研究_计算机行业周报_数字中国建设规划发布;实体清单再扩容进一步刺激自主可控》2023-3-5 2.《华安证券_行业研究_计算机行业周报_数据局拉动数据要素发展;文心一言发布关注应用端机会》2023-3-12 3.《华安证券_行业研究_计算机行业周报_巨头AIGC瞄准办公场景,文心与chatgpt试用汇报》2023-3-19 不止局限于模型的投资初期。随着GPTAPI的开放、下游应用多模态的成熟,对于的大模型的推理算力需求进一步提升。也即,在模型不断更迭训练中,算力需求提升;在模型应用推理中,算力需求进一步提升。由此,整个算力需求一如互联网时期的流量需求,持续爆发。 整个大模型的算力需求包括训练端与推理端。本文计算的不是金额,而是潜在的对于以英伟达GPU为代表的芯片需求。由此对应,产业链需求。 训练端算力需求,与模型参数、训练数据集规模正相关 在训练端,算力的需求=2×#ofconnections×3×#oftrainingexamples×#ofepochs。(资料来源:EstimatingTrainingComputeofDeepLearningModels(epochai.org)) 其中: #ofconnections,是指神经网络中,相互依赖的神经元数量。举例在一个完全链接的神经网络中,N层输入与M层输出,则#ofconnections=N*M。通常parameters可以近似于#ofconnections。#oftrainingexamples,数据集数量; #ofepoch,是指训练数据集上的完全通过次数。 另一端,算力的供给=trainingtime×#ofGPUs/TPUs×peakFLOP/s×utilizationrate。 Trainingtime计算时间; Utilizationrate使用效率。 在这个公式中,通常使用英伟达A100FP32的数据,也即19.5TFLOPS。Utiliazationrate通常使用效率,对于大模型而言,是0.3;对于其他模型为0.4。在极端理论数据下,utilizationrate=1。我们在报导中看到的数据,GPT3若使用V100需要训练355gpu年,就是建立在理论数据下,以V100理论算力28TFLOPS计算的(直接将FP32的理论算力14TFLOPS乘以2,以得到FP16的理论算力)。若使用RTX8000,假设15TFLOPS,将花费665GPU年(资料来源:OpenAI'sGPT-3LanguageModel:ATechnicalOverview(lambdalabs.com))。由此计算的GPT3的训练算力,整体达到3.14E23FLOPS。 若仍然以V100就算,若要将训练一次的周期降低至1周内,则需要2万片V100GPU。 由此公式可以看到,促进训练端算力需求增长的因素包括: 1)参数规模。也即随着GPT3向更多参数的GPT4、5等发展; 2)训练集规模。 3)投入大模型的企业增长。国内包括华为、百度、阿里巴巴、腾讯、字节等互联网巨头以及更多加入大模型研发的企业。 未来的训练端算力需求,是上述三大因素的乘积。 推理端算力需求,与模型参数数量、平均序列长度、并发需求量正相关 而推理部分算力需求,根据GPT3的回复: 推理算力=模型大小*推演批次大小*平均序列长度*推演速度。 (注:理论数值,其中并发请求数量、模型架构、输入数据等,均可能为影响因素)其中,平均序列长度,随着GPT从简单文字交流,向多模态发展,对于推理算力需求大幅提升。(资料来源:来自GPT3回复) 于其对于响应速度,相比训练而言,要求高得多(通常用户能接受的响应时间,在几秒之内),因此所需要的并发GPU算力相应提升。 进一步,多模态之下,图片、视频生成需求的提升,在公式中将会增加平均序列长度。同时随着并发需求的增长,整个推理算力需求大幅提升。 逻辑推演之下,chatgpt应用进一步丰富,在推理端的算力需求持续提升,或将远远超过训练阶段的算力需求。 由此来看,整个算力产业链将是chatgpt投资逻辑最顺的产业链条。 建议关注AI芯片(包括GPU、TPU、FPGA)相关标的:海光信息、寒武纪、景嘉微。 对应而言,单台服务器可插多张显卡,同时数据量的增长,对于数据存储也带来巨大寻求,服务器、存储因此受益。建议关注相关标的:浪潮信息、中科曙光、紫光股份、工业富联、联想集团、神州数码。 进一步,以A100功耗达到400w;单服务器插入8张A100计算。单服务器功耗达到3200w。由此对散热产生巨大需求。风冷、液冷技术,有助于帮助解决散热问题,建议关注:英维克(计算机、机械联合覆盖)、依米康、佳力图、网宿科技。 风险提示 1)疫情反复降低企业信息化支出; 2)财政与货币政策低于预期; 3)供应链波动加大,影响科技产业发展。 正文目录 1科技观点每周荟(上)5 2市场行情回顾(上)8 2.1计算机板块表现8 2.2计算机个股表现9 3科技软件行业重要新闻10 3.1EDA与科学仪器10 3.2工业互联网10 3.3网络安全10 3.4金融科技11 4科技软件重点公司动态13 4.1行业信息化13 4.2工业软件14 4.3汽车智能化15 4.4网络安全15 4.5云计算16 4.6金融科技17 4.7人工智能18 风险提示19 图表目录 图表1算力测算示意图6 图表2计算机重点公司估值表7 图表3本周各类指数行情统计8 图表4本周各行业涨跌幅统计8 图表5本周计算机个股涨跌幅统计9 图表6本周陆港通持股情况统计9 1科技观点每周荟(上) 类chatGPT大模型带来的算力增长,毋庸置疑。但算力的需求,不止局限于模型的投资初期。随着GPTAPI的开放、下游应用多模态的成熟,对于的大模型的推理算力需求进一步提升。也即,在模型不断更迭训练中,算力需求提升;在模型应用推理中,算力需求进一步提升。由此,整个算力需求一如互联网时期的流量需求,持续爆发。 整个大模型的算力需求包括训练端与推理端。本文计算的不是金额,而是潜在的对于以英伟达GPU为代表的芯片需求。由此对应,产业链需求。 训练端算力需求,与模型参数、训练数据集规模正相关。 在训练端,算力的需求=2×#ofconnections×3×#oftrainingexamples×#ofepochs。(资料来源:EstimatingTrainingComputeofDeepLearningModels(epochai.org)) 其中: #ofconnections,是指神经网络中,相互依赖的神经元数量。举例在一个完全链接的神经网络中,N层输入与M层输出,则#ofconnections=N*M。通常parameters可以近似于#ofconnections。 #oftrainingexamples,数据集数量; #ofepoch,是指训练数据集上的完全通过次数。 另一端,算力的供给=trainingtime×#ofGPUs/TPUs×peakFLOP/s× utilizationrate。 Trainingtime计算时间; Utilizationrate使用效率。 在这个公式中,通常使用英伟达A100FP32的数据,也即19.5TFLOPS。Utiliazationrate通常使用效率,对于大模型而言,是0.3;对于其他模型为0.4。在极端理论数据下,utilizationrate=1。我们在报导中看到的数据,GPT3若使用V100需要训练355gpu年,就是建立在理论数据下,以V100理论算力28TFLOPS计算的(直接将FP32的理论算力14TFLOPS乘以2,以得到FP16的理论算力)。若使用RTX8000,假设15TFLOPS,将花费665GPU年(资料来源:OpenAI'sGPT-3LanguageModel:ATechnicalOverview(lambdalabs.com))。由此计算的GPT3的训练算力,整体达到3.14E23FLOPS。 图表1算力测算示意图 资料来源:华安证券研究所整理 若仍然以V100就算,若要将训练一次的周期降低至1周内,则需要2万片 V100GPU。由此公式可以看到,促进训练端算力需求增长的因素包括: 1)参数规模。也即随着GPT3向更多参数的GPT4、5等发展; 2)训练集规模。 3)投入大模型的企业增长。国内包括华为、百度、阿里巴巴、腾讯、字节等互联网巨头以及更多加入大模型研发的企业。 未来的训练端算力需求,是上述三大因素的乘积。 推理端算力需求,与模型参数数量、平均序列长度、并发需求量正相关。而推理部分算力需求,根据GPT3的回复: 推理算力=模型大小*推演批次大小*平均序列长度*推演速度。 (注:理论数值,其中并发请求数量、模型架构、输入数据等,均可能为影响因素)其中,平均序列长度,随着GPT从简单文字交流,向多模态发展,对于推理算力需求大幅提升。(资料来源:来自GPT3回复) 于其对于响应速度,相比训练而言,要求高得多(通常用户能接受的响应时间,在几秒之内),因此所需要的并发GPU算力相应提升。 进一步,多模态之下,图片、视频生成需求的提升,在公式中将会增加平均序列长度。同时随着并发需求的增长,整个推理算力需求大幅提升。 逻辑推演之下,chatgpt应用进一步丰富,在推理端的算力需求持续提升,或将远远超过训练阶段的算力需求。 由此来看,整个算力产业链将是chatgpt投资逻辑最顺的产业链条。建议关注 AI芯片(包括GPU、TPU、FPGA)相关标的:海光信息、寒武纪、景嘉微。 对应而言,单台服务器可插多张显卡,同时数据量的增长,对于数据存储也带来巨大寻求,服务器、存储因此受益。建议关注相关标的:浪潮信息、中科曙光、紫光股份、工业富联、联想集团、神州数码。 进一步,以A100功耗达到400w;单服务器插入8张A100计算。单服务器功耗达到3200w。由此对散热产生巨大需求。风冷、液冷技术,有助于帮助解决散热问题,建议关注:英维克(计算机、机械联合覆盖)、依米康、佳力图、网宿科技。 图表2计算机重点公司估值表 细分行业 证券代码公司名称 总市值 (亿元) 收入(亿元) 归母净利润(亿元) P/E 2021 2022E2023E 2021 2022E2023E20212022E2023E 人工智能 002230.SZ科大讯飞880183.14242.25316.3915.5621.4029.2789.5141.1330.07 002236.SZ大华股份385328.35391.38484.8133.7845.5059.9718.028.456.41 688686.SH奥普特1898.7512.2216.573.034.025.5695.3146.9533.94 688088.SH虹软科技1035.736.9610.321.411.652.1971.1462.6047.16 688696.SH极米科技14440.3857.9179.294.836.779.51102.6821.2215.10 600728.SH佳都科技9962.2479.0298.173.145.948.3515