您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业专题报告:大模型推理算力知多少? - 发现报告

计算机行业专题报告:大模型推理算力知多少?

计算机行业专题报告:大模型推理算力知多少?

Transformer生成为访存密集型任务,显存及其带宽限制算力利用。 Transformer作为自回归模型,生成每一个新的token,都需要将所有输入过的token反复计算,实际产业中,会将已经计算过的量(K、V值)预存下来,避免重复计算,导致每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer模型在生成过程中对访存的需求更高。目前全球最先进AI芯片的计算速度“远快于”显存带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs的需求,更重要的瓶颈在于访存。 目前的优化手段主要是在算力成本与用户体验之间做平衡。实践中有大量优化技术以克服GPU利用率低的问题,但存在一定取舍,总结而言,在不做模型精简的情况下,GPU利用率与时延难以同时兼顾。而做参数量化、模型蒸馏等模型精简看似可以做到“兼顾”,但却舍弃了模型本身的效果。我们认为,高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。 支撑GPT-3.5推理任务的A100数量或至少在5万张左右。根据我们测算,若以GPT-3.5当前的流量情况以及token生成速度,大约需要5万张左右的A100才能承载推理。而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4若想要解开限制等因素,推理算力的需求或为长期高景气,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。 英伟达L40s开启降本第一步,应用有望加速落地。L40s在特定场景下性价比超越A100,供货周期较短。我们认为,L40s的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。在千亿级甚至以上参数的超大模型训练与推理方面,A/H系列仍具有不可代替的能力,L40s的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的A/H系列芯片又仍将需求旺盛。 投资建议:见正文 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 1推理算力成本高企,大模型应用落地受钳制 1.1Transformer生成为访存密集型任务,显存带宽是产业发展瓶颈 Transformer是自回归模型,推理过程中涉及多轮重复计算。根据Openai的《Scaling Laws for Neural Language Models》,Transformer模型针对每一个输入token做一次前向计算所需的算力与模型参数成正比。而Transformer作为自回归模型,生成每一个新的token,都需要将所有输入过的token反复计算,若不做任何形式的优化,算力消耗极高。实际产业中,会将已经计算过的量预存下来,避免重复计算,具体流程如下。 图1.大模型针对每一个token进行一次前向计算所需算力公式 假设一个问答过程,输入为「你是谁?」经过预处理变成4个token,最终输出为「吴彦祖」,自回归解码流程如下: 「你是谁?」这4个token会在Transformer计算时记录下CacheKV的信息,最终通过Sampling阶段采样出来第一个token为「吴」; 模型将token“吴"对应的CacheKV信息存储下来并拼接上所有的历史CacheKV信息进行计算,最后采样出来下一个token为「彦」; 「彦」传回来作为输入再次执行,自己的输出作为自己的输入,不断回归迭代,就是「自回归」,同样在While处判断需要继续生成,计算和拼接CacheKV信息并采样出下一个token为「祖」; 最后在把「祖」作为输入生成下个token为「gEnd」,「gEnd」用来标识生成结束,While循环检测到「gEnd」生成结束,就会退出循环,本次生成推理过程结束。 图2.自回归生成过程 相比计算,Transformer模型在生成过程中对访存的需求更高。正是由于推理阶段需要预存KV等信息以及自回归模型本身生成模式,每生成一个token,都需要与显存进行数据交互(访存),导致相比计算,Transformer模型在生成过程中对访存的需求更高。以GPT-3为例,输入与输出分别为1000和250,若针对单个请求,所需访存量是计算量的5倍,Transformer模型生成是访存密集型任务。 图3.以GPT-3为例生成阶段计算量与访存量需求 目前全球最先进AI芯片的计算速度“远快于”显存带宽。从英伟达各类芯片本身的“计算访存能力比”来看,对于Transformer模型生成这类访存密集型任务,决定生成速度的不是芯片的强项FLOPS能力,而是显存的带宽。我们认为,针对大模型推理这类访存密集型任务,对其算力需求的估计,不能单单考虑其FLOPs的需求,更重要的瓶颈在于显存带宽。 图4.英伟达各类芯片“计算访存比” 1.2平衡的两端:算力成本vs用户体验 实践中通过大量优化技术提升GPU的低利用率。为了解决推理中GPU利用率低、成本高的弊端,产业提出了较多优化方案,在逻辑上将优化方案分为三类: 第一类优化是模型精简类,即在模型真正执行之前就对模型的计算量进行精简,从而提升推理速度。这部分业界常见的优化方向包括参数量化、减枝、蒸馏和NAS(Neural Architecture Search,找到最贴合场景的神经网络模块并组合)等。 第二类和第三类则分别是算子融合与单算子优化,主要作用是在模型已经交由推理引擎在GPU上执行时,提升GPU的利用效率。 除此之外,还有诸如KernelFusion、Flashattention、Inflightbatching、Streaminference等针对LLM模型推理的技术。我们认为,模型精简的方式虽然能显著降低计算量,但也会对模型本身的效果造成影响,而其他优化技术亦存在一定瓶颈。 图5.AI推理常用加速手段 增大BatchSize(并发量),芯片算力的利用率与时延此消彼长。以推理参数量为175B的GPT-3为例,使用8卡A100(显存为80G),输入与输出token数分别为128和8,随着Batchsize(并发量)的增加,可以显著看到QPS(Queries-per-second,每秒可承受并发量)的增加,但时延(平均每个请求完成时间)亦显著提升。以Batchsize为16时为例,生成8个token所需的时间为0.833秒,如果简单线性外推,则生成一篇1000个token的长文,需要近2分钟。同时,由于需要对中间计算量(KV信息等)进行预存,受到显存限制,BatchSize也不能无限增大。我们认为,提升并发量,虽然可以显著提升任务并发数,但也会提升每个请求时延(具体到应用则是每个用户感受到的生成用时),这将影响用户体验。 图6.增大BatchSize对QPS与时延影响 考虑算力成本,GPT-4选择直接限流。以GPT-4为例,在算力成本与响应速度之间,OpenAI选择直接限制GPT-4一定时间内回答问题数量(每3个小时,GPT-4只能回答25个问题)。我们认为,高昂的推理算力成本是阻碍以GPT为代表的LLM模型应用大规模落地的重要原因之一,后续随着算力性价比不断提升,大模型应用发展前景广阔。 图7.GPT-4限制其流量 图8.高昂算力成本限制应用落地 2英伟达L40s开启算力降本第一步,静待花开 2.1FLOPS视角下,或大幅低估算力需求 简单套用推理算力需求公式,或造成芯片需求量的估算存在较多问题。根据上文的实例数据(图6),直接使用“2*参数量*token数/芯片峰值算力=芯片需求数量”(所需计算量公式为图1中公式,除以单个芯片的算力,则得出芯片需求数量)估算推理算力需求,将造成大幅低估。我们分析认为,原因主要是没有考虑到显存带宽的不足对推理速度的限制,进而造成GPU计算单元的利用率较低。同时,根据上文(图3),推理实际上涉及两个阶段,首先是将输入进行Encode(Context阶段),然后进入重复多次(while循环)的Generation过程,两个阶段的所需计算量与输入输出的大小与比值相关。我们认为,Tranformer模型结构复杂,且种类繁多,或难以准确计算出实际的算力消耗与需求,但从OpenAI论文给出的计算方式出发,至少应该考虑显存带宽等影响,在计算GPU芯片需求数量时,考虑“算力利用率”。 图9.简单套用推理算力需求公式计算存在较多问题 支撑GPT-3.5推理任务的A100数量或至少在5万张左右。考虑百度智能云在运用了一系列优化手段后的“算力利用率”情况以及对应的生成速度,根据我们测算,若将上述提到的“算力利用率”纳入考虑,即使在较低精度下,以GPT-3.5当前的流量情况以及token生成速度,大约需要5万张左右的A100才能承载推理。 而如果再考虑到:1.当前全球流量最高的网站月活水平;2.更高的精度以发挥更好的模型效果;3.GPT-4若想要解开限制等因素,推理算力的需求或为长期高景气的,同时当前高昂的成本是阻碍应用大规模落地的主要因素之一。 图10.GPT-3.5所需推理卡数量测算 2.2英伟达L40s开启降本第一步,应用有望加速落地 L40s在特定场景下性价比超越A100,供货周期较短。在GPT-40B模型微调方面,2*4张L40s表现是8张A100的1.7倍,在图像生成方面2*4张L40s表现是8张A100的1.2倍。同时相比漫长等待周期的A/H芯片,L40s可更快到货。我们认为,L40s的发布首先将为英伟达及其算力产业链相关企业带来更快的实际业绩受益,而非难以交付的“高增长订单”。同时,非超大型模型端的降本有望加速应用(或尤其图像领域)大规模落地。 图11.L40s与A100中小模型训练对比 图12.L40s与A100图像生成领域能力对比 L40s定位与A/H系列无冲突。从L40s的产品规格上看,其显存、带宽、互联接口相比A/H仍有差距。我们认为,在千亿级甚至以上参数的超大模型训练与推理方面,A/H系列仍具有不可代替的能力,L40s的发布既填补了一部分腰部客户需求,但以科技巨头需求为主的A/H系列芯片又仍将需求旺盛。 图13.英伟达L40s产品规格 3投资建议 AI大模型赋能下游应用,C端标准化工具类产品有望率先享受产业红利,建议关注金山办公、万兴科技、同花顺、科大讯飞、福昕软件等。 AI在B端加速落地,具备细分行业数据与客户资源卡位的企业有望优先受益,建议关注恒生电子、拓尔思、税友股份等。 算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:浪潮信息、中科曙光、优刻得、紫光股份、海光信息、寒武纪、拓维信息、神州数码以及在向量数据库及垂直大模型领域有技术优势的星环科技等。 4风险提示 AI技术迭代不及预期的风险:若AI技术迭代不及预期,NLP模型优化受限,则相关产业发展进度会受到影响。 商业化落地不及预期的风险:ChatGPT盈利模式尚处于探索阶段,后续商业化落地进展有待观察。 政策支持不及预期风险:新行业新技术的推广需要政策支持,存在政策支持不及预期风险。 全球宏观经济风险:垂直领域公司与下游经济情况相关,存在全球宏观经济风险。