Scaling-law仍为基础定律,大模型量级快速扩张。1)7月8日,Anthropic表示,其目前正在开发的人工智能模型的训练成本高达10亿美元,且未来三年内,AI模型的训练成本将上升到100亿美元甚至1000亿美元,引起广泛关注。2)我们认为,大模型训练成本的快速扩张仍然反映了Scaling-law的基础原理,即当增加模型大小、数据集大小以及用于训练的计算量时,语言模型的性能会逐渐提升,且提升效果遵循幂律关系。3)而幂律关系也意味着,增加模型参数量、数据集或计算资源,其边际回报会不断降低。即便如此,Scaling-law仍为当前技术路径下的基础定律,全球各大模型规模持续扩张,GPT4参数量或已到万亿级别,相比GPT3.5提升一个量级。4)我们认为,对Scaling-law的坚持尝试、部分优化,均反映大语言模型仍处于快速发展的过程中,模型参数量、数据量、计算资源的扩张,都将成为推动大模型实现更高知识水平的基石。 大模型进步空间仍大,训练算力成本或超百亿美元。1)在定量的算力估算上,我们参考《Scaling Laws for Neural Language Models》、《Training Compute-Optimal Large Language Models》等大模型领域的代表论文,给出大致测算。2)训练算力需求方面,以单个token所需的计算资源C约等于6N为基础,我们估算,为了达到类似人类的水平,大模型或至少需要11万亿参数、228万亿token数、1.55*10^28次的浮点运算。3)在硬件成本方面,以英伟达B200及H100为主流GPU,在FP8精度下,大约需要投建63亿美元的B200或127亿美元的H100;在FP16精度下,大约需要投建254亿美元的H100。若大模型效果进一步优化,伴随参数量迈向大几十亿或百万亿级别,参考计算量C=6N的类线性关系,其算力成本或达到千亿美元。3)需要指出的是,本测算暂未考虑各类针对算力的优化措施,例如硬件计算效率的不断提升、MoE或已超越Dense架构成为大语言模型的主要选择、TTT等RNN新架构陆续推出等。另一方面,多模态引入了语音、图片、视频等更丰富的输入输出方式,或对大模型的训练提出更高要求。 训练攀升、推理加速,算力或仍是确定性最高的方向之一。1)Scaling-law助推参数量、数据量高速扩张,训练需求仍在攀升;同时,应用广泛开放,临近规模化时刻,推理需求加速释放。近期,全球科技大厂均对2024年资本开支表示乐观。2)我们认为,算力在AIGC大浪潮中的基石地位不言而喻,以英伟达、台积电等为代表的供应商可核心受益,算力或仍是确定性最高的方向之一,产业链共创共赢局面将持续打开。 相关标的: 1)算力侧:寒武纪、浪潮信息、中际旭创、新易盛、工业富联、海光信息、中科曙光、软通动力、协创数据、云赛智联、神州数码、高新发展、利通电子、烽火通信等。 2)AI相关:海康威视、中科创达、立讯精密、鹏鼎控股、金山办公、大华股份、拓尔思、润达医疗、漫步者、云天励飞、虹软科技、昆仑万维、中广天择、同花顺、科大讯飞、万兴科技、用友网络、赛意信息等。 风险提示:AI迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 一、Scaling-law仍为基础定律,大模型量级快速扩张 Anthropic表示,未来三年大模型训练成本或达到百亿、甚至千亿美元,引起广泛关注。 1)7月8日,根据新智元报道,Anthropic在In Good Company播客节目中表示,目前正在开发的人工智能模型的训练成本高达10亿美元。而GPT-4o仅需花费1亿美元。2)Anthropic预计,从现在开始,短短三年内,AI模型的训练成本将上升到100亿美元甚至1000亿美元。3)其中,硬件成本仍为核心,主要包括购置和维护高性能计算设备(如GPU、TPU、CPU集群等)的费用。这些设备是执行大量计算以训练大规模模型所必需的;其次还包括能源消耗、人才资源、数据处理、运维成本等。4)我们认为,训练算力的持续、高速、跃迁式扩张,背后仍反映了Scaling-law的基础定律。 Scaling-law:基于模型参数量、数据集、计算量大小,我们可以预测模型的最终能力。 1)2022年11月,ChatGPT正式发布,大模型基于涌现、在通用能力方面实现质的飞跃。自此以后,各大科技厂商争相追逐基座大模型的性能,技术迭代日新月异。2)《Scaling Laws for Neural Language Models》(Jared Kaplan et al.)目前仍为观察大语言模型效能的代表之作,其表示,当我们增加模型大小、数据集大小以及用于训练的计算量时,语言建模的性能会平稳提升。为了达到最佳性能,这三个因素必须同时扩大规模。 图表1:Scaling-law的核心结论之一 而幂律关系也意味着,增加模型参数量、数据集或计算资源,其边际回报会不断降低。 1)根据论文,对于计算量C、模型参数量N及数据集大小D,当不受其它两个因素制约时,模型性能L与每个因素都呈现幂律关系。2)而幂律关系在数学上则意味着,随着模型大小(参数量)、数据集大小或计算资源的增加,模型性能的提升会逐渐减少,即边际回报递减。换句话说,当我们增加更多的参数或数据时,对性能提升的贡献会越来越少。 图表2:Scaling-law的幂律关系 图表3:不同参数量及数据集大小与模型效能的实验对比 即便如此,目前Scaling-law仍为大模型领域的基础定律。虽然明确表示了边际回报递减的原则,但在当前技术路径下,Scaling-law仍为大模型领域的基础定律。同时,Scaling本身也是一个复杂的过程,现有产学界均希望我们处于“正常的Scaling”时期,而不是已经触碰到Scaling的“能力天花板”。我们认为,对Scaling-law的坚持尝试、部分优化,均反映大语言模型仍处于快速发展的过程中,模型参数量、数据量、计算资源的扩张,都将成为推动大模型实现人类知识水平的基石。 图表4:以数据集大小为例,Scaling-law起效果的三个时期 GPT4参数量或已到万亿级别,相比GPT3.5提升一个量级。根据华尔街见闻报道,GPT4在120层中总共包含了或约1.8万亿参数量,而GPT3只有约为1750亿个参数,规模提升约10倍;同时,GPT4的训练数据集包含13万亿个token,彼时单次训练成本约为6300万美元。 图表5:大语言模型参数量在不断扩张 二、大模型进步空间仍大,训练算力成本或超百亿美元 在定量的算力需求上,我们参考《Scaling Laws for Neural Language Models》(Jared Kaplan et al.)、《Training Compute-Optimal Large Language Models》(Jordan Hoffman et al.)等大模型领域的代表论文,给出大致测算:为了达到人类水平的能力,大模型或需要十万亿级别的参数、百万亿级别的训练token数、以及百亿美元级别的GPU投资成本。若大模型效果进一步优化,伴随参数量迈向百万亿级别,参考计算量C=6N的类线性关系,其算力成本或迈向千亿美元。 1、训练算力需求:达到人类水平或约为11万亿参数、228万亿token数、1.55*10^28浮点运算。 单个token所需的计算资源:C=6N。根据《Scaling Laws for Neural Language Models》(Jared Kaplan et al.),由于大语言模型dmodel≫nctx/12,且考虑后向传递的计算量大约为前向传递的2倍,可以得到C≈6N,即训练每个token的浮点数约为模型参数量的6倍。 图表6:单个token所需训练算力的计算公式 部分大模型的现有训练规模:以千亿参数、3000亿token为主流。根据《Training Compute-Optimal Large Language Models》(Jordan Hoffman et al.),除了LaMDA(Thoppilan等人,2022年),以GPT3为代表的大型稠密模型是针对大约3000亿个令牌进行训练的。 图表7:现有部分大模型的参数量及训练token数 达到人类水平所需的参数量:或至少约为11万亿。根据Stanford大模型课程上的研究,假设Scaling law到时依旧存在,将其向外延申,使模型精确度达到90分以上,模型参数量大约还要增加64倍(基数为1750亿参数),即65*1750亿=11.375万亿。参考从GPT3.5到GPT4的参数量级跃迁,粗略估计,我们或可在GPT5及同等水平模型上看到类似人类的知识水平。 图表8:达到人类水平需要的大语言模型参数量 理论上的最优训练规模:训练Token数约等于20倍的参数量,即228万亿token数。 根据《Chinchilla data-optimal scaling laws: In plain English》(Alan D. Thompson),对于不同大小的模型,为了发挥出模型的最佳效能,其训练的token数量将约等于参数量的20倍。基于11.375万亿的参数量,则token数需要达到11.375*20=228万亿个。 对比现有模型的训练规模,我们认为,伴随数据量的扩张、计算资源的扩充,模型的效能还有很大的提升空间;换言之,由于计算资源的有限性,现有大模型的最佳效能还尚未被发挥。 图表9:大模型理论上的最优训练规模 汇总测算:达到11.375万亿参数量的模型、并发挥出其理论最佳效能,所需的计算资源C约为6*(11.375*10^12)*(20*11.375*10^12)=1.55*10^28FLOPs。 2、硬件成本估算:在FP8精度下,或需要投建63亿美元的B200或127亿美元的H100;在FP16精度下,或需要投建254亿美元的H100。 GPU性能:FP8下,B200为20PFLOPS、H100为8PFLOPS;FP16下,H100约为4PFLOPS。根据英伟达2024年GTC大会报道,FP8精度下,H100 GPU(即Hopper架构)运算能力约为8PFLOPS;B200 GPU(即Blackwell架构)约为20PFLOPS。需要指出的是,当前FP16精度下,H100计算性能约为4PFLOPS。 图表10:Blackwell性能及与Hopper对比 图表11:H100各精度下运算性能 训练周期:90天。考虑技术迭代周期,我们假设一般训练周期约为90天,这一点在英伟达GTC大会上亦有体现,根据新智元报道,要训练一个GPT-MoE架构的1.8万亿参数模型,大约需要2000个Blackwell GPU训练90天。 图表12:GPT-MoE-1.8T训练时间与GPU需求 算力利用率:假设训练11万亿参数级别的模型,算力利用率约为55%。根据英伟达、斯坦福及微软的研究,当参数模型介于17亿至1万亿之间时,其训练的算力利用率从44%到52%不等,且伴随模型规模扩大、算力利用率越高。因此,我们假设训练11万亿参数量的模型,算力利用率约为55%。 图表13:不同参数量模型训练时的算力利用率 所需芯片数量:FP8精度下,18万片B200或45万片H100;FP16精度下,90万片H100。 FP8精度下,所需B200数量约为 1.55*10^28FLOPs/(20*10^15FLOPS)/(90*24*3600s)/55%=18.12万片。 所需H100数量约为 1.55*10^28FLOPs/(8*10^15FLOPS)/(90*24*3600s)/55%=45.30万片。 FP16精度下,所需H100数量约为 1.55*10^28FLOPs/(4*10^15FLOPS)/(90*24*3600s)/55%=90.61万片。 算力投资成本:FP8精度下,63亿美元的B200或