Meta算力需求超预期,全球AI训练算力重估。Meta董事长兼CEO扎克伯格发布24全年算力卡需求指引,Meta将于24年底拥有接近60万颗H100GPU的等效算力,AI算力需求超预期。多模态大模型将拉动AI训练算力需求增长:1)同传统大语言模型的差异点:除文本数据外,需使用大量图像、视频等模态数据进行训练;2)图像训练数据大幅提升训练Token量:以BEIT方法为例,1张图片可以分割为N=HW/P2个2D块(即视为输入的Tokens),若将1张224*224大小的图片分割成16*16大小的2D小块,即单一图片相当于(224*224)/(16*16)=196个Tokens,图片训练素材的加入,拉动训练Token量的大幅增长,进而大幅提升AI训练算力需求;3)视频训练数据大幅提升训练Token量:同图像训练素材相比,视频训练素材增加了时间维度,训练过程更加复杂,产生的训练Token数量更多,对算力需求更大。 SamAltman透露新一代大模型相关进展,模型能力大幅提升。SamAltman展望未来两年,人工智能有望在推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制化和个性化三个领域大幅提升,其认为至少在未来5-10年内,AI大模型技术将处于一个非常陡峭的成长曲线上;同时,其透露OpenAI新一代模型将是一个多模态大模型,支撑语音、图像、代码和视频,并在个性化和定制化方面实现重大更新,具备更强的推理能力和更高的准确性;此外,AI大模型的幻觉问题有望在新一代大模型中得到解决。 美国将限制云厂商对华客户提供AI云服务。美国商务部部长GinaRaimondo宣布,美国政府正推出一项提案,阻止外国实体,特别是来自中国的实体,使用美国的云计算进行AI大模型的训练。部分国内AI大模型初创公司和国内训练垂类模型的AI应用公司先前多采用租赁海外云厂商AI算力的方式,未来有望自行购买算力卡或租赁国产AI算力进行模型的训练和推理。 海外大厂发布财报,台积电对AI指引乐观。微软、谷歌、Meta、亚马逊、Intel、AMD等海外大厂发布财报,大多数上季度业绩表现出色,24全年资本开支有望上行;其中,微软披露AI推动Azure云收入提升6%,台积电预计人工智能年复合增速将达到50%,对AI指引乐观。 投资建议:1)多模态大模型拉动全球算力需求快速增长,叠加美国将限制云厂商对华客户提供AI云服务,国产AI算力迎来发展机会,建议关注国产AI算力龙头公司海光信息;2)大模型能力快速提升,多模态将进一步扩大AI的应用范围,此外,随着AI大模型成本下降与技术发展,AI应用产业将快速进步,建议关注AI应用相关个股,例如金山办公、科大讯飞。 风险提示:宏观经济复苏不及预期;云厂商资本开支不及预期;市场竞争加剧;产品研发不及预期;国产AI算力芯片导入不及预期等。 Meta算力需求超预期,全球AI训练算力重估 扎克伯格发布24全年算力卡需求指引,Meta算力需求超预期 Meta将于24年底拥有接近60万颗H100 GPU的等效算力。2024年1月19日,Meta董事长兼CEO扎克伯格在Facebook上发表视频,详细介绍了Meta在人工智能领域的最新进展和未来规划,聚焦于Meta通用人工智能(AGI)的追求,以及Meta做出了相关战略调整。1)从硬件侧,Meta正在积极部署英伟达H100GPU,计划至24年底部署接近35万颗H100GPU,叠加英伟达A100和其他AI芯片,将拥有接近60万颗H100GPU的等效算力,以支撑下一代AI大模型LIama3的训练; 2)从组织架构侧,Meta将其两大AI研究团队(FAIR和GenAI)合并,共同致力于通用人工智能(AGI)的构建;3)从智能产品侧,提到了Ray-BanMeta智能眼镜,关注元宇宙未来的发展。 24年Meta算力卡采购数量同比大幅增长,算力需求超预期。根据OmdiaResearch统计数据,23年全球大厂纷纷采购H100GPU,其中Meta和微软采购15万颗,位居第一;其次,谷歌、亚马逊、Oracle、腾讯采购5万颗,主要用于AI云业务的建设以及自研AI大模型的训练需要。根据扎克伯格公布的24年算力卡采购预期, 1)H100GPU:23年公司采购15万颗,24年预计采购20万颗,同比+33.33%,合计24年底在手35万颗H100GPU,对应增量资本支出12.5亿美金(假设单科H100 GPU2.5万美金,增量为5万颗);2)其他等效H100GPU:24年底等效H100GPU数量达到25万颗,包括A100以及将要出货的英伟达H200、AMD MI300X等AI芯片,由于H100GPU的性价比优于A100,23年全年MetaA100采购数量相对较少,若24年底达到25万颗的等效H100算力,我们认为Meta将大量采购英伟达H200、AMDMI300X等高性价比芯片。 图1:扎克伯格介绍Meta在AI领域的最新进展和规划 图2:23年全年Meta采购15万颗H100GPU 多模态大模型拉动AI训练算力需求增长 大模型训练算力测算 训练过程:前向传播(ForwardPass)和反向传播(BackwardPass)。1)前向传播:输入数据(例如图像、文本等)通过神经网络的各层进行传递,以得到输出结果,包含输入数据与权重矩阵相乘、应用激活函数等操作,目的为将计算网络预测输出,并将其与实际目标值比较,计算损失函数(LossFunction)的值。 2)反向传播:一种高效计算梯度算法,从输出层开始,沿着网络层次结构向输入层反向传播,计算每个权重的梯度(注:梯度表示权重对损失函数贡献的大小); 同时,在计算出所有权重的梯度后,使用优化算法更新权重,达到减小损失函数值的目的。3)计算次数:一次前向传播需要一次计算,一次反向传播需要两次计算(计算梯度+权重更新),则完成一次神经网络迭代需要对所有输入的数据和模型参数进行3次计算;每一次计算就是矩阵运算,对于一次矩阵运算需要进行一次乘法及加法(共计2次浮点运算),即对于每个Token、每个模型参数,需要进行2×3 Flops=6次浮点运算。以GPT-3大模型训练为例,模型参数量为175B,训练Token数量为300B,采用稠密(Dense)模型,其需要的训练总算力为175B×300B×6=3.15e FLOPs。4)所需算力卡数量及时间:假设使用业内FLOPS最大的利用率来测算(此处取46.2%),单卡A100 FP16精度下算力为312TFLOPS,则3.15e FLOPs/(312TFLOPs×46.2%×3600s×24h/天)=2.53万张A100/天,即若使用1000张A100,大约训练一遍GPT-3需要25.3天。 表1:芯片利用率情况 表2:公开模型的算力数据 推理过程:主要包括分词(Tokenize)、嵌入(Embedding)、位置编码(Positional Encoding)、Transformer层、Softmax。推理主要计算量在Transfomer解码层,对于每个token、每个模型参数,需要进行2×1Flops=2次浮点运算,则单词推理算力消耗为模型参数量×(提问Tokens+回答Tokens)×2。以GPT-3单次推理为例,假设用户每次提问20 Tokens,ChatGPT回答300 Tokens,模型参数量为175B,则单次推理算力需求为175B×(20Tokens+300Tokens)×2=1.12e FLOPs,若使用单张A100GPU进行推理,假设芯片利用率为46.2%,图像、视频模态拉动AI算力需求增长 多模态大模型:对多模态信息的理解和学习。“模态”概念起源于生物学,指生物通过鼻子、耳朵、眼睛、肢体等不同方式的感官来感知外在世界的各种信息。 在计算机领域中,多模态学习(MultiModalMachineLearning,MMML)指通过机器学习的方法处理多个模态接受的信息,从而实现对文本、图像、视频、音频、3D等模态信息的理解和学习。同传统大语言模型的差异点:除文本数据外,需使用大量图像、视频等模态数据进行训练。 1、图像模态 图像训练数据大幅提升训练Token量。以BEIT方法为例,单一图片训练素材可以有两种表达形式,即Image Patches和VisualTokens。 1)ImagePatches:将图片分成N=HW/P个展平的2D块,每个imagepatches会被展平成向量,并对其进行线性变换操作,进而得到一系列展平的2D块的序列; 随后使用类BERT的子监督训练方式(MaskedImage Modeling),即随机隐藏部分ImagePatches,让模型对隐藏的部分进行预期,进而不断计算预测的Patches和真实的Patches之间的差异,并将该差异作为Loss函数进行反向传播来更新参数。 2)VisualTokens:BEIT通过dVAE(DiscreteVariationalAutoencoder,核心原理是试图构建一个从隐变量Z生成目标数据X的模型)中的ImageTokenizer,将单一图片训练素材转化为离散的Tokens(即隐变量),再通过生成器(Decoder)重建原图。 3)图片对训练数据量的提升:以ImagePatches方法为例,1张图片可以分割为N=HW/P个2D块(即视为输入的Tokens),其中(H,W)为输入图片的分辨率,(P,P)是2D块的大小,在《BEIT:BERTPre-Training ofImage Transformers》实际操作中,有1张224*224大小的图片分割成16*16大小的2D小块,即单一图片相当于(224*224)/(16*16)=196个Tokens。而在纯文本训练素材中,单一单词约为4/3个Token,则1张图片(分辨率224*224)约等于147个单词。根据上文所述,AI训练算力需求=模型参数量×训练Token量×6,图片训练素材的加入,拉动训练Token量的大幅增长,进而大幅提升AI训练算力需求。 4)增量测算:a)数据量:根据《Willwerunoutofdata?Ananalysisofthe limitsof scaling datasets inMachine Learning(Pablo等著,2022年)》披露数据,2022年全球图片数量在5e-2e个,我们取中间值(即1e个),选取常用图片分辨率(1024×768),则单张图片对应(1024*768)/(16*16)=3072个Tokens,则全部图片对应3.072e个Tokens。b)算力需求:假设使用这些图片数据对一个5000亿参数模型进行训练,则对应的AI训练算力需求=500B×3.072e×6=9.216e FLOPs。c)训练卡需求:以英伟达H100为例,在FP16精度下算力为1979TFLOPS,仍假设芯片利用率为46.2%,则9.216e FLOPs/(1979 TFLOPs×46.2%×3600s×24h/天×30天/月)=38.89万张H100/月,即完成对图片数据的训练需使用38.89万张H100训练一个月(针对单一模型),假设全球有5家厂商使用图片素材进行自研大模型训练,则需要194.45万张H100训练一个月。 图3:多模态大模型对图像的处理 2、视频模态 视频训练数据大幅提升训练Token量。以字节跳动最新提出《MagicVideo-V2:Multi-StageHigh-AestheticVideoGeneration》方法为例,该模型是一个多阶段端到端视频生成模型,具体可分为以下4个关键模块: 1)Text-to-Image模块(文本到图像):从给定的文本提示,生成概括所描述场景的高分辨率图像(分辨率为1024*1024); 2)Image-to-Video模块(图像到视频):通过文本提示和生成的图像创建关键帧(32帧),使得静态图像动态化(分辨率为600*600); 3)Video