热门搜索：

计算机行业2024年2月投资策略：全球AI训练算力重估，美方将限制对华AI云服务

信息技术2024-02-03熊莉、库宏垚国信证券惊***

AI智能总结

Meta算力需求超预期与全球AI训练算力的重新评估

Meta算力需求激增

扎克伯格的指引：Meta董事长兼CEO马克·扎克伯格宣布，Meta将在2024年底拥有接近60万颗H100 GPU的等效算力，显示其对AI算力需求的超预期增长。

多模态大模型推动AI训练算力需求

区别于传统大语言模型：多模态大模型不仅依赖文本数据，还需要大量图像、视频等模态数据进行训练。
图像训练数据的扩展：以BEIT方法为例，单张图片可以被分割为多个2D块，从而大幅度增加训练Token的数量，进而提升AI训练的算力需求。
视频训练数据的影响：相较于图像数据，视频数据引入了时间维度，使得训练过程更为复杂，对算力的需求更大。

Sam Altman展望AI未来进展

大模型能力提升：Sam Altman预计未来两年，AI将在推理能力、多模态应用、可定制性和个性化方面取得显著进步。
AGI的前景：AI大模型的能力提升并非局限于特定任务，而是在更广泛的通用性方面不断增强。
解决幻觉问题：Sam Altman认为新一代大模型有望解决AI的幻觉问题。

美国限制AI云服务

商务部提案：美国商务部提议限制外国实体，尤其是中国实体，使用美国云计算资源进行AI大模型训练，以保护国家安全和维持技术优势。
影响分析：此政策对国内领先大模型厂商影响较小，但对依赖海外云服务的AI初创公司和训练垂类模型的AI应用公司构成挑战，预计这些公司将转向购买国产算力或自购算力卡。

海外大厂财报亮点与AI指引

微软、谷歌、Meta、亚马逊、Intel、AMD等公司2023年第四季度财报显示，多数公司业绩表现出色，尤其是AI业务的增长，反映出全球AI技术的快速发展。
台积电乐观展望：台积电预计AI领域的年复合增长率将达到50%，表明市场对AI算力需求的强劲增长趋势。

投资建议与风险提示

国产AI算力龙头：鉴于多模态大模型对全球算力需求的快速增长以及美国对AI云服务的限制，建议关注国产AI算力龙头公司如海光信息。
AI应用相关个股：随着AI大模型成本下降和技术进步，AI应用产业将迎来快速进步，推荐关注金山办公、科大讯飞等AI应用相关股票。
风险提示：宏观经济复苏、云厂商资本开支、市场竞争、产品研发、国产AI算力芯片导入等方面存在不确定性。

综上所述，Meta的算力需求超预期，推动全球AI训练算力需求的重新评估。多模态大模型的兴起与美国对AI云服务的限制，为国产AI算力带来了发展机遇。同时，海外大厂的财报和台积电的乐观指引，反映了AI技术在全球范围内的迅速发展。投资建议重点关注国产AI算力龙头与AI应用相关个股，同时注意潜在的风险因素。

计算机行业2024年2月投资策略：全球AI训练算力重估，美方将限制对华AI云服务

Meta算力需求超预期，全球AI训练算力重估。Meta董事长兼CEO扎克伯格发布24全年算力卡需求指引，Meta将于24年底拥有接近60万颗H100GPU的等效算力，AI算力需求超预期。多模态大模型将拉动AI训练算力需求增长：1）同传统大语言模型的差异点：除文本数据外，需使用大量图像、视频等模态数据进行训练；2）图像训练数据大幅提升训练Token量：以BEIT方法为例，1张图片可以分割为N=HW/P2个2D块（即视为输入的Tokens），若将1张224*224大小的图片分割成16*16大小的2D小块，即单一图片相当于（224*224）/(16*16)=196个Tokens，图片训练素材的加入，拉动训练Token量的大幅增长，进而大幅提升AI训练算力需求；3）视频训练数据大幅提升训练Token量：同图像训练素材相比，视频训练素材增加了时间维度，训练过程更加复杂，产生的训练Token数量更多，对算力需求更大。 SamAltman透露新一代大模型相关进展，模型能力大幅提升。SamAltman展望未来两年，人工智能有望在推理能力和可靠性、多模态（语音输入/输出、图像、视频）、可定制化和个性化三个领域大幅提升，其认为至少在未来5-10年内，AI大模型技术将处于一个非常陡峭的成长曲线上；同时，其透露OpenAI新一代模型将是一个多模态大模型，支撑语音、图像、代码和视频，并在个性化和定制化方面实现重大更新，具备更强的推理能力和更高的准确性；此外，AI大模型的幻觉问题有望在新一代大模型中得到解决。美国将限制云厂商对华客户提供AI云服务。美国商务部部长GinaRaimondo宣布，美国政府正推出一项提案，阻止外国实体，特别是来自中国的实体，使用美国的云计算进行AI大模型的训练。部分国内AI大模型初创公司和国内训练垂类模型的AI应用公司先前多采用租赁海外云厂商AI算力的方式，未来有望自行购买算力卡或租赁国产AI算力进行模型的训练和推理。海外大厂发布财报，台积电对AI指引乐观。微软、谷歌、Meta、亚马逊、Intel、AMD等海外大厂发布财报，大多数上季度业绩表现出色，24全年资本开支有望上行；其中，微软披露AI推动Azure云收入提升6%，台积电预计人工智能年复合增速将达到50%，对AI指引乐观。投资建议：1）多模态大模型拉动全球算力需求快速增长，叠加美国将限制云厂商对华客户提供AI云服务，国产AI算力迎来发展机会，建议关注国产AI算力龙头公司海光信息；2）大模型能力快速提升，多模态将进一步扩大AI的应用范围，此外，随着AI大模型成本下降与技术发展，AI应用产业将快速进步，建议关注AI应用相关个股，例如金山办公、科大讯飞。风险提示：宏观经济复苏不及预期；云厂商资本开支不及预期；市场竞争加剧；产品研发不及预期；国产AI算力芯片导入不及预期等。 Meta算力需求超预期，全球AI训练算力重估扎克伯格发布24全年算力卡需求指引，Meta算力需求超预期 Meta将于24年底拥有接近60万颗H100 GPU的等效算力。2024年1月19日，Meta董事长兼CEO扎克伯格在Facebook上发表视频，详细介绍了Meta在人工智能领域的最新进展和未来规划，聚焦于Meta通用人工智能（AGI）的追求，以及Meta做出了相关战略调整。1）从硬件侧，Meta正在积极部署英伟达H100GPU，计划至24年底部署接近35万颗H100GPU，叠加英伟达A100和其他AI芯片，将拥有接近60万颗H100GPU的等效算力，以支撑下一代AI大模型LIama3的训练； 2）从组织架构侧，Meta将其两大AI研究团队（FAIR和GenAI）合并，共同致力于通用人工智能（AGI）的构建；3）从智能产品侧，提到了Ray-BanMeta智能眼镜，关注元宇宙未来的发展。 24年Meta算力卡采购数量同比大幅增长，算力需求超预期。根据OmdiaResearch统计数据，23年全球大厂纷纷采购H100GPU，其中Meta和微软采购15万颗，位居第一；其次，谷歌、亚马逊、Oracle、腾讯采购5万颗，主要用于AI云业务的建设以及自研AI大模型的训练需要。根据扎克伯格公布的24年算力卡采购预期， 1）H100GPU：23年公司采购15万颗，24年预计采购20万颗，同比+33.33%，合计24年底在手35万颗H100GPU，对应增量资本支出12.5亿美金（假设单科H100 GPU2.5万美金，增量为5万颗）；2）其他等效H100GPU：24年底等效H100GPU数量达到25万颗，包括A100以及将要出货的英伟达H200、AMD MI300X等AI芯片，由于H100GPU的性价比优于A100，23年全年MetaA100采购数量相对较少，若24年底达到25万颗的等效H100算力，我们认为Meta将大量采购英伟达H200、AMDMI300X等高性价比芯片。图1：扎克伯格介绍Meta在AI领域的最新进展和规划图2：23年全年Meta采购15万颗H100GPU 多模态大模型拉动AI训练算力需求增长大模型训练算力测算训练过程：前向传播（ForwardPass）和反向传播（BackwardPass）。1）前向传播：输入数据（例如图像、文本等）通过神经网络的各层进行传递，以得到输出结果，包含输入数据与权重矩阵相乘、应用激活函数等操作，目的为将计算网络预测输出，并将其与实际目标值比较，计算损失函数（LossFunction）的值。 2）反向传播：一种高效计算梯度算法，从输出层开始，沿着网络层次结构向输入层反向传播，计算每个权重的梯度（注：梯度表示权重对损失函数贡献的大小）；同时，在计算出所有权重的梯度后，使用优化算法更新权重，达到减小损失函数值的目的。3）计算次数：一次前向传播需要一次计算，一次反向传播需要两次计算（计算梯度+权重更新），则完成一次神经网络迭代需要对所有输入的数据和模型参数进行3次计算；每一次计算就是矩阵运算，对于一次矩阵运算需要进行一次乘法及加法（共计2次浮点运算），即对于每个Token、每个模型参数，需要进行2×3 Flops=6次浮点运算。以GPT-3大模型训练为例，模型参数量为175B，训练Token数量为300B，采用稠密（Dense）模型，其需要的训练总算力为175B×300B×6=3.15e FLOPs。4）所需算力卡数量及时间：假设使用业内FLOPS最大的利用率来测算（此处取46.2%），单卡A100 FP16精度下算力为312TFLOPS，则3.15e FLOPs/(312TFLOPs×46.2%×3600s×24h/天)=2.53万张A100/天，即若使用1000张A100，大约训练一遍GPT-3需要25.3天。表1：芯片利用率情况表2：公开模型的算力数据推理过程：主要包括分词（Tokenize）、嵌入（Embedding）、位置编码（Positional Encoding）、Transformer层、Softmax。推理主要计算量在Transfomer解码层，对于每个token、每个模型参数，需要进行2×1Flops=2次浮点运算，则单词推理算力消耗为模型参数量×（提问Tokens+回答Tokens）×2。以GPT-3单次推理为例，假设用户每次提问20 Tokens，ChatGPT回答300 Tokens，模型参数量为175B，则单次推理算力需求为175B×（20Tokens+300Tokens）×2=1.12e FLOPs，若使用单张A100GPU进行推理，假设芯片利用率为46.2%，图像、视频模态拉动AI算力需求增长多模态大模型：对多模态信息的理解和学习。“模态”概念起源于生物学，指生物通过鼻子、耳朵、眼睛、肢体等不同方式的感官来感知外在世界的各种信息。在计算机领域中，多模态学习（MultiModalMachineLearning，MMML）指通过机器学习的方法处理多个模态接受的信息，从而实现对文本、图像、视频、音频、3D等模态信息的理解和学习。同传统大语言模型的差异点：除文本数据外，需使用大量图像、视频等模态数据进行训练。 1、图像模态图像训练数据大幅提升训练Token量。以BEIT方法为例，单一图片训练素材可以有两种表达形式，即Image Patches和VisualTokens。 1）ImagePatches：将图片分成N=HW/P个展平的2D块，每个imagepatches会被展平成向量，并对其进行线性变换操作，进而得到一系列展平的2D块的序列；随后使用类BERT的子监督训练方式（MaskedImage Modeling），即随机隐藏部分ImagePatches，让模型对隐藏的部分进行预期，进而不断计算预测的Patches和真实的Patches之间的差异，并将该差异作为Loss函数进行反向传播来更新参数。 2）VisualTokens：BEIT通过dVAE（DiscreteVariationalAutoencoder，核心原理是试图构建一个从隐变量Z生成目标数据X的模型）中的ImageTokenizer，将单一图片训练素材转化为离散的Tokens（即隐变量），再通过生成器（Decoder）重建原图。 3）图片对训练数据量的提升：以ImagePatches方法为例，1张图片可以分割为N=HW/P个2D块（即视为输入的Tokens），其中（H,W)为输入图片的分辨率，（P,P)是2D块的大小，在《BEIT:BERTPre-Training ofImage Transformers》实际操作中，有1张224*224大小的图片分割成16*16大小的2D小块，即单一图片相当于（224*224）/(16*16)=196个Tokens。而在纯文本训练素材中，单一单词约为4/3个Token，则1张图片（分辨率224*224）约等于147个单词。根据上文所述，AI训练算力需求=模型参数量×训练Token量×6，图片训练素材的加入，拉动训练Token量的大幅增长，进而大幅提升AI训练算力需求。 4）增量测算：a）数据量：根据《Willwerunoutofdata?Ananalysisofthe limitsof scaling datasets inMachine Learning（Pablo等著，2022年）》披露数据，2022年全球图片数量在5e-2e个，我们取中间值（即1e个），选取常用图片分辨率（1024×768），则单张图片对应（1024*768）/(16*16)=3072个Tokens，则全部图片对应3.072e个Tokens。b）算力需求：假设使用这些图片数据对一个5000亿参数模型进行训练，则对应的AI训练算力需求=500B×3.072e×6=9.216e FLOPs。c）训练卡需求：以英伟达H100为例，在FP16精度下算力为1979TFLOPS，仍假设芯片利用率为46.2%，则9.216e FLOPs/(1979 TFLOPs×46.2%×3600s×24h/天×30天/月)=38.89万张H100/月，即完成对图片数据的训练需使用38.89万张H100训练一个月（针对单一模型），假设全球有5家厂商使用图片素材进行自研大模型训练，则需要194.45万张H100训练一个月。图3：多模态大模型对图像的处理 2、视频模态视频训练数据大幅提升训练Token量。以字节跳动最新提出《MagicVideo-V2:Multi-StageHigh-AestheticVideoGeneration》方法为例，该模型是一个多阶段端到端视频生成模型，具体可分为以下4个关键模块： 1）Text-to-Image模块（文本到图像）：从给定的文本提示，生成概括所描述场景的高分辨率图像（分辨率为1024*1024）； 2）Image-to-Video模块（图像到视频）：通过文本提示和生成的图像创建关键帧（32帧），使得静态图像动态化（分辨率为600*600）； 3）Video

点击免费查看完整报告