热门搜索：

计算机行业研究周报：英特尔发布高性价比Gaudi2加速卡GPT-4详细参数分析

信息技术2023-07-16曹旭特申港证券℡***

英特尔发布高性价比Gaudi2加速卡 GPT-4详细参数分析 ——计算机行业研究周报行业研究行业研究周报申港证券股份有限公司证券研究报告投资摘要：本周周报我们介绍GPT-4详细参数及英特尔发布Gaudi2加速器相关内容，对大模型及GPU生态进行探讨和展望。与国内大模型产品相比，chatGPT效果依然最优。根据InfoQ数据显示，chatGPT在大模型产品测评中分数最高，综合得分率为77.13%，国内大模型产品文心一言正迅速追赶，在国内大语言模型中位列第一。在这一背景下，市场普遍认为GPT-4的模型架构、基础设施、参数设计等具有一定程度的领先。由于官方并未公布GPT-4的详细参数，业内人士对GPT-4的详细参数进行了推断. 参数量：GPT-4的大小是GPT-3的10倍以上，包含1.8万亿个参数； 数据集：GPT-4的训练数据集将多个epoch中的token计算在内包含约13 万亿个token； 训练成本：OpenAI在GPT-4的训练中使用了大约2.15e25的FLOPS，使用了约25,000个A100GPU，训练了90到100天，利用率（MFU）约为32%至36%。假定云端的每个A100GPU的成本大约为每小时1美元，那么单次训练的成本将达到约6300万美元，如果使用约8192个H100GPU进行预训练，用时约为55天左右，成本为2150万美元，每个H100GPU的计费标准为每小时2美元； 推理成本：GPT-4的推理成本是1750亿参数模型的3倍，这主要是因为 GPT-4的集群规模更大，并且利用率很低。根据测算，在用128个A100 GPU进行推理的情况下，8k版本GPT-4推理的成本为每1,000个token 0.0049美分。如果使用128个H100GPU进行推理，同样的8k版本GPT-4 推理成本为每1,000个token0.0021美分； 7月11日，Intel面向国内提出了新的解决方案，推出了第二代Gaudi深度学习加速器HabanaGaudi2。在大语言模型GPT-3的评测上，Gaudi2也展示了其较优的性能。它是仅有的两个提交了GPT-3LLM训练性能结果的解决方案之一（另一个是英伟达 H100）。在GPT-3的训练上，英特尔使用384块Gaudi2加速器使用311分钟训练完成，在GPT-3模型上从256个加速器到384个加速器实现了近线性95%的扩展。目前，已有部分厂商推出了基于英特尔AI加速卡的产品。在发布活动中，英特尔宣布Gaudi2首先将通过浪潮信息向国内客户提供，打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。其服务器集成了8块Gaudi2 加速卡HL-225B，还包含两颗第四代英特尔至强可扩展处理器。投资策略：国内大模型在实际效果上已经逐渐靠近GPT-4，未来随着大模型在各领域的商业化落地，国内大模型将加速创新和迭代，推动数字经济发展，大模型方面建议关注科大讯飞、360。目前，Gaudi2加速器发布后，英特尔正与浪潮信息合作，开发并发售基于Gaudi2深度学习加速器的AI服务器NF5698G7，同时新华三正与英特尔合作，开发适合大模型训练和推理的高性能AI服务器。我们认为随着大语言模型及生成式AI的需求扩张，市场对高性价比加速器的需求也更加迫切，Intel推出的Gaudi2同时具备性能与性价比的领先优势，未来将具备较大的发展空间。评级增持（维持） 2023年07月16日曹旭特分析师 SAC执业证书编号：S1660519040001 行业基本资料股票家数265 行业平均市盈率106.3 市场平均市盈率11.9 60% 50% 40% 30% 20% 10% 0% -10% -20% -30% 计算机沪深300 行业表现走势图资料来源：iFind，申港证券研究所相关报告 1、《计算机行业研究周报：世界人工智能大会顺利举行大模型及应用继续加速推进》2023-07-10 2、《计算机行业研究周报：AI大模型助力医疗信息化创新应用涌现》2023-07-03 3、《计算机行业研究周报：具身智能人工智能的下一个方向》2023-06-25 市场回顾： 本周申万计算机指数整体表现平稳，上涨0.82%，在申万一级行业中排名13/31。 本周申万计算机行业指数前十大权重股恒生电子跌幅较大、浪潮信息、用友网络、紫光股份略有下跌，大华股份、海康威视、中科曙光涨幅较大。 本周计算机板块涨幅前十大个股：华是科技、银信科技、航天智装、汇金股份、中孚信息、天迈科技、中新赛克、三维天地、彩讯股份及恒为科技。 申万计算机行业指数当前滚动市盈率为69.16，近五年分位值81.95%。风险提示：政策落地不及预期风险、技术落地不及预期、宏观经济波动风险等。内容目录 1.每周一谈：英特尔发布高性价比Gaudi2加速卡GPT-4详细参数分析4 1.1投资策略7 2.板块回顾7 3.本周要闻8 3.1行业新闻8 3.2重要公司公告9 4.风险提示9 图表目录图1：英特尔AI产品战略暨Gaudi2新品发布会5 图2：HabanaGaudi2深度学习加速器5 图3：基于Gaudi2加速器的浪潮NF5698G7服务器6 图4：本周计算机板块涨跌幅7 图5：申万计算机行业指数历史市盈率TTM8 表1：大语言模型综合测试结果4 表2：本周申万计算机行业前十大权重股票涨跌幅7 表3：本周计算机板块涨幅前十名8 1.每周一谈：英特尔发布高性价比Gaudi2加速卡GPT-4详细参数分析在本次结束的2023人工智能大会上，据统计，有24款大模型新品在大会上发布或升级，发布主体不仅包括互联网龙头企业，也包括移动联通等运营商、创业公司及各大高校。与国内大模型产品相比，chatGPT效果依然最优。根据InfoQ数据显示，chatGPT在大模型产品测评中分数最高，综合得分率为77.13%，国内大模型产品文心一言正迅速追赶，在国内大语言模型中位列第一。表1：大语言模型综合测试结果排名大模型产品综合得分率 1 ChatGPT 77.13% 2 文心一言 74.98% 3 Claude 68.29% 4 讯飞星火 68.24% 5 Sage 66.82% 6 天工3.5 62.03% 7 通义千问 53.74% 8 Moss 51.52% 9 ChatGLM 50.09% 10 vicuna-13B 43.08% 资料来源：InfoQ《大语言模型综合能力测评报告》（测评截止时间为5月25日），申港证券研究所在这一背景下，市场普遍认为GPT-4的模型架构、基础设施、参数设计等具有一定程度的领先。由于官方并未公布GPT-4的详细参数，业内人士对GPT-4的详细参数进行了推断： 参数量：GPT-4的大小是GPT-3的10倍以上，包含1.8万亿个参数； 混合专家模型：OpenAI使用混合专家（MoE）模型，依此保持相应的成本。混合专家模型使用了16个专家模型，每个模型大约有111B个参数，每次计算将其中两个专家模型通过前向传递的方式将结果进行反馈； 数据集：GPT-4的训练数据集将多个epoch中的token计算在内包含约13万亿个token； 推理：相较于纯密集模型每次前向传递需要大约1.8万亿个参数和约3700TFLOP的计算量，GPT-4每次前向传递（生成1个token）仅利用约2800亿个参数和约560TFLOP的计算量； 并行策略：为了在所有A100GPU上进行并行计算，GPT-4采用了8路张量并行，因为这是NVLink的极限。除此之外，GPT-4采用了15路流水线并行； 训练成本：OpenAI在GPT-4的训练中使用了大约2.15e25的FLOPS，使用了约25,000个A100GPU，训练了90到100天，利用率（MFU）约为32%至36%。假定云端的每个A100GPU的成本大约为每小时1美元，那么单次训练的成本将达到约6300万美元，如果使用约8192个H100GPU进行预训练，用时约为55天左右，成本为2150万美元，每个H100GPU的计费标准为每小时 2美元； 推理成本：GPT-4的推理成本是1750亿参数模型的3倍，这主要是因为GPT-4的集群规模更大，并且利用率很低。据估计，在用128个A100GPU进行推理的情况下，8k版本GPT-4推理的成本为每1,000个token0.0049美分。如果使用128个H100GPU进行推理，同样的8k版本GPT-4推理成本为每1,000个token0.0021美分； 推理架构：推理运行在由128个GPU组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用8路张量并行（tensorparallelism）和16路流水线并行（pipelineparallelism）。 视觉多模态：独立于文本编码器的视觉编码器，二者之间存在交叉注意力。该架构类似于Flamingo。这在GPT-4的1.8万亿个参数之上增加了更多参数，经过了纯文本的预训练之后，又新增了约2万亿个token的微调。由于大模型训练成本较高，性价比问题凸显。在7月11日的发布会上，Intel面向国内提出了新的解决方案，推出了第二代Gaudi深度学习加速器HabanaGaudi2，Gaudi2致力于以领先的性价比优势，成为大规模部署AI的更优解。图1：英特尔AI产品战略暨Gaudi2新品发布会资料来源：甲子光年《英特尔发布中国定制版大模型专用芯片Gaudi2，用性价比挑战英伟达》，申港证券研究所 Gaudi2深度学习以第一代Gaudi高性能架构为基础，多方位性能与能效比提升，加速高性能大语言模型运行。该加速器具备以下性能： 24个可编程Tensor处理器核心（TPCs）； 21个100Gbps（RoCEv2）以太网接口； 96GBHBM2E内存容量； 2.4TB/秒的总内存带宽； 48MB片上SRAM； 集成多媒体处理引擎。图2：HabanaGaudi2深度学习加速器资料来源：机器之心《性价比超H100，英特尔发布中国版Gaudi2AI加速卡》，申港证券研究所 HabanaGaudi2深度学习加速器和第四代英特尔至强可扩展处理器在MLPerfTraining3.0基准测试上表现优异。在大语言模型GPT-3的评测上，Gaudi2也展示了其较优的性能。它是仅有的两个提交了GPT-3LLM训练性能结果的解决方案之一（另一个是英伟达H100）。在GPT-3的训练上，英特尔使用384块Gaudi2加速器使用311分钟训练完成，在 GPT-3模型上从256个加速器到384个加速器实现了近线性95%的扩展。目前，已有部分厂商推出了基于英特尔AI加速卡的产品。在发布活动中，英特尔宣布Gaudi2首先将通过浪潮信息向国内客户提供，打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。其服务器集成了8块Gaudi2加速卡HL-225B，还包含两颗第四代英特尔至强可扩展处理器。图3：基于Gaudi2加速器的浪潮NF5698G7服务器资料来源：中国经济新闻网《浪潮信息联合英特尔发布新一代AI服务器NF5698G7，支持8颗Gaudi2加速器》，申港证券研究所 1.1投资策略国内大模型在实际效果上已经逐渐靠近GPT-4，未来随着大模型在各领域的商业化落地，国内大模型将加速创新和迭代，推动数字经济发展，大模型方面建议关注科大讯飞、360。目前，Gaudi2加速器发布后，英特尔正与浪潮信息合作，开发并发售基于Gaudi2深度学习加速器的AI服务器NF5698G7，同时新华三正与英特尔合作，开发适合大模型训练和推理的高性能AI服务器。我们认为随着大语言模型及生成式AI的需求扩张，市场对高性价比加速器的需求也更加迫切，Intel推出的Gaudi2同时具备性能与性价比的领先优势

点击免费查看完整报告

你可能感兴趣

计算机行业研究周报：英特尔发布高性价比Gaudi2加速卡GPT-4详细参数分析

你可能感兴趣

计算机行业周报：关注GPT-4和百度文心一言发布

计算机行业海外科技追踪周报：英特尔发布系列AI新品，2024年AIPC有望量价齐升

光大证券计算机行业周报：英特尔发布首款AIPC处理器，联想推出搭载酷睿Ultra的AIPC

计算机行业海外科技追踪周报：美联储七月议息会再加息；谷歌、微软、Meta、英特尔相继发布第二季度财报，AI回报暂低于预期

计算机行业周报：英特尔发布酷睿Ultra200V系列处理器，开源模型Reflection70B发布