行业要闻追踪:英特尔和META均发布新一代AI芯片。英特尔发布Gaudi3芯片。性能方面,在FP8精度下算力为1835TFLOPS,相比上一代提升2倍。 组网方面,标准参考架构组网512个计算节点,可提供7.5EFLOPS算力; 最大可组成1024个计算节点(由8192个芯片组成)。在Llama模型中的训练和推理性能及能效表现均比英伟达H100/H200优异。META发布MTIA v2芯片,INT8算力达354TFLOPS,是MTIAv1的3.5倍,该芯片拥有 256M B的片上内存,频率为1.3GHz。 Marvell在4月11日举办“AIEra的加速基础设施”活动,分析了2023年1200亿美元数据中心芯片市场规模的结构,并预测到2028年数据中心内计算、交换、互联和存储的CAGR将分别为45%/15%/27%/7%。公司预测光互联的指数级增长将有力推动AI集群快速发展,Chat GPT4在2.5万训练卡规模下XPU对比光互联比例为1:3,未来10万张卡的训练规模将驱动该比例提升至1:5或更高。硅光的高集成、低成本优势显著,Marvell可触达市场将从2023年9亿美元提升至2028年28亿美元。 行业重点数据追踪:1)运营商数据:据工信部,截至2024年2月,5G移动电话用户达8.51亿户,占移动电话用户的48.8%;2)5G基站:截至2024年2月,5G基站总数达350.9万个;3)云计算及芯片厂商:2023Q4,国内三大云厂商资本开支合计200.4亿元(同比+50%,环比+28%);2023Q4,海外三大云厂商及Meta资本开支合计432.4亿美元(同比+9%,环比+16%)。 行情回顾:本周通信(申万)指数下跌1.11%,沪深300指数下跌1.71%,板块表现强于大市,相对收益0.61%,在申万一级行业中排名第11名。在我们构建的股票池里有178家公司(不包含三大运营商),平均涨跌幅为-4.67%,细分领域中,光器件光模块和运营商跌幅较小,分别为-1.0%和-2.4%。 投资建议:关注国产算力发展,重视运营商分红率提升 (1)短期视角,全球AI行业不断变革发展,我国高度重视算力基础设施建设,政府政策频出,产业趋势确定,持续关注算力基础设施:光器件光模块(中际旭创、天孚通信等),通信设备(中兴通讯、紫光股份等),液冷(英维克、申菱环境等)。 (2)中长期视角,中国移动和中国电信规划2024年起3年内将分红比例提升至75%以上,高股息价值凸显,建议关注三大运营商。 4月推荐组合:中国移动、天孚通信、英维克、华测导航、菲菱科思。 风险提示:宏观经济波动风险、数字经济投资建设不及预期、AI发展不及预期、中美贸易摩擦等外部环境变化。 产业要闻追踪 (1)英特尔加速发力:新一代AI芯片Gaudi3登场 事件:当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上正式推出Gaudi3AI加速卡及全新Xeon6处理器,并通过AI领域的客户、合作伙伴共同推动开放和更安全的企业AI。另外,英特尔还公布了针对边缘平台新品发布计划和AI优化企业AI工作负载链接相关计划。 图1:Intel推出Gaudi3AI加速器 图2:Intel数据中心芯片路标 亮点一: 5nm 工艺,FP8浮点性能提升一倍 Gaudi3在FP8精度下算力为1835TFLOPS,是上一代FP8性能的2倍。Gaudi3的FP8AI计算性能是上一代产品的2倍,BF16AI计算性能是上一代产品的4倍,网络带宽是上一代的2倍,内存带宽是上一代的1.5倍,并提供Mezz卡、板载和PCIe三种形态。 图3:Gaudi3采用 5nm ,FP8性能提升一倍 表1:Gaudi3与历代Gaudi性能对比 英特尔Gaudi3采用将两个计算Tile设计,拥有8个矩阵数学引擎、64个张量内核、96MBSRAM(每个Tile48MB,可提供12.8TB/s的总带宽)和128GBHBM2e内存,16个PCIe5.0通道和24个200GbE链路。 图4:Gaudi3性能图示 图5:Gaudi3结构设计 亮点二:采用以太网连接扩展网络,最大可组1024节点集群 Gaudi3加速器允许响应者进行选择性ACKing和请求者进行选择性重新传输,这使得Gaudi3的RoCE运行TCP/IP时具有更强的可扩展性。 英特尔Gaudi3加速器网络子系统拥有24个200千兆位以太网网卡端口、一个二层MAC和RDMA引擎。Gaudi 2每个芯片提供24个100Gb以太网链路; Gaudi3将这些链路的带宽增加了一倍,达到200Gb/秒,使芯片的外部以太网I/O总带宽达到8.4TB/秒的累计向上/向下。组网时,假设每台服务器由八个Gaudi3加速器组成,每个加速器通过21个200 Gbps以太网连接相互通信。 每个设备上的其余三个以太网端口用于通过叶交换机与群集进行外部通信。 英特尔Gaudi3最大可扩展到8192个芯片组成1024个集群节点。英特尔给出了512个节点的组网架构参考。搭载8个Gaudi3的服务器,FP8性能可达14.7PFLOPS,拥有1024GB内存和8.4TB/s网络带宽。512个节点,可提供7.5EFLOPS算力,有524.3TB内存容量、614TB/s网络带宽。Gaudi 3最多可扩展到由8192个芯片组成的1024个节点的集群,可提供15EFLOPS算力、1PB内存容量、1.229PB/网络带宽。 图6:Gaudi3组网512个节点参考 图7:Gaudi3最多可扩展到1024个节点的集群 此外,英特尔全新设计了Gaudi 3的PCIe,功率只有600w,内存容量为128GB,带宽为每秒3.7TB。Gaudi3PCIeadd-in卡专为实现高效率和低功耗而设计,非常适合微调、推理和检索增强生成(RAG)等工作负载,采用全高、双宽、10.5英寸长设计,被动冷却,TDP仅为600W,英特尔在这里使用OAM2.0外形尺寸,它提供比OAM1.x(700W)更高的功率限制。英特尔还在开发并验证Gaudi3的液冷版本,它将提供更高的性能,以换取更高的TDP。所有形式的Gaudi3都将使用PCIe回程连接到其主机CPU,其中Gaudi 3配备PCIeGen5x16链路。 图8:Gaudi3 PCIe设计 图9:Gaudi3PCIeadd-in卡 亮点三:展示出比H100/H200优异性能 与英伟达旗舰GPU相比,英特尔新一代AI训练芯片Gaudi3的性能提升如下: 训练Llama27B、13B以及GPT-3175B模型,速度比H100快40%~70%。Gaudi 3在训练参数规模较小的模型时能展现出训练优势,训练1750亿参数GPT-3模型是用了基于1028个节点、8192个Gaudi3的集群。 图10:训练Llama27B、13B以及GPT-3175B模型,速度比H100快40%~70% 跑Llama7B、70B以及Falcon180B模型,推理速度比 H2 00快30%,推理能效提高130%,在较长输入和输出序列上的推理性能优势更大。 图11:训练Llama27B、13B以及GPT-3175B模型,速度比H100快40%~70% (2)META推出新版自研AI芯片 事件:2024年4月11日,美国科技巨头Meta宣布,正在部署一款自主研发的人工智能(AI)芯片,即第二代芯片Meta Training and Inference Accelerator v2(MTIAv2),助力AI业务发展,并减少对英伟达和其他外部公司芯片的依赖。 MetaTraining and Inference Accelerator(MTIA)旨在与Meta的排名和推荐模型配合使用。这些芯片可以帮助提高训练效率,使推理(也就是实际的推理任务)更容易。 图12:MTIA v2芯片 亮点一:MTIAv2容量、计算、带宽等性能大幅提升 新一代MTIA芯片采用的是台积电 5nm 工艺技术,拥有256MB的片上内存,频率为1.3GHz,MTIA v1的片上内存为128MB,频率为800GHz,采用的是台积电 7nm 工艺技术。新一代MTIA芯片的平均频率达到1.35GHz,比MTIA v1的800MHz高出不少,但同时它消耗的功率(90W)也要比MTIAv1(25W)高出三倍多。 图13:第一代和第二代MITA对比 该加速器由8x8处理元件(PE:processingelements)网格组成,这些PE显着提高了密集计算性能(比MTIAv1提高了3.5倍)和稀疏计算性能(提高了7倍)。这都得益于Meta为PE设计的网格结构,Meta将本地PE存储的大小增加了两倍,将片上SRAM增加了一倍,将其带宽增加了3.5倍,并将LPDDR5的容量增加了一倍。 图14:该加速器由8x8处理元件(PE:processingelements)网格组成 在能耗方面从25W提升到了90W。英伟达H100的功耗约在350~500W,INT8精度下稀疏算力为3026TFLOPS,每瓦性能和MTIAv2基本差不多。在平台层,通过2倍的设备数量和2插槽CPU,MTIAv2能够实现6倍的模型服务吞吐量、比MTIAv1系统提高多达1.5倍的每瓦性能。 亮点二:MTIA支持完整计算生态 于Meta在芯片的生产和使用中可以控制全栈,比如它的配套硬件、软件、编译器等: 在配套硬件方面,Meta开发了一个大型的机架式系统,它由3个机箱组成,每个机箱包含12块电路板,每块电路板上有2块芯片,总计可容纳72个MTIA v2。Meta特别设计了这个系统,使芯片的功率和性能都能充分发挥,系统通信采用PCIe Gen5,以增加系统的带宽和可扩展性。如果选择扩展到机架之外,还能选择添加RDMA网卡。 图15:MTIA机箱图示 在软件方面,作为PyTorch的初始开发人员,Meta团队重视可编程性和开发效率,MTIA堆栈旨在与PyTorch 2.0、TorchDynamo和TorchInductor的完全集成。优化了前端的图形处理流程,包括捕获、分析、转换和提取操作,以及与MTIA硬件无关的可复用机制。 图16:MTIA v2全栈的计算生态 在编译器方面,MTIA的较低级别编译器从前端接受图形输出,生成既高效又针对设备优化的代码。在此之下是负责与驱动程序/固件接口的运行时堆栈,MTIA流式处理接口提供了管理设备内存、在设备上运行运算符以及执行编译图所需的基本操作。为了提高代码的性能,Meta创建了Triton-MTIA编译器后端,这是一个高效的机器学习计算内核编写工具,旨在为MTIA硬件生成优化代码。 Meta通过将Triton语言特性和PyTorch 2.0集成,扩展了对PyTorch操作符的支持,使得开发人员可以在编译前(AOT)和即时编译(JIT)工作流程中利用Triton-MTIA,极大提高了开发效率和计算内核创作的可扩展性。 (3)Marvell AI day:加速推进AI基础设施发展 事件:Marvell Technology Inc.在2024年4月11日举办的“AI Era的加速基础设施”活动上,展示了公司在数据中心、云计算、人工智能加速器以及定制计算领域的战略和业务机会。 图17:AI加速互联发展 亮点一:5年后,计算、交换、互联芯片市场规模均有较大增长空间 2023年数据中心资本开支2600亿美元,半导体TAM(TotalAvailable Market)市场规模1200亿美元,除内存外场规模820亿美元,其中 计算芯片680亿美元,其中使用加速芯片的客户占16%市场份额,达66亿美元;预计2028年该市场规模达到275亿美元,CAGR为32%;若份额提升至25%,则可达到430亿美元,CAGR为45%。 交换芯片60亿美元,预计到2028年市场规模120亿美元,CAGR为15%; 互联芯片43亿美元,预计到2028年市