热门搜索：

英伟达GTC2024大会点评：Blackwell平台实现AI性能跃升，软硬协同助力英伟达转型AI全链条平台

信息技术2024-03-20付天姿、王贇光大证券杨***

AI智能总结

Blackwell新架构的发布是英伟达在硬件设备上的全面升级。该架构通过多芯片封装、Transformer引擎和互联传输升级，将单芯片处理能力和整体算力集群性能提升至新的高度。此外，英伟达还推出了第五代NVLink、NVLink Switch和X800系列交换机，以增强大规模AI算力网络传输速度。英伟达的B200GPU、超级芯片、服务器到大型算力集群等全套算力硬件组合也已经发布，为客户提供更强大的计算能力。总的来说，英伟达的硬件设备在性能和效率上都得到了显著提升，为AI应用提供了强大的支持。

英伟达GTC2024大会点评：Blackwell平台实现AI性能跃升，软硬协同助力英伟达转型AI全链条平台

事件：美国时间3月18日-3月21日期间，英伟达举行GTC 2024大会。其中美国时间3月18日下午1:00-3:00，英伟达CEO黄仁勋发表了《见证AI的变革时刻》的主题演讲，分享在芯片迭代、软件生态和机器人等应用上的进展。 Blackwell新架构：多芯片封装、Transformer引擎和互联传输升级，助力单芯片性能和整体算力集群性能提升。1）4NP制程+双芯片设计，将2颗GPU以10 TB/s通信速率融合成一颗芯片，晶体管数量由H100的800亿提升至2080亿，大幅提升单芯片处理能力；2）第二代Transformer引擎，使Blackwell具备在FP4精度的AI推理能力，能在将性能和效率翻倍的同时保持混合专家模型的高精度；3）互联传输方面，NVLink+NVLink Switch+X800系列交换机提升集群通信连接速率；4）内嵌解压引擎、RAS引擎和加密协议。通信互联：推出第五代NVLink、NVLink Switch和X800系列交换机，增强大规模AI算力网络传输速度。1）第五代NVLink：带宽突破1.8TB/s，相比第四代提升一倍；2）NVLinkSwitch：支持576颗GPU组成计算集群，上一代仅支持256颗GPU连接；3）X800系列交换机：成为全球首款具备端到端800Gb/s吞吐量的网络平台，相比上代产品带宽容量提高5倍，网络计算能力提高9倍。英伟达推出B200GPU、超级芯片、服务器到大型算力集群等全套算力硬件组合。 1）B200：搭载8颗HBM3e，内存容量达192GB，FP4精度下算力高达20 PFLOPS，预计2024年晚些时间上市；2）超级芯片GB200：2颗Blackwell GPU+1颗Grace CPU，FP4精度下算力高达40PFLOPS；3）超级计算机GB200 NVL72：72颗BlackwellGPU+36颗Grace CPU，训练和推理性能相比等同数量的H100GPU表现提升4倍和30倍；4）DGX Super POD：一站式AI超算解决方案，搭载8套DGX GB200 NVL72系统，有望成为未来重要基础设施。软件工具链：NIM打通软硬件、降低客户软件开发难度，NeMo帮助企业采用专用数据开发定制大模型，英伟达将逐步转型成类苹果/微软的平台提供商。1）NIM推理微服务：集成数十个企业级生成式AI模型，可提供从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路，帮助开发者在CUDA GPU上创建和部署生成式AI应用；2）NeMo Retriever：挖掘企业“数据金矿”价值，客户可以使用其他公司或英伟达提供的行业基础NeMo并添加自己的数据来生成专用大模型；3）NIM已在半导体、医药等多领域落地。软件应用：英伟达拓展AI应用发展方向，积极在机器人和自动驾驶等领域开展合作。1）机器人：英伟达看好AI+机器人领域前景，发布机器人基础大模型ProjectGR00T，推出JetsonThor计算机、Isaac软件开发工具和库等，并与众多公司在机器人开发领域达成合作关系；2）自动驾驶：自动驾驶芯片采用Blackwell新架构，英伟达与比亚迪等车企加强合作。硬件迭代+软件协同+拓展应用领域，我们看好AI算力产业链维持高景气度，建议关注：1）英伟达：AI芯片性能强劲，软硬件协同服务打开想象空间；2）其他AI芯片：AMD、英特尔；3）服务器：超微电脑、联想集团、工业富联、戴尔科技、慧与；4）HBM：三星电子、SK海力士、美光科技；5）ASIC芯片设计：Marvell科技、博通；6）CoWoS：台积电、日月光、Amkor科技；7）CoWoS设备：ASMPT；8）云技术服务商：Oracle；9）光模块：中际旭创。风险分析：1）下游应用程序开发和场景拓展较慢，导致AI商业化进度不及预期； 2）B200等新品产能扩张受限，数据中心业务出货量不及预期；3）若AIGC进展不及预期，大模型训练和推理的算力需求高速增长的可持续性或降低。 1、硬件：“AI核弹”Blackwell新架构发布，硬件设备全面升级英伟达Blackwell新架构实现从GPU、互联通信、超级芯片到大型算力集群的全面性能提升。英伟达CEO黄仁勋将Blackwell架构称为“推动新一轮工业革命的引擎”，并定义其成为计算平台，一方面实现训练、推理性能、通信传输速度、能效的大幅提升，另一方面构建GPU、网络通信产品、AI超级芯片、服务器、大型算力集群、云服务等全套硬件产品，我们认为英伟达从芯片厂商走向了类“苹果”的平台之路。 1.1、Blackwell新架构：单芯片性能和整体算力集群性能提升明显多芯片封装、Transformer引擎和互联传输升级，帮助Blackwell实现单芯片和整体算力集群的表现升级。时隔两年，英伟达发布全新Blackwell架构，相较于上一代Hopper架构的产品，Blackwell架构的芯片和相关硬件设备以提升单个芯片的性能为基础，同时加强了大规模AI算力集群的算力，全面提升AI大模型的加速效果。此次Blackwell架构有以下6个方面的技术突破：（1）制程优化，首次采用双芯片设计：采用定制的、双reticle的台积电4NP（4N工艺的改进版本）制程工艺，首次采用MCM（多芯片封装），将两个GPU裸片通过C2C以10 TB/s通信速率融合在一个芯片中，晶体管数量达到了2080亿。没有内存局部性问题或缓存问题，因此CUDA将其视为单块GPU，从而大幅度提高了处理能力。（2）内嵌第二代Transformer Engine提升Transformer模型的加速效果：第二代Transformer Engine使用Blackwell Tensor核心技术，将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合，使Blackwell具备在FP4精度的AI推理能力，可支持2倍的计算和模型规模，能在将性能和效率翻倍的同时保持混合专家模型的高精度，提升了不同参数规模Transformer模型的加速效果。（3）第5代NVLink技术和NVLink Switch提升集群通信连接速率：第五代NVLink将GPU卡间连接速率提升到1.8TB/S，NVLink Switch支持与多个 NVLink连接，可高速互联576颗GPU组成计算集群，为AI大模型高密度、大规模训练提供有力的AI算力支持。（4）内嵌加密协议，保障数据安全：Blackwell芯片引入的原生界面加密协议包含NVIDIA机密运算，能以强大的硬件安全防护来保护敏感资料和AI模型，保障计算过程中的数据安全。（5）配备解压引擎，为大数据处理和数据科学场景提供有力支持：Blackwell配备解压引擎，运用900 GB/s的双向频宽，有效支持当前最新的数据格式的处理、查询和分析，实现资料分析与资料科学的最高效能。（6）内嵌RAS引擎，保障AI训练的稳定性：Blackwell架构的芯片内嵌的RAS引擎可快速定位问题来源并实行有效的补救措施，尽可能减少停机时间，同时可自动预测、通过智能化预防措施处理在训练过程中可能出现的问题，从而保障长时间的AI训练。图1：Blackwell和Hopper架构GPU对比，左为Blackwell架构的B200芯片 1.2、B200GPU：基于Blackwell架构，实现算力增长、内存升级和网络传输加快 B200首次采用多芯片封装（MCM），实现算力增长、内存升级和网络传输加快。作为NVIDIA Blackwell架构首款新产品，B200采用双芯片设计，两个芯片通过C2C连接成一个GPU，互联速度高达10TB/s；并采用台积电定制的4NP制程，晶体管数量达到2080亿，对比上一代Hopper架构的H100晶体管数量只有800亿（未采用双芯片设计）。B200预计2024年晚些时间上市。 1）双芯片设计+第二代Transformer引擎，助力算力大幅提升至2.5倍。使用定制的Blackwell Tensor核心技术，支持新的FP4、FP6精度计算加速AIGC推理和LLM，在FP4精度下，AI算力可实现20PFLOPs，提升至H100 4PFLOPs的2.5倍； 2）搭配8颗HBM3e内存（Hopper架构的H200共计6颗），内存容量达到192GB； 3）采用第五代NVLink高速互联，带宽突破1.8 TB/s，相比Hopper架构和Ampere架构有了巨幅提升，最大可支持10万亿参数的模型的训练。图2：英伟达历代架构算力对比，Blackwell提升明显表1：B200、H100和H200性能比较 1.3、通信互联：NVLink+NVLinkSwitch+X800系列交换机，增强大规模AI算力网络传输速度第五代NVLink带宽突破1.8TB/s。NVLink可在内存墙无法突破的情况下，最大化提升CPU和GPU之间通信的效率，于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用，当时的带宽为160GB/s，到H100采用的第四代NVLink，其带宽已经达到900GB/s，而B200采用的第五代NVLink带宽提升一倍、突破1.8TB/s。表2：英伟达历代NVLink主要参数对比最新NVLink Switch芯片支持576颗GPU组成计算集群。NVLink Switch支持与多个NVLink连接，实现NVLink在单节点、节点之间互联，进而创建更高带宽的GPU算力集群，基于最新的NVLink Switch芯片（台积电 4nm 工艺，500亿个晶体管），可实现576颗GPU组成计算集群，上一代产品仅支持256颗GPU。表3：英伟达历代NVLinkSwitch主要参数对比图3：最新NVLink Switch芯片 X800系列交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台。英伟达还新发布了搭载64个800Gb/s端口、配备RoCE自适应路由的NVIDIA Quantum-X800 InfiniBand交换机，和搭载144个800Gb/s端口，网络内计算性能达到14.4TFLOPs的Spectrum-X800交换机。X800系列新交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台，与上一代产品相比，带宽容量提高了5倍，网络计算能力则凭借NVIDIA SHARPv4技术提高9倍。 Quantum-X800 InfiniBand交换机和Spectrum-X800交换机面对客户群体略有差异： 1）Quantum-X800InfiniBand：包含Nvidia Quantum Q3400交换机和Nvidia connectX-8SuperNlc，适用于追求超大规模、高性能的客户； 2）Spectrum-X800以太网：包含SpectrumSN5600 800GB/S交换机和Nvidia BlueField-3SuperNIC，适用于多租户、工作负载多样性，且需融入生成式AI应用的客户 X800系列交换机的首批采用者包括Microsoft Azure、Oracle Cloud Infrastructure（OCI）和Coreweave等，预计将于明年上市。 1.4、单芯片和互联产品帮助打造大规模AI算力集群，实现性能跃升和能耗降低英伟达从售卖单芯片转向售卖算力硬件系统，推出超级芯片GB200（2GPU+1 CPU）、超级计算机GB200 NVL72（72GPU+36CPU）和DGX Super POD一站式AI超算解决方案（576GPU+288CPU）。超级芯片GB200：新精度下算力大幅提升。GB200是通过900GB/s低功耗NVLink芯片间互连，将2颗Blackwell GPU + 4个die + 1颗ARM Grace CPU连接得到的超级芯片，具备16TB/s的HBM、3.6TB/s的显存带宽。计算性能上，在新的FP4精度下可达到40PF

点击免费查看完整报告

你可能感兴趣

英伟达GTC2024大会点评：Blackwell平台实现AI性能跃升，软硬协同助力英伟达转型AI全链条平台

你可能感兴趣

英伟达GTC2024：从硬件到软件的AI全链条服务

美股AI周报（2024.3.18-2024.3.22）：2024GTC大会召开，英伟达发布全新Blackwell系列芯片

计算机行业专题研究：英伟达GTC大会发布Blackwell平台，引领加速计算新时代

美股AI周报：美联储维持利率不变，英伟达GTC大会发布Blackwell Ultra GPU

GTC大会发布最新计算平台Blackwell，持续引领AI行业变革