事件:美国时间3月18日-3月21日期间,英伟达举行GTC 2024大会。其中美国时间3月18日下午1:00-3:00,英伟达CEO黄仁勋发表了《见证AI的变革时刻》的主题演讲,分享在芯片迭代、软件生态和机器人等应用上的进展。 Blackwell新架构:多芯片封装、Transformer引擎和互联传输升级,助力单芯片性能和整体算力集群性能提升。1)4NP制程+双芯片设计,将2颗GPU以10 TB/s通信速率融合成一颗芯片,晶体管数量由H100的800亿提升至2080亿,大幅提升单芯片处理能力;2)第二代Transformer引擎,使Blackwell具备在FP4精度的AI推理能力,能在将性能和效率翻倍的同时保持混合专家模型的高精度;3)互联传输方面,NVLink+NVLink Switch+X800系列交换机提升集群通信连接速率;4)内嵌解压引擎、RAS引擎和加密协议。 通信互联:推出第五代NVLink、NVLink Switch和X800系列交换机,增强大规模AI算力网络传输速度。1)第五代NVLink:带宽突破1.8TB/s,相比第四代提升一倍;2)NVLinkSwitch:支持576颗GPU组成计算集群,上一代仅支持256颗GPU连接;3)X800系列交换机:成为全球首款具备端到端800Gb/s吞吐量的网络平台,相比上代产品带宽容量提高5倍,网络计算能力提高9倍。 英伟达推出B200GPU、超级芯片、服务器到大型算力集群等全套算力硬件组合。 1)B200:搭载8颗HBM3e,内存容量达192GB,FP4精度下算力高达20 PFLOPS,预计2024年晚些时间上市;2)超级芯片GB200:2颗Blackwell GPU+1颗Grace CPU,FP4精度下算力高达40PFLOPS;3)超级计算机GB200 NVL72:72颗BlackwellGPU+36颗Grace CPU,训练和推理性能相比等同数量的H100GPU表现提升4倍和30倍;4)DGX Super POD:一站式AI超算解决方案,搭载8套DGX GB200 NVL72系统,有望成为未来重要基础设施。 软件工具链:NIM打通软硬件、降低客户软件开发难度,NeMo帮助企业采用专用数据开发定制大模型,英伟达将逐步转型成类苹果/微软的平台提供商。1)NIM推理微服务:集成数十个企业级生成式AI模型,可提供从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路,帮助开发者在CUDA GPU上创建和部署生成式AI应用;2)NeMo Retriever:挖掘企业“数据金矿”价值,客户可以使用其他公司或英伟达提供的行业基础NeMo并添加自己的数据来生成专用大模型;3)NIM已在半导体、医药等多领域落地。 软件应用:英伟达拓展AI应用发展方向,积极在机器人和自动驾驶等领域开展合作。1)机器人:英伟达看好AI+机器人领域前景,发布机器人基础大模型ProjectGR00T,推出JetsonThor计算机、Isaac软件开发工具和库等,并与众多公司在机器人开发领域达成合作关系;2)自动驾驶:自动驾驶芯片采用Blackwell新架构,英伟达与比亚迪等车企加强合作。 硬件迭代+软件协同+拓展应用领域,我们看好AI算力产业链维持高景气度,建议关注:1)英伟达:AI芯片性能强劲,软硬件协同服务打开想象空间;2)其他AI芯片:AMD、英特尔;3)服务器:超微电脑、联想集团、工业富联、戴尔科技、慧与;4)HBM:三星电子、SK海力士、美光科技;5)ASIC芯片设计:Marvell科技、博通;6)CoWoS:台积电、日月光、Amkor科技;7)CoWoS设备:ASMPT;8)云技术服务商:Oracle;9)光模块:中际旭创。 风险分析:1)下游应用程序开发和场景拓展较慢,导致AI商业化进度不及预期; 2)B200等新品产能扩张受限,数据中心业务出货量不及预期;3)若AIGC进展不及预期,大模型训练和推理的算力需求高速增长的可持续性或降低。 1、硬件:“AI核弹”Blackwell新架构发布,硬件设备全面升级 英伟达Blackwell新架构实现从GPU、互联通信、超级芯片到大型算力集群的全面性能提升。英伟达CEO黄仁勋将Blackwell架构称为“推动新一轮工业革命的引擎”,并定义其成为计算平台,一方面实现训练、推理性能、通信传输速度、能效的大幅提升,另一方面构建GPU、网络通信产品、AI超级芯片、服务器、大型算力集群、云服务等全套硬件产品,我们认为英伟达从芯片厂商走向了类“苹果”的平台之路。 1.1、Blackwell新架构:单芯片性能和整体算力集群性能提升明显 多芯片封装、Transformer引擎和互联传输升级,帮助Blackwell实现单芯片和整体算力集群的表现升级。时隔两年,英伟达发布全新Blackwell架构,相较于上一代Hopper架构的产品,Blackwell架构的芯片和相关硬件设备以提升单个芯片的性能为基础,同时加强了大规模AI算力集群的算力,全面提升AI大模型的加速效果。此次Blackwell架构有以下6个方面的技术突破: (1)制程优化,首次采用双芯片设计:采用定制的、双reticle的台积电4NP(4N工艺的改进版本)制程工艺,首次采用MCM(多芯片封装),将两个GPU裸片通过C2C以10 TB/s通信速率融合在一个芯片中,晶体管数量达到了2080亿。没有内存局部性问题或缓存问题,因此CUDA将其视为单块GPU,从而大幅度提高了处理能力。 (2)内嵌第二代Transformer Engine提升Transformer模型的加速效果:第二代Transformer Engine使用Blackwell Tensor核心技术,将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度,提升了不同参数规模Transformer模型的加速效果。 (3)第5代NVLink技术和NVLink Switch提升集群通信连接速率:第五代NVLink将GPU卡间连接速率提升到1.8TB/S,NVLink Switch支持与多个 NVLink连接,可高速互联576颗GPU组成计算集群,为AI大模型高密度、大规模训练提供有力的AI算力支持。 (4)内嵌加密协议,保障数据安全:Blackwell芯片引入的原生界面加密协议包含NVIDIA机密运算,能以强大的硬件安全防护来保护敏感资料和AI模型,保障计算过程中的数据安全。 (5)配备解压引擎,为大数据处理和数据科学场景提供有力支持:Blackwell配备解压引擎,运用900 GB/s的双向频宽,有效支持当前最新的数据格式的处理、查询和分析,实现资料分析与资料科学的最高效能。 (6)内嵌RAS引擎,保障AI训练的稳定性:Blackwell架构的芯片内嵌的RAS引擎可快速定位问题来源并实行有效的补救措施,尽可能减少停机时间,同时可自动预测、通过智能化预防措施处理在训练过程中可能出现的问题,从而保障长时间的AI训练。 图1:Blackwell和Hopper架构GPU对比,左为Blackwell架构的B200芯片 1.2、B200GPU:基于Blackwell架构,实现算力增长、内存升级和网络传输加快 B200首次采用多芯片封装(MCM),实现算力增长、内存升级和网络传输加快。 作为NVIDIA Blackwell架构首款新产品,B200采用双芯片设计,两个芯片通过C2C连接成一个GPU,互联速度高达10TB/s;并采用台积电定制的4NP制程,晶体管数量达到2080亿,对比上一代Hopper架构的H100晶体管数量只有800亿(未采用双芯片设计)。B200预计2024年晚些时间上市。 1)双芯片设计+第二代Transformer引擎,助力算力大幅提升至2.5倍。使用定制的Blackwell Tensor核心技术,支持新的FP4、FP6精度计算加速AIGC推理和LLM,在FP4精度下,AI算力可实现20PFLOPs,提升至H100 4PFLOPs的2.5倍; 2)搭配8颗HBM3e内存(Hopper架构的H200共计6颗),内存容量达到192GB; 3)采用第五代NVLink高速互联,带宽突破1.8 TB/s,相比Hopper架构和Ampere架构有了巨幅提升,最大可支持10万亿参数的模型的训练。 图2:英伟达历代架构算力对比,Blackwell提升明显 表1:B200、H100和H200性能比较 1.3、通信互联:NVLink+NVLinkSwitch+X800系列交换机,增强大规模AI算力网络传输速度 第五代NVLink带宽突破1.8TB/s。NVLink可在内存墙无法突破的情况下,最大化提升CPU和GPU之间通信的效率,于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用,当时的带宽为160GB/s,到H100采用的第四代NVLink,其带宽已经达到900GB/s,而B200采用的第五代NVLink带宽提升一倍、突破1.8TB/s。 表2:英伟达历代NVLink主要参数对比 最新NVLink Switch芯片支持576颗GPU组成计算集群。NVLink Switch支持与多个NVLink连接,实现NVLink在单节点、节点之间互联,进而创建更高带宽的GPU算力集群,基于最新的NVLink Switch芯片(台积电 4nm 工艺,500亿个晶体管),可实现576颗GPU组成计算集群,上一代产品仅支持256颗GPU。 表3:英伟达历代NVLinkSwitch主要参数对比 图3:最新NVLink Switch芯片 X800系列交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台。英伟达还新发布了搭载64个800Gb/s端口、配备RoCE自适应路由的NVIDIA Quantum-X800 InfiniBand交换机,和搭载144个800Gb/s端口,网络内计算性能达到14.4TFLOPs的Spectrum-X800交换机。X800系列新交换机成为全球首款具备端到端800Gb/s吞吐量的网络平台,与上一代产品相比,带宽容量提高了5倍,网络计算能力则凭借NVIDIA SHARPv4技术提高9倍。 Quantum-X800 InfiniBand交换机和Spectrum-X800交换机面对客户群体略有差异: 1)Quantum-X800InfiniBand:包含Nvidia Quantum Q3400交换机和Nvidia connectX-8SuperNlc,适用于追求超大规模、高性能的客户; 2)Spectrum-X800以太网:包含SpectrumSN5600 800GB/S交换机和Nvidia BlueField-3SuperNIC,适用于多租户、工作负载多样性,且需融入生成式AI应用的客户 X800系列交换机的首批采用者包括Microsoft Azure、Oracle Cloud Infrastructure(OCI)和Coreweave等,预计将于明年上市。 1.4、单芯片和互联产品帮助打造大规模AI算力集群,实现性能跃升和能耗降低 英伟达从售卖单芯片转向售卖算力硬件系统,推出超级芯片GB200(2GPU+1 CPU)、超级计算机GB200 NVL72(72GPU+36CPU)和DGX Super POD一站式AI超算解决方案(576GPU+288CPU)。 超级芯片GB200:新精度下算力大幅提升。GB200是通过900GB/s低功耗NVLink芯片间互连,将2颗Blackwell GPU + 4个die + 1颗ARM Grace CPU连接得到的超级芯片,具备16TB/s的HBM、3.6TB/s的显存带宽。计算性能上,在新的FP4精度下可达到40PF