新一代Blackwell架构、超级芯片GB200发布,模型训练时长、功耗效率表现提高数倍。当地时间2024年3月18日,黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开2024年GTC大会的序幕。英伟达推出全新Blackwell架构GPU。1)Blackwell用于数据中心,针对当前火爆的AI大模型优化,训练、推理性能和能效均大幅提升,与Grace CPU、新一代网络芯片等产品一起,面向生成式AI共同组成完整解决方案。黄仁勋还特意称,Blackwell不只是芯片,而是一个全新的平台。2)基于Blackwell的处理器,B200为人工智能公司提供了巨大的性能升级,其AI性能为每秒20千万亿次浮点运算,而此前基于Hopper架构的最强的H100为每秒4千万亿次浮点运算,约是其5倍。如果要用Hopper训练一个拥有1.8万亿参数的GPT模型,可能需要8000个GPU,并消耗15兆瓦的电力。如果使用Blackwell来训练,只需要2000个GPU,同样的90天,但功耗降低至约四分之一,仅需4兆瓦的电力。2)新一代超级芯片GB200在拥有1750亿参数的GPT-3大模型基准测试中,性能是H100的7倍,训练速度是H100的4倍。此外,GB200是NVIDIA GB200 NVL72的关键组件。GB200 NVL72作为单个GPU运行,具有1.4 exaflops的AI性能和30TB的快速内存,用于LLM推理工作负载,并将成本和能源消耗降低多达25倍。 生成式AI微服务(NIM)发布,模型部署时间从几周缩减到几分钟。1)NIM是一套优化的云原生微服务,旨在缩短上市时间并简化在任何地方部署生成式AI模型的过程,包括云、数据中心和GPU加速的工作站。它通过使用行业标准API,抽象了AI模型开发和为生产打包的复杂性,扩大了开发者群体,将部署时间从几周缩短到几分钟。2)作为NVIDIA AI企业版的一部分,NIM以每年每GPU4500美元、或云端每小时每GPU1美元的价格,为开发AI驱动的企业应用和在生产中部署AI模型提供了一条简化的路径。3)GTC大会上,英伟达新发布了数十种NIM,企业可以使用这些微服务在自己的平台上创建和部署定制应用程序,同时完全拥有并控制其知识产权。黄仁勋发言称,现有的企业平台拥有可以转化为生成式AI辅助的数据宝藏;这些与英伟达的合作伙伴生态系统共同创建的容器化AI微服务是每个行业的企业成为AI公司的基石。 GR00T基础模型、Isaac机器人平台重大更新。1)在GTC大会上,英伟达宣布Project GR00T启动。这是一个通用的人形机器人基础模型,旨在推动其在机器人技术和具体化人工智能方面的突破。由GR00T驱动的机器人将被设计为理解自然语言并通过观察人类行动来模仿动作,包括快速学习协调、灵巧等技能,以便在现实世界中导航、适应和互动等。在GTC主题演讲中,黄仁勋展示了几种这样的机器人完成各种任务。2)Isaac机器人平台也进行了重大升级,包括生成式AI基础模型以及用于仿真和AI工作流程基础设施的工具。新的Isaac Lab是一个基于Isaac Sim构建的GPU加速、轻量级、性能优化的应用,专门用于运行成千上万的并行仿真,以进行机器人学习。 Blackwell助力DRIVEThor平台定义自动驾驶,与多家中国车企展开合作。1)DRIVE Thor是英伟达为生成式AI应用设计的车载计算平台。随着Blackwell架构的推出,DRIVE Thor将与Blackwell架构整合,预计最早在明年的生产车辆中使用。2)GTC大会上,英伟达宣布与多家中国车企加强基于DRIVEThor平台的合作,包括比亚迪、小鹏汽车、以及广汽埃安旗下的Hyper品牌。在此之前,理想汽车和吉利旗下的极氪汽车均宣布将采用英伟达的DriveThor技术。 投资标的: 算力侧:中科曙光、浪潮信息、海光信息、利通电子、高新发展、中际旭创、新易盛、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 自动驾驶:江淮汽车、赛力斯、长安汽车、北汽蓝谷、德赛西威、中科创达、华依科技、万马科技、阿尔特、菱电电控、经纬恒润、东风汽车、光庭信息等。 机器人:三花智控、鸣志电器、拓普集团、绿的谐波。 AI相关:金山办公、大华股份、海康威视、昆仑万维、科大讯飞、润达医疗、中广天泽、漫步者、紫天科技、万兴科技。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 1.新一代Blackwell架构、超级芯片GB200发布 当地时间2024年3月18日,黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开2024年GTC大会的序幕。在两个小时的演讲中,黄仁勋围绕五大板块,介绍了英伟达的最新研发进展:新的产业发展、Blackwell平台、创新软件NIMs、AI平台NEMO和AI工坊(AI foundry)服务,以及仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台。 时隔两年推出全新Blackwell架构GPU。新GPU架构Blackwell得名于美国数学家David Harold Blackwell。Blackwell用于数据中心,针对当前火爆的AI大模型优化,训练、推理性能和能效均大幅提升,与Grace CPU、新一代网络芯片等产品一起,面向生成式AI共同组成完整解决方案。黄仁勋还特意称,Blackwell不只是芯片,而是一个全新的平台。 图表1:Blackwell与Hopper对比(左:GB200;右:GH100) Blackwell拥有六项革命性技术,共同支持AI训练和实时LLM推理,模型可扩展至10万亿个参数: “世界上最强大的芯片”:搭载2080亿个晶体管,Blackwell架构GPU采用定制的4NP TSMC工艺制造,两个视网膜限制级GPU芯片通过10 TB/秒的芯片间连接链接成一个统一的GPU。 第二代Transformer引擎:通过新的微张量扩展支持和NVIDIA集成的高级动态范围管理算法,加入到NVIDIA TensorRT™-LLM和NeMo Megatron框架中,Blackwell将支持双倍的计算和模型大小,具备新的4位浮点AI推理能力。 第五代NVLink:为了加速对多万亿参数和混合专家模型的性能,NVIDIA NVLink的最新迭代提供了前所未有的每哥GPU1.8TB/s的双向吞吐量,确保了最复杂的LLMs间高达576个GPU的无缝高速通信。 RAS引擎:Blackwell驱动的GPU包括一个专用于可靠性、可用性和服务能力的引擎。此外,Blackwell架构在芯片级别增加了利用基于AI的预防性维护能力,以运行诊断和预测可靠性问题。这最大化了系统运行时间,提高了大规模AI部署的弹性,使其能够无中断运行数周甚至数月,并降低了运营成本。 安全AI:先进的保密计算能力在不影响性能的情况下保护AI模型和客户数据,支持新的原生接口加密协议,这对于像医疗保健和金融服务这样对隐私敏感的行业至关重要。 解压缩引擎:一个专用的解压缩引擎支持最新格式,加速数据库查询以提供数据分析和数据科学中的最高性能。在未来几年,公司每年将在数据处理上花费数百亿美元,这将越来越多地通过GPU加速。 图表2:Blackwell六大核心技术 Blackwell vs. Hopper:5倍AI性能,4倍片上存储,功耗显著降低至四分之一。基于Blackwell的处理器,B200为人工智能公司提供了巨大的性能升级,其AI性能为每秒20千万亿次浮点运算,而此前基于Hopper架构的最强的H100为每秒4千万亿次浮点运算,约是其5倍。根据黄仁勋主题演讲,如果要用Hopper训练一个拥有1.8万亿参数的GPT模型,可能需要8000个GPU,并消耗15兆瓦的电力。如果使用Blackwell来训练,只需要2000个GPU,同样的90天,但仅需4兆瓦的电力。 图表3:Blackwell与Hopper性能对比 新一代超级芯片GB200。本次GTC大会上,随着Blackwell架构GPU发布,英伟达顺势推出了“Grace Blackwell”GB200超级芯片。 从架构上来看,GB200通过900GB/s的超低功耗NVLink将两个Blackwell B20连接到一个Grace CPU。 为了获得最高的AI性能,GB200驱动的系统可以与今天同样宣布的NVIDIA Quantum-X800InfiniBand和Spectrum™-X800以太网平台连接,这些平台提供高达800Gb/s的高级网络速度。 在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。 图表4:GB200 Grace Blackwell超级芯片 GB200是NVIDIA GB200 NVL72的关键组件。1)GB200NVL72是一个多节点、液冷、机架规模系统,专为最计算密集型的工作负载设计。2)从架构来看,NVL72组合了36个Grace Blackwell Superchips,其中包括72个Blackwell GPU和36个Grace CPU,通过第五代NVLink互连。此外,GB200 NVL72还包括NVIDIA BlueField-3数据处理单元,以实现云网络加速、可组合存储、零信任安全性和在超大规模AI云中的GPU计算弹性。3)从性能来看,GB200 NVL72作为单个GPU运行,具有1.4 exaflops的AI性能和30TB的快速内存,并且是最新DGX SuperPOD的构建模块。GB200 NVL72提供的性能提升高达与相同数量的NVIDIA H100 Tensor Core GPU相比的30倍,用于LLM推理工作负载,并将成本和能源消耗降低多达25倍。 图表5:GB200NVL72 2.生成式AI微服务(NIM)发布 生成式AI的采用率显著增长,NIM带来部署AI模型的简化路径。1)OpenAI在2022年推出ChatGPT后,这项新技术在几个月内吸引了过亿用户,并促使几乎所有行业的开发活动激增。2)到了2023年,开发者开始使用Meta、Mistral、Stability等的API和开源社区模型进行概念验证。3)进入2024年,企业开始将重点转向全面的生产部署,这涉及将AI模型连接到现有的企业基础设施、优化系统延迟和吞吐量、日志记录、监控和安全等。这条通往生产的路径复杂且耗时——它需要特殊的技能、平台和流程,尤其是在大规模时。4)NVIDIA NIM,作为NVIDIA AI企业版的一部分,以每年每GPU4500美元、或云端每小时每GPU1美元的价格,为开发AI驱动的企业应用和在生产中部署AI模型提供了一条简化的路径。 NIM是一套优化的云原生微服务,旨在缩短上市时间并简化在任何地方部署生成式AI模型的过程,包括云、数据中心和GPU加速的工作站。它通过使用行业标准API,抽象了AI模型开发和为生产打包的复杂性,扩大了开发者群体。NVIDIA NIM旨在桥接AI开发的复杂世界与企业环境的运营需求之间的差距,使得10-100倍更多的企业应用开发者能够为他们公司的AI转型做出贡献。 图表6:NIM核心优势 NIM的核心优势包括以下几点: 随处部署:NIM构建了可移植性和控制性,使得模型可以跨各种基础设施部署,从本地工作站到云端再到现场数据中心。这包括NVIDIA DGX、NVIDIA DGX Cloud、NVIDIA认证系统、NVIDIA RTX工作站和PC。 行业标准API开发:开发者可以通过遵循每个领域行业标准的API访问AI模型,简化AI应用的开发。这些API与生态系统内的标准部署流程兼容,使得开发者可以迅速更新他们的AI应用——通常只需三行代码。这种无缝集成和易用性促进了AI解决方案在企业环境中的快速部署和扩展。 领域特定模型:NIM还通过几个关键特性解决了对领域特定解决方案和优化性能的需求