您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国联证券]:计算机行业专题研究:英伟达GTC大会发布Blackwell平台,引领加速计算新时代 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业专题研究:英伟达GTC大会发布Blackwell平台,引领加速计算新时代

计算机行业专题研究:英伟达GTC大会发布Blackwell平台,引领加速计算新时代

英伟达发布Blackwell架构 北京时间3月19日,NVIDIA在2024年GTC大会上推出全新的Blackwell架构芯片平台。Blackwell单芯片FP8性能是上一代架构的2.5倍,FP4性能是提升至5倍,互联速度提升至2倍,并且可扩展至576个GPU。B200 GPU芯片是由两个Blackwell芯片组合。两个B200 GPU、一个NVIDIAGrace CPU通过900GB/s超低功耗的NVLink芯片间互连成为GB200超级芯片。两个超级芯片封装到主板上,成为1个计算节点。18个计算节点通过速度高达800Gb/s的Quantum-X800 InfiniBand和Spectrum-X800以太网平台连接,组成GB200 NVL72计算单元,可实现720 petaflops的AI训练性能和1.4 exaflops的AI推理性能。 构建软件生态,降低GPU使用门槛 NVIDIA推出NIM微服务,其根据NVIDIA的加速计算库和生成式AI模型构建的,旨在弥合复杂的AI开发世界与企业环境运营需求之间的差距,使开发人员能够将部署时间从几周缩短到几分钟。NIM打包了特定领域的NVIDIA CUDA库以及针对语言、语音、视频处理、医疗保健等各个领域量身定制的专用代码,满足对特定领域解决方案和优化性能的需求。此外Omniverse™Cloud将以API形式提供,将交互式可视化和协作引入工业应用,加速自主机器开发,与Apple Vision Pro结合提供空间计算体验。 GROOT项目推动机器人突破 NVIDIA宣布推出GR00T项目,这是一个为人形机器人设计的通用基础模型,旨在进一步推动在机器人技术和具身智能方面的突破性工作。项目推出了一款基于NVIDIA Thor系统级芯片用于人形机器人的新型计算机Jetson Thor,并对Isaac机器人平台进行了重大升级。GR00T经过NVIDIA GPU加速模拟训练,可以使人形实体能够从少量人类演示进行模仿学习和NVIDIA IsaacLab强化学习,并根据视频数据生成机器人动作。此外NVIDIA Omniverse, Metropolis,Isaac and cuOpt可以结合起来创建一个数字孪生空间,机器人、智能体可以进行训练和评估,从而节省大量时间和成本。 投资建议 AI有望重塑各行业,看好算力、应用环节发展机会。英伟达引领加速计算新时代,硬件产品、软件服务推动技术进步和应用扩展。当前AIGC的四个核心要素:数据、算力、模型和应用将不断实现正反馈,推动整个行业的创新和发展。政策引导和供应链安全推动国产算力基础设施建设。建议关注:(1)国产算力基础设施:中科曙光、浪潮信息、紫光股份等;(2)AI应用:①机器视觉:海康威视等;②办公软件:金山办公、用友网络、泛微网络等;③垂直领域:恒生电子、宇信科技、神州信息、卫宁健康等。 风险提示:AI技术发展演进不及预期;商业化进程不及预期;法律政策监管风险;行业竞争加剧风险等。 1.英伟达发布Blackwell架构 北京时间3月19日,英伟达召开公司年度GTC大会,旨在发布新一代产品与应用平台。公司所生产的芯片产品与应用平台受益于新兴产业人工智能行业快速发展,近年来销售额迅速增长并成为产业标杆。公司作为行业领导者,在大会开始发布了对行业的观点:加速计算已达到增长临界点;加速计算比通用计算增长更快,加速计算规模化最受益者为大语言模型行业,在transformer技术普及下,行业每6个月扩展一倍。由于未来各行各业都需要生成式人工智能的加成,GPU的需求会持续旺盛,科学技术的进步需要性能更强大的GPU。 图表1:AI发展历史 1.1Blackwell芯片多性能超越Hopper 英伟达在GTC大会上发布新款GPU芯片与芯片系统:Blackwell B200 GPU和GB200,进一步扩展领先优势。公司新发布的B200芯片是由两个Blackwell芯片组合到一起,以10TB带宽互联,组成B200GPU芯片,该芯片包含2080亿个晶体管,拥有高达20P FP4的性能。 图表2:Balckwell单芯片 图表3:Blackwell GPU芯片 Blackwell训练功耗明显下降。过去训练1.8万亿参数模型需要8000个Hopper GPU以及15兆瓦的功率,现在仅需2000个Blackwell GPU即可在4兆瓦功率下完成任务。新一代B200 GPU在实时大语言模型交互、AI训练端表现、及加速数据处理阶段均大幅领先H100 GPU。 图表4:H100与B100性能比较 新款Blackwell芯片面积上大于上一款Hopper芯片。Blackwell的token生成速度较Hopper多1280亿晶体管,推理能力提高5倍,片上存储能力提高4倍。使用Blackwell比其前身Hopper低25倍的成本和能耗,处理能力可以扩展到具有高达10万亿参数的AI模型。 图表5:Blackwell与Hopper大小比较 图表6:Blackwell与Hopper性能比较 公司发布GB200超级芯片。公司将两个B200 GPU与Grace CPU结合成为GB200超级芯片,通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起。在LLM推理侧性能将提高至30倍。在1750亿个参数的GPT-3 LLM基准测试中,公司称GB200的性能高出H100七倍,训练速度提高了四倍。 图表7:GB200芯片构件组成 图表8:GB200超级芯片性能 1.2新一代计算单元机柜提升AI推理能力 两个超级芯片封装到主板上,成为一个Blackwell计算节点。该节点包含2个Grace CPUs和4个Blackwell GPUs,80petaFLOPS,1.7TB的HMB3e高宽带内存,液冷MGX设计。18个计算节点共有36CPU+72GPU,组成更大的“虚拟GPU”,最大化提升AI优化处理能力。 图表9:Blackwell计算节点 图表10:BLUEFIELD-3 DPU链接 NVIDIA发布专为大规模AI量身订制的全新网络交换机-X800系列。NVIDIA Quantum-X800 InfiniBand网络和NVIDIA Spectrum™-X800以太网络是全球首批高达800Gb/s端到端吞吐量的网络平台,将计算和AI工作负载的网络性能提升到了一个新的水平,与其配套软件联手可进一步加速各种数据中心中的AI、云、数据处理和高性能计算(HPC)应用,包括基于最新的NVIDIA Blackwell架构产品的数据中心。 图表11:NVIDIA Quantum-X800 InfiniBand网络 Blackwell支持了第二代Transformer引擎,通过使用每个神经元的4位而不是8位,使计算、带宽和模型大小翻倍。在连接大量GPU时,通过下一代NVLink交换机将GPU运算进行连接,进一步提升了芯片的AI推理能力 在GB200 NVL72中,包含36个CPU和72个GPU,提供了720P AI训练性能(FP8精度)或1,440P(即1.4exaflops)的推理性能。训练算力接近H100时代一个DGX SuperPod超级计算机集群(1000 PFlops) 图表12:GB200 NVL72组成 图表13:NVLINK SWITCH系统 与相同数量的72个H100相比,GB200 NVL72对于大模型推理性能提升高达30倍,成本和能耗降低高达25倍。将GB200 NVL72看作单个GPU,具有1.4EFlops的AI推理算力和30TB高速内存。 图表14:GB200 NVL72性能情况 此外,NVIDIA还推出了更强大的新一代AI超级计算机——由NVIDIA GB200 Grace Blackwell超级芯片提供支持的NVIDIA DGX SuperPOD,可用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式AI训练和推理工作负载。 全新DGX SuperPOD采用新型高效液冷机架扩展架构,采用NVIDIA DGX GB200系统构建,可在FP4精度下提供11.5 exaflops的AI超级计算能力和240 TB的快速内存,并可通过额外的机架进行扩展。 图表15:NVIDIA DGX SuperPOD Blackwell的六项革命性技术共同实现了可扩展至10万亿个参数的模型的AI训练和实时LLM推理:1)世界上最强大的芯片—Blackwell架构的GPU;2)第二代Transformer引擎—Blackwell将通过新的4位浮点AI推理功能支持双倍的计算和模型大小;3)第五代NVLink-最新版本的NVIDIA NVLink为每个GPU提供突破性的1.8TB/s双向吞吐量;4)RAS引擎—Blackwell驱动的GPU包括一个专用引擎,用于实现可靠性、可用性和可维护性;5)安全AI—高级机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持本机接口加密协议;6)解压缩引擎—专用的解压缩引擎支持最新格式,加速数据库查询。 图表16:Blackwell平台的六项革命性技 2.构建软件生态,降低GPU使用门槛 2.1微服务加速大模型开发部署 NIM微服务提供由NVIDIA推理软件支持的预构建容器(包括Triton Inference Server™和TensorRT™-LLM),旨在弥合复杂的AI开发世界与企业环境运营需求之间的差距,使开发人员能够将部署时间从几周缩短到几分钟。 NIM是NVIDIA AI Enterprise的一部分,采用企业级基础容器构建,通过功能分支、严格验证、服务级别协议的企业支持以及CVE的定期安全更新,为企业AI软件提供坚实的基础。全面的支持结构和优化能力强调了NIM作为在生产中部署高效、可扩展和定制的AI应用程序的关键工具作用。 NIM微服务提供最快、性能最高的生产AI容器,用于部署来自NVIDIA、A121、Adept、Cohere、Getty Images和Shutterstock的模型,以及来自Google、Hugging Face、Meta、Microsoft、Mistral AI和Stability AI的开放模型。客户将能够从Amazon SageMaker、Google Kubernetes Engine和Microsoft Azure AI访问NIM微服务,并与Deepset、LangChain和LlamaIndex等流行的AI框架集成。 图表17:NVIDIA NIM是一种容器化推理微服务 NIM为语言、语音和药物发现等领域提供行业标准的API,使开发人员能够使用安全托管在自己的基础设施中的专有数据快速构建AI应用程序。这些应用程序可以按需扩展,为在NVIDIA加速计算平台上的生产中运行生成式AI提供灵活性和性能。 NIM还通过几个关键功能满足对特定领域解决方案和优化性能的需求,打包了特定领域的NVIDIA CUDA库以及针对语言、语音、视频处理、医疗保健等各个领域量身定制的专用代码,可确保应用程序准确且与其特定用例相关。 目前NIM容器化AI微服务目录包含超过十个医疗保健模型,有可以预测潜在候选药物及其候选蛋白质3D结构的DiffDock,以及可以根据单个氨基酸序列预测蛋白质结构的ESMFold。 图表18:NVIDIA NIM推出多个医疗保健模型 NVIDIACUDA-X构建于CUDA ® 之上,包含开发人员工具、GPU加速库以及打包为云API的技术,易于在数据处理、人工智能和HPC应用程序中集成、定制和部署。 CUDA-X微服务包括用于可定制语音和翻译AI的NVIDIA ® Riva、用于高分辨率气候和天气模拟的NVIDIA Earth-2、用于路径优化的NVIDIA cuOpt™以及用于响应式检 索增强生成(RAG)功能的NVIDIA NeMo™Retriever。 除了领先的应用提供商外,NVIDI