热门搜索：

英伟达GTC大会跟踪：零部件升级是最大亮点

信息技术2024-03-26刘泽晶华西证券洪

AI智能总结

英伟达在GTC大会上发布了新架构Blackwell，该架构的B200 GPU拥有2080亿个晶体管，支持新的FP6格式，可为AI计算提供更加灵活和高效的解决方案。Blackwell架构GPU还支持新的FP6格式，这种新的格式将为AI计算提供更加灵活和高效的解决方案。此外，英伟达还发布了多款软件服务，包括生成式AI微服务、Project GROOT人形机器人项目、Drive Thor芯片等，以巩固其AI生态。受益标的包括润泽科技、润建股份、亚康股份、云赛智联、鸿博股份、首都在线等。建议关注全球加速计算的持续升级和万物AI的时代的到来。

证券研究报告|行业动态报告 2024年03月25日英伟达GTC大会跟踪:零部件升级是最大亮点评级及分析师信息行业评级：推荐行业走势图 5%-5%-15%-25%-35% -46% 2023/032023/062023/092023/12 计算机沪深300 分析师：刘泽晶邮箱：liuzj1@hx168.com.cnSACNO：S1120520020002联系电话：计算机行业英伟达新架构Blackwell正式发布，引爆全球算力:黄仁勋表示，Blackwell将成为世界上最强大的芯片。Blackwell架构的B200GPU拥有2080亿个晶体管。同时带有192GB速度为8Gbps的HBM3E内存，AI算力能达到20petaflops（FP4精度），相比之下，上代的H100仅为4petaflops;而GB200超级芯片可以为大语言模型（LLM）推理负载提供30倍的性能提升，并将成本和能耗降低高达25 倍；Blackwell架构GPU还支持新的FP6格式，这种新的格式将为AI计算提供更加灵活和高效的解决方案。 DGXSuperPOD来袭，引领万亿参数生成式AI市场:然而从整机的解决方案来说，我们可以简单将英伟达的Blackwell产品分为三类。分别是英伟达HGXB100、HGXB200、DGXGB200。而其中最重磅的代表为DGXGB200完整服务器结合了36颗NVIDIAGraceCPU和72块BlackwellGPU。这些超级芯片通过第五代NVLink连接成一台超级计算机，可处理多达27万亿个AILLM参数模型。值得关注的一点是，GB200NVL72内部互联采取的是铜互连形式。从整机系统构造来说，英伟达发布全新的Blackwell架构DGXSuperPOD，简而言之，它将八个GB200NVL72合为一体，总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。黄仁勋更是在GTC上直言“DGXSuperpod就是AI的革命工厂！” 英伟达发布多款软件服务，巩固其AI生态：1、英伟达推出生成式AI微服务，供开发者在CUDAGPU系统中创建部署生成式AI助手，NIM可大幅缩短其部署时间；2、英伟达推出ProjectGROOT人形机器人项目，同时推出机器人大脑芯片JstsonThor；3、英伟达推出DriveThor芯片，赋能智能驾驶，可提供每秒2000万亿次浮点运算性能；4、发布多款技术，助力全球生成式AI，其中包括Earth-2API、量子计算平台、数字人技术等。投资建议：我们判断以英伟达为首的硬件公司架构持续升级，全球加速计算呈现持续升级的状态，万物AI的时代有望加速到来。受益标的：请仔细阅读在本报告尾部的重要法律声明 1、算力租赁:润泽科技、润建股份、亚康股份、云赛智联、鸿博股份、首都在线等； 2、国产链：高新发展、中科曙光、恒为科技、神州数码、泰嘉股份、海光信息、开普云； 3、NV链：工业富联。风险提示 1、政策不及预期的风险；2、AI伦理风险；3、技术升级不及预期的风险；4、中美贸易摩擦升级的风险。正文目录 1.英伟达GTC大会跟踪，全球加速计算持续升级4 1.1.英伟达引领全球计算架构持续升级4 1.2.英伟达发布多款软件服务，巩固其AI生态8 2.投资建议：14 3.风险提示14 图目录图表1左为GH100，右手为Blackwell4 图表2Blackwell架构示意图5 图表3GB200架构其中包含两个GPU和一个CPU5 图表4HGXB200和HGXB100参数一览6 图表5英伟达GB200NVL72架构示意图6 图表6英伟达GB200NVL液冷图示6 图表7GB200NVL72实时LLM推理速度7 图表8英伟达GB200NVL大规模培训速度7 图表9GB200NVL72节能基础设施能耗7 图表10英伟达GB200NVL数据处理速度7 图表11HGXB200和HGXB100参数一览8 图表12英伟达AI微服务搭建AI框架示意图9 图表13英伟达AI微服务示意图10 图表14英伟达机器人示意图10 图表15DriveThor人工智能计算路线图的下一代产品11 图表16DriveThor多域计算示意图12 图表17英伟达发布地球气候数字孪生示意图13 图表18英伟达数字人示意图14 1.英伟达GTC大会跟踪，全球加速计算持续升级 1.1.英伟达引领全球计算架构持续升级英伟达新架构Blackwell正式发布：根据机器之心3月19日消息，英伟达GTC大会正式召开，在全球的科技公司争抢H100的背景下，新一代系列产品Blackwell芯片袭来，从此以后，在数万亿参数上构建和运行实时生成式AI大型语言模型的成本和能耗降低到此前的1/25。图表1左为GH100，右手为Blackwell 资料来源：机器之心，华西证券研究所相较于上一代Hopper架构，其性能怪兽正式发布： 1、制成情况：黄仁勋表示，Blackwell将成为世界上最强大的芯片。Blackwell架构的B200GPU拥有2080亿个晶体管，采用定制的、双reticle的台积电4NP（4N工艺的改进版本）制程工艺，两块小芯片之间的互联速度高达10TBps，可以大幅度提高处理能。 2、带宽及存储情况：它还带有192GB速度为8Gbps的HBM3E内存，AI算力能达到20petaflops（FP4精度），相比之下，上代的H100仅为4petaflops。 3、算力及能耗情况：相较于H100TensorCoreGPU，GB200超级芯片可以为大语言模型（LLM）推理负载提供30倍的性能提升，并将成本和能耗降低高达25倍。 4、算力精度情况：Blackwell架构GPU还支持新的FP6格式，这是一种介于FP4和FP8两者之间的解决方案。这种新的格式将为AI计算提供更加灵活和高效的解决方案，从而推动AI技术的发展。图表2Blackwell架构示意图资料来源：华尔街见闻，华西证券研究所具体来讲，此次的新产品系列分为两款：分别是B200和GB200产品系列，B100不是新发布的主角，仅在HGXB100板卡中被提及。其中B200GPU通过2080亿个晶体管提供高达20petaflops的FP4吞吐量。而GB200GPU通过900GB/秒的超低功耗芯片到芯片连接，将两个B200GPU连接到1个GraceCPU上。图表3GB200架构其中包含两个GPU和一个CPU 资料来源：极客公园，华西证券研究所然而从整机的解决方案来说，我们可以简单将英伟达的Blackwell产品分为三类：分别是英伟达HGXB100、HGXB200、DGXGB200 其中HGXB100和HGXB200是配备了B100GPU和B200GPU的单基板，其参数性能如下:其中根据知乎，每个B100功耗为700W，每个B200功耗为1000W。图表4HGXB200和HGXB100参数一览资料来源：英伟达官网，华西证券研究所而其中最重磅的代表为DGXGB200完整服务器:基于Blackwell的AI算力将以名为DGXGB200的完整服务器形态提供给用户，结合了36颗NVIDIAGraceCPU和72块BlackwellGPU。这些超级芯片通过第五代NVLink连接成一台超级计算机(后文简称GB200NVL72)。与相同数量的72个H100相比，GB200NVL72的性能绝对是逆天的存在，大模型推理性能可以提升30倍，并且成本和能耗只有前者的1/25。图表5英伟达GB200NVL72架构示意图图表6英伟达GB200NVL液冷图示资料来源：机器之心，华西证券研究所资料来源：机器之心，华西证券研究所这是一个全机架解决方案，有18个1U服务器。其提供的FP8性能为720petaflops，FP4计算性能为1440petaflops，可处理多达27万亿个AILLM参数模型。每台服务器里带有两个GB200GraceBlackwellSuperchip，这些计算节点带有1.7TB的HBM3E内存、32TB/s的内存带宽，并且全部采用液冷MGX封装。然而由于功耗过大，需要采用液冷。图表7GB200NVL72实时LLM推理速度图表8英伟达GB200NVL大规模培训速度资料来源：英伟达官网，华西证券研究所资料来源：英伟达官网，华西证券研究所图表9GB200NVL72节能基础设施能耗图表10英伟达GB200NVL数据处理速度资料来源：英伟达官网，华西证券研究所资料来源：英伟达官网，华西证券研究所值得关注的一点是，GB200NVL72采取的是铜互连形式:根据腾讯网的消息，英伟达GB200NVL72互联模式通过NVSwitch实现，其中GPU与NVSwitch采用铜互联形式（高速背板连接器），外部则使用光互联形式（光模块-I/O连接器）。值得注意的是，其内部使用的电缆长度累计接近2英里，共有5000条独立铜缆。在GTC大会上，黄仁勋对铜连接方案进行了特别讲解，并强调其在成本降低和性能展示上的优势。此外，从整机系统构造来说，英伟达发布全新的Blackwell架构DGXSuperPOD，适用于万亿参数级的生成式AI超级计算：基于先进的NVIDIA网络、NVIDIA全栈AI软件和存储技术，可将集群中GraceBlackwell超级芯片的数量扩展至数万个，通过NVIDIANVLink可将多达576块BlackwellGPU连成一个整体，由NVIDIA系统专家加速即时AI基础设施的部署。全新DGXSuperPOD采用新型高效液冷机架级扩展架构，基于NVIDIADGX™GB200系统构建而成，在FP4精度下可提供11.5exaflops的AI超级计算性能和240TB的快速显存，且可通过增加机架来扩展性能。简而言之，它将八个GB200NVL72合为一体，总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。黄仁勋更是在GTC上直言“DGXSuperpod就是AI的革命工厂！” 图表11HGXB200和HGXB100参数一览资料来源：新浪财经，华西证券研究所英伟达持续巩固其AI霸主地位，相关产业链公司也将提供各自解决方案：我们判断，英伟达通过发布Blackwell架构GPU，再次巩固了自身在人工智能市场的主导地位，开创了AI计算的新时代。根据新浪新闻消息，Dell、HPE、联想、Supermicro、Aivres、华擎、华硕、Eviden、技嘉、英业达、和硕、云达、纬创、Wiwynn和ZTSystems等OEM厂商也将在未来提供各自的解决方案。 1.2.英伟达发布多款软件服务，巩固其AI生态 1.2.1英伟达推出生成式AI微服务英伟达推出生成式AI微服务，供开发者在CUDAGPU系统中创建部署生成式AI助手:英伟达在GTC大会上推出数十项企业级生成式AI微服务，企业可以利用这些微服务在自己的平台上创建和部署定制应用，同时保留对知识产权的完整所有权和控制权。这些云原生微服务目录在NVIDIACUDA®平台上开发，其中包括NVIDIANIM™微服务，可适用于NVIDIA及合作伙伴生态系统中20多个热门的AI模型进行推理优化。图表12英伟达AI微服务搭建AI框架示意图资料来源：36氪，华西证券研究所 NIM的优势在于: 1、大幅缩短部署时间：NIM微服务提供基于NVIDIA推理软件的预构建容器，包括Triton推理服务器™和TensorRT™-LLM，使开发者能够将部署时间从几周缩短至几分钟。 2、标准化API，为生成式AI提供灵活性：语言、语音和药物发现等领域提供行业标准API，使开发者能够使用安全托管在自己的基础设施中的专有数据，来快速构建AI应用。这些应用可按需扩展，从而为在NVIDIA加速计算平台上运行生产级生成式AI提供灵活性和性能。 3、赋能企业平台:NVIDIA生态系统中的数据

点击免费查看完整报告

你可能感兴趣

英伟达GTC大会跟踪：零部件升级是最大亮点

你可能感兴趣

电子行业周报：铜缆互联成为英伟达GTC大会亮点，头部厂商纷纷布局AIPC

互联网传媒研究周报：英伟达召开GTC大会，硬件升级促进VR行业发展

AI 行业跟踪报告之六：英伟达2023年GTC大会：AI的iPhone时刻

全球科技产业周报（第135期）：英伟达举办2020 GTC China大会，华为发布鸿蒙OS手机开发者Beta版

通信行业周报：英伟达GTC大会将至，关注AI算力网络与液冷新机会