您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:英伟达GTC大会跟踪:零部件升级是最大亮点 - 发现报告
当前位置:首页/行业研究/报告详情/

英伟达GTC大会跟踪:零部件升级是最大亮点

信息技术2024-03-26刘泽晶华西证券
英伟达GTC大会跟踪:零部件升级是最大亮点

证券研究报告|行业动态报告 2024年03月25日 英伟达GTC大会跟踪:零部件升级是最大亮点 评级及分析师信息 行业评级:推荐 行业走势图 5%-5%-15%-25%-35% -46% 2023/032023/062023/092023/12 计算机沪深300 分析师:刘泽晶邮箱:liuzj1@hx168.com.cnSACNO:S1120520020002联系电话: 计算机行业 英伟达新架构Blackwell正式发布,引爆全球算力:黄仁勋表示,Blackwell将成为世界上最强大的芯片。Blackwell架构的B200GPU拥有2080亿个晶体管。同时带有192GB速度为8Gbps的HBM3E内存,AI算力能达到20petaflops(FP4精度),相比之下,上代的H100仅为4petaflops;而GB200超级芯片可以为大语言模型(LLM)推理负载提供30倍的性能提升,并将成本和能耗降低高达25 倍;Blackwell架构GPU还支持新的FP6格式,这种新的格式将为AI计算提供更加灵活和高效的解决方案。 DGXSuperPOD来袭,引领万亿参数生成式AI市场:然而从整机的解决方案来说,我们可以简单将英伟达的Blackwell产品分为三类。分别是英伟达HGXB100、HGXB200、DGXGB200。而其中最重磅的代表为DGXGB200完整服务器结合了36颗NVIDIAGraceCPU和72块BlackwellGPU。这些超级芯片通过第五代NVLink连接成一台超级计算机,可处理多达27万亿个AILLM参数模型。值得关注的一点是,GB200NVL72内部互联采取的是铜互连形式。从整机系统构造来说,英伟达发布全新的Blackwell架构DGXSuperPOD,简而言之,它将八个GB200NVL72合为一体,总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。黄仁勋更是在GTC上直言“DGXSuperpod就是AI的革命工厂!” 英伟达发布多款软件服务,巩固其AI生态:1、英伟达推出生成式AI微服务,供开发者在CUDAGPU系统中创建部署生成式AI助手,NIM可大幅缩短其部署时间;2、英伟达推出ProjectGROOT人形机器人项目,同时推出机器人大脑芯片JstsonThor;3、英伟达推出DriveThor芯片,赋能智能驾驶,可提供每秒2000万亿次浮点运算性能;4、发布多款技术,助力全球生成式AI,其中包括Earth-2API、量子计算平台、数字人技术等。 投资建议: 我们判断以英伟达为首的硬件公司架构持续升级,全球加速计算呈现持续升级的状态,万物AI的时代有望加速到来。 受益标的: 请仔细阅读在本报告尾部的重要法律声明 1、算力租赁:润泽科技、润建股份、亚康股份、云赛智联、鸿博股份、首都在线等; 2、国产链:高新发展、中科曙光、恒为科技、神州数码、泰嘉股份、海光信息、开普云; 3、NV链:工业富联。 风险提示 1、政策不及预期的风险;2、AI伦理风险;3、技术升级不及预期的风险;4、中美贸易摩擦升级的风险。 正文目录 1.英伟达GTC大会跟踪,全球加速计算持续升级4 1.1.英伟达引领全球计算架构持续升级4 1.2.英伟达发布多款软件服务,巩固其AI生态8 2.投资建议:14 3.风险提示14 图目录 图表1左为GH100,右手为Blackwell4 图表2Blackwell架构示意图5 图表3GB200架构其中包含两个GPU和一个CPU5 图表4HGXB200和HGXB100参数一览6 图表5英伟达GB200NVL72架构示意图6 图表6英伟达GB200NVL液冷图示6 图表7GB200NVL72实时LLM推理速度7 图表8英伟达GB200NVL大规模培训速度7 图表9GB200NVL72节能基础设施能耗7 图表10英伟达GB200NVL数据处理速度7 图表11HGXB200和HGXB100参数一览8 图表12英伟达AI微服务搭建AI框架示意图9 图表13英伟达AI微服务示意图10 图表14英伟达机器人示意图10 图表15DriveThor人工智能计算路线图的下一代产品11 图表16DriveThor多域计算示意图12 图表17英伟达发布地球气候数字孪生示意图13 图表18英伟达数字人示意图14 1.英伟达GTC大会跟踪,全球加速计算持续升级 1.1.英伟达引领全球计算架构持续升级 英伟达新架构Blackwell正式发布:根据机器之心3月19日消息,英伟达GTC大会正式召开,在全球的科技公司争抢H100的背景下,新一代系列产品Blackwell芯片袭来,从此以后,在数万亿参数上构建和运行实时生成式AI大型语言模型的成本和能耗降低到此前的1/25。 图表1左为GH100,右手为Blackwell 资料来源:机器之心,华西证券研究所 相较于上一代Hopper架构,其性能怪兽正式发布: 1、制成情况:黄仁勋表示,Blackwell将成为世界上最强大的芯片。Blackwell架构的B200GPU拥有2080亿个晶体管,采用定制的、双reticle的台积电4NP(4N工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达10TBps,可以大幅度提高处理能。 2、带宽及存储情况:它还带有192GB速度为8Gbps的HBM3E内存,AI算力能达到20petaflops(FP4精度),相比之下,上代的H100仅为4petaflops。 3、算力及能耗情况:相较于H100TensorCoreGPU,GB200超级芯片可以为大语言模型(LLM)推理负载提供30倍的性能提升,并将成本和能耗降低高达25倍。 4、算力精度情况:Blackwell架构GPU还支持新的FP6格式,这是一种介于FP4和FP8两者之间的解决方案。这种新的格式将为AI计算提供更加灵活和高效的解决方案,从而推动AI技术的发展。 图表2Blackwell架构示意图 资料来源:华尔街见闻,华西证券研究所 具体来讲,此次的新产品系列分为两款:分别是B200和GB200产品系列,B100不是新发布的主角,仅在HGXB100板卡中被提及。其中B200GPU通过2080亿个晶体管提供高达20petaflops的FP4吞吐量。而GB200GPU通过900GB/秒的超低功耗芯片到芯片连接,将两个B200GPU连接到1个GraceCPU上。 图表3GB200架构其中包含两个GPU和一个CPU 资料来源:极客公园,华西证券研究所 然而从整机的解决方案来说,我们可以简单将英伟达的Blackwell产品分为三类:分别是英伟达HGXB100、HGXB200、DGXGB200 其中HGXB100和HGXB200是配备了B100GPU和B200GPU的单基板,其参数性能如下:其中根据知乎,每个B100功耗为700W,每个B200功耗为1000W。 图表4HGXB200和HGXB100参数一览 资料来源:英伟达官网,华西证券研究所 而其中最重磅的代表为DGXGB200完整服务器:基于Blackwell的AI算力将以名为DGXGB200的完整服务器形态提供给用户,结合了36颗NVIDIAGraceCPU和72块BlackwellGPU。这些超级芯片通过第五代NVLink连接成一台超级计算机(后文简称GB200NVL72)。与相同数量的72个H100相比,GB200NVL72的性能绝对是逆天的存在,大模型推理性能可以提升30倍,并且成本和能耗只有前者的1/25。 图表5英伟达GB200NVL72架构示意图图表6英伟达GB200NVL液冷图示 资料来源:机器之心,华西证券研究所资料来源:机器之心,华西证券研究所 这是一个全机架解决方案,有18个1U服务器。其提供的FP8性能为720petaflops,FP4计算性能为1440petaflops,可处理多达27万亿个AILLM参数模型。每台服务器里带有两个GB200GraceBlackwellSuperchip,这些计算节点带有1.7TB的HBM3E内存、32TB/s的内存带宽,并且全部采用液冷MGX封装。然而由于功耗过大,需要采用液冷。 图表7GB200NVL72实时LLM推理速度图表8英伟达GB200NVL大规模培训速度 资料来源:英伟达官网,华西证券研究所资料来源:英伟达官网,华西证券研究所 图表9GB200NVL72节能基础设施能耗图表10英伟达GB200NVL数据处理速度 资料来源:英伟达官网,华西证券研究所资料来源:英伟达官网,华西证券研究所 值得关注的一点是,GB200NVL72采取的是铜互连形式:根据腾讯网的消息,英伟达GB200NVL72互联模式通过NVSwitch实现,其中GPU与NVSwitch采用铜互联形式(高速背板连接器),外部则使用光互联形式(光模块-I/O连接器)。值得注意的是,其内部使用的电缆长度累计接近2英里,共有5000条独立铜缆。在GTC大会上,黄仁勋对铜连接方案进行了特别讲解,并强调其在成本降低和性能展示上的优势。 此外,从整机系统构造来说,英伟达发布全新的Blackwell架构DGXSuperPOD,适用于万亿参数级的生成式AI超级计算:基于先进的NVIDIA网络、NVIDIA全栈AI软件和存储技术,可将集群中GraceBlackwell超级芯片的数量扩展至数万个,通过NVIDIANVLink可将多达576块BlackwellGPU连成一个整体,由NVIDIA系统专家加速即时AI基础设施的部署。全新DGXSuperPOD采用新型高效液冷机架级扩展架构,基于NVIDIADGX™GB200系统构建而成,在FP4精度下可提供11.5exaflops的AI超级计算性能和240TB的快速显存, 且可通过增加机架来扩展性能。简而言之,它将八个GB200NVL72合为一体,总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。黄仁勋更是在GTC上直言“DGXSuperpod就是AI的革命工厂!” 图表11HGXB200和HGXB100参数一览 资料来源:新浪财经,华西证券研究所 英伟达持续巩固其AI霸主地位,相关产业链公司也将提供各自解决方案:我 们判断,英伟达通过发布Blackwell架构GPU,再次巩固了自身在人工智能市场的主导地位,开创了AI计算的新时代。根据新浪新闻消息,Dell、HPE、联想、Supermicro、Aivres、华擎、华硕、Eviden、技嘉、英业达、和硕、云达、纬创、Wiwynn和ZTSystems等OEM厂商也将在未来提供各自的解决方案。 1.2.英伟达发布多款软件服务,巩固其AI生态 1.2.1英伟达推出生成式AI微服务 英伟达推出生成式AI微服务,供开发者在CUDAGPU系统中创建部署生成式AI助手:英伟达在GTC大会上推出数十项企业级生成式AI微服务,企业可以利用这些微服务在自己的平台上创建和部署定制应用,同时保留对知识产权的完整所有权和控制权。这些云原生微服务目录在NVIDIACUDA®平台上开发,其中包括NVIDIANIM™微服务,可适用于NVIDIA及合作伙伴生态系统中20多个热门的AI模型进行推理优化。 图表12英伟达AI微服务搭建AI框架示意图 资料来源:36氪,华西证券研究所 NIM的优势在于: 1、大幅缩短部署时间:NIM微服务提供基于NVIDIA推理软件的预构建容器,包括Triton推理服务器™和TensorRT™-LLM,使开发者能够将部署时间从几周缩短至几分钟。 2、标准化API,为生成式AI提供灵活性:语言、语音和药物发现等领域提供行业标准API,使开发者能够使用安全托管在自己的基础设施中的专有数据,来快速构建AI应用。这些应用可按需扩展,从而为在NVIDIA加速计算平台上运行生产级生成式AI提供灵活性和性能。 3、赋能企业平台:NVIDIA生态系统中的数据