热门搜索：

通信行业周报2024年第10期：英伟达发布新架构新产品，展望下周OFC展会

信息技术2024-03-24马成龙、袁文翀国信证券李***

AI智能总结

英伟达发布新架构新产品，展望下周OFC展会。其中，Blackwell架构GPU具有2080亿个晶体管，采用台积电定制4纳米工艺，通过10TB/s片间互联技术连接两颗采用双倍光刻极限尺寸的裸片，单卡AI训练算力可达20PFLOPS。GB200NVL72架构可支持高达72个GPU。此外，NVIDIA正式发布人形机器人通用基础模型ProjectGR00T、数字孪生对外接口OmniverseCloudAPI、DRIVEThor集中式车载计算平台。建议关注AI产业链相关领域公司。

行业要闻追踪：英伟达2024年GTC发布新架构、新产品。（1）Blackwell架构GPU具有2080亿个晶体管，采用台积电定制4纳米工艺，通过10 TB/s片间互联技术连接两颗采用双倍光刻极限尺寸的裸片，单卡AI训练算力可达20PFLOPS。（2）GB200 NVL72架构可支持高达72个GPU。该架构单个机架配置18个计算节点和9个NVSwitchs。其中，每个计算节点包含2个GB200（即2个Grace CPU、4个GPU），72个GPUs可实现算力达1440 PFLOPS；每个NVSwitch包含2个NVSwitch芯片，9个NVSwitchs支持带宽能力129.6TB/s。而通过架构顶端的Quantum Infiniband-800交换机连接8个机架组成SuperPOD可提供11.5 Exaflops。此外，GB200互联使用铜连接（Copper Cabling），并搭载液冷系统，GB200机架使用铜缆共5000根，总长2英里长，相比光模块可节省20KW功耗。（3）NVIDIA正式发布人形机器人通用基础模型ProjectGR00T、数字孪生对外接口OmniverseCloudAPI、DRIVEThor集中式车载计算平台。其中ProjectGR00T一种多模态人形机器人通用基础模型，可使机器人与现实进行交换。建议关注AI产业链相关领域公司。 KIMI智能助手大模型取得突破。3月18日月之暗面公司宣布，Kimi智能助手在无损上下文长度提升到200万字，成为国内人工智能应用领域一重大突破。KIMI已经入驻火山引擎大模型服务平台，算力或是由字节跳动提供的。建议关注AI+应用相关领域公司。展望下周2024年OFC展会：我国多厂商将发布1.6T光模块。全球头部光通信领域公司将在CPO、LPO、硅光等领域展示新突破技术产品。建议关注光模块光器件相关领域公司。投资建议：持续布局AI产业链，兼顾高股息（1）短期视角，中国移动和中国联通本周发布了2023年财报，移动、联通2023年归母净利润同比分别增长5%/12%，业绩稳健增长，移动规划2024年持续提升分红率，高股息价值凸显，建议关注运营商。（2）中长期视角，全球AI行业持续迎来技术快速变革发展，产业链相关公司2023年业绩表现亮眼，同时我国高度重视AI发展，产业趋势确定，持续关注算力基础设施：光器件光模块（中际旭创、天孚通信等），通信设备（中兴通讯、紫光股份等），液冷（英维克、申菱环境等）。 2024年3月重点推荐组合：中国移动、中际旭创、英维克、华测导航、三旺通信、菲菱科思。风险提示：宏观经济波动风险、数字经济投资建设不及预期、AI发展不及预期、中美贸易摩擦等外部环境变化。产业要闻追踪（1）GTC总结事件：NVIDIA GTC 2024在美国加利福尼亚州圣何塞会议中心成功启幕。本届大会以“卓越的头脑，突破性发现”为主题，英伟达推出了全新Blackwell架构芯片平台，同时还展示了公司在加速计算、软件服务、医疗、汽车以及机器人等领域的最新进展。图1：英伟达在过去8年将AI计算能力提升1000倍图2：Blackwell芯片规格，各种格式数据大幅提升点评：亮点一：Blackwell平台成为工业革命新引擎 Blackwell拥有六项革命性的技术，可以支持多达10万亿参数的模型进行AI训练和实时LLM推理：全球最强大的芯片：Blackwell架构GPU由2080亿个晶体管组成，采用量身定制的台积电4纳米工艺制造，两个reticle极限GPU裸片将10TB/秒的芯片到芯片链路连接成单个统一的GPU。第二代Transformer引擎：结合了Blackwell Tensor Core技术和TensorRT-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法，Blackwell通过新的4位浮点AI支持双倍的计算和模型大小推理能力。第五代NVLink：为提高数万亿参数和混合专家AI模型的性能，最新一代英伟达NVLink为每个GPU提供了突破性的1.8TB/s双向吞吐量，确保最复杂LLM之间多达576个GPU之间的无缝高速通信。 RAS引擎：Blackwell架构增加芯片级功能，利用基于AI的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间，并提高大部署规模AI的弹性，使其能连续运行数周甚至数月，并降低运营成本。安全人工智能：机密计算功能可在不影响性能的情况下保护AI模型和客户数据，并支持新的本机接口加密协议，这对于医疗保健和金融服务等隐私敏感行业至关重要。解压缩引擎：专用解压缩引擎支持最新格式，加快数据库查询，提供数据分析和数据科学的最高性能。图3：Blackwell芯片对比Hopper芯片图4：Blackwell的6个特性亮点二：GB200重磅亮相，算力、Switch、铜连接、液冷等均有突破 GB200架构支持36和72个GPU。每个机架托管18个基于MGX参考设计和NVLink SwitchSystem的计算节点。 GB200NVL36配置在一个机架中配置36GPU和18个单GB200计算节点。 GB200NVL72配置在一个机架中配置72GPU和18个双GB200计算节点，或者在两个机架中配置72GPU和18个单GB200计算节点（Computenode）。图5：GB200NVL72招标图6：GB200NVL72（36GraceCPUs+72BlackwellGPUs）一个计算节点（Computenode）包含2个GB200，也就是2个GraceCPU、4个GPU，支持1.7TBFastMemory。图7：GB200NVL72中每computenode配置2个GB200芯片（4个BlackwellGPUs）图8：GB200 BlackwellB200的AI性能可达20PFLOPS，H100为4PFLOPS。BlackwellB200基于台积电的 4nm 工艺打造，采用了将两个die连接成一个GPU的双芯设计，每个GPU芯片上拥有2080亿个晶体管。图9：BlackwellGPU芯片图10：BlackwellGPU由2个Blackwell裸片组成 GB200芯片对比GH200芯片性能：在训练方面，之前90天内训练一个1.8万亿参数规模的模型需要8000个Hopper架构的GPU，功率为15兆瓦。现在同样时间内用2000个Blackwell架构的GPU就可以做到，且功率仅为4兆瓦。在推理方面，基于Blackwell架构的芯片的推理能力大约是此前Hopper架构芯片的30倍。将一个Grace CPU和两个B200GPU组合在一起，就是超级芯片GB200，与H00芯片相比，GB200可以为大模型的推理负载提供30倍的性能提升，并将成本和能耗降低25倍。图11：GB200NVL72与HGXH100推理性能对比（FP4格式、万亿参数）图12：GB200NVL72与HGXH100训练性能对比每个GPU上依然有18个第五代NVLink，单Link双向带宽从H100的第4代NVLink的50GB/s升级到100GB/s。所以B100和B200的GPU-to-GPU带宽上限为1.8TB/s，该速率带宽是PCIeGen5的14倍。图13：英伟达NVLinkSpec 一个NVL72包含9个NVLink Switchs，总带宽129.6TB/s。第4代NVLink SwitchTray包含2个NVSwitch芯片，144个NVLinkPort，单Port的带宽为100GB/s，支持的带宽能力为14.4TB/s。一个NVL72内的9个NVLink Switchs包含18个NVSwitch芯片，1296个NVLinkPort，可以完全连接72个GPUs（每个GPUs包含18个NVLinkports），支持带宽能力129.6TB/s。图14：单机架配置18个NVLinkSwitch 图15：NVLinkSwitch（配置2个/计算卡）机架的顶部有一台Quantum Infiniband-800交换机，配合第五代NVLink技术，用8个这样的机架就组成了包含576块B200显卡芯片的SuperPOD AI算力集群。这样一个SuperPOD就可提供11.5Exaflops（8x1440PetaFlops）的AI计算性能。图16：QuantumInfiniBand Switch 图17：GB200NVL72组成SuperPOD，IB或以太网交换机 32000GPUs组成的超大数据中心可以提供645exaFLOPS算力，13PB的Fast Memory，58PB/s的聚合带宽。图18：32000GPUs集群 GB200互联使用铜连接（copper cabling），并搭载液冷系统。英伟达GB200机架具有2英里长的NVLink布线，共5,000根电缆，节省了20KW功耗（如果使用光模块和retimer情况），以及6倍成本。同时其液冷方案中冷却液输入/输出水温分别为25℃/45℃”。图19：英伟达GB200的背板连接图20：GB200NVL72液冷方案 NVIDIA专为大规模AI量身订制全新网络交换机–X800系列。NVIDIA Quantum-X800InfiniBand网络和NVIDIA Spectrum™-X800以太网络是全球首批高达800Gb/s端到端吞吐量的网络平台。Spectrum-X800平台为AI云和企业级基础设施带来优化的网络性能。借助800Gb/s的SpectrumSN5600交换机和NVIDIA BlueField-3SuperNIC，Spectrum-X800平台为多租户生成式AI云和大型企业级用户提供各种至关重要的先进功能。图21：英伟达X800系列交换机亮点二：发布人形机器人模型ProjectGR00T NVIDIA正式发布人形机器人通用基础模型ProjectGR00T、OmniverseCloudAPI、同时宣布全球众多知名汽车品牌已使用NVIDIADRIVEThor集中式车载计算平台。 ProjectGR00T是一种多模态人形机器人通用基础模型，作为机器人的大脑，让机器人学习技能从而执行各种指令，与现实世界展开交互，比如使用榨汁机、敲击架子鼓。 GR00T使用做了重大更新的Isaac工具可以为任何环境中的机器人创建新的基础模型。NVIDIA还发布了Isaac Manipulator和Isaac Perceptor等一系列机器人预训练模型、库和参考硬件。Isaac Manipulator为机械臂提供了卓越的灵活性和模块化AI功能，并提供了一系列强大的基础模型和GPU加速库。Isaac Perceptor提供了多摄像头和3D环绕视觉功能图22：ProjectGR00T人形机器人图23：Isaac机器人平台模拟仿真 NVIDIADRIVE进一步助力自动驾驶。NVIDIA宣布NVIDIADRIVE Thor集中式车载计算平台，已经被比亚迪、昊铂、小鹏、Plus、Nuro、Waabi和文远知行等品牌采用。性能高达1000TFLOPS的DRIVEThor是专为汽车行业的生成式AI应用而打造的车载计算平台。DRIVEThor不仅可以提供丰富的座舱功能、安全可靠的高度自动化驾驶和无人驾驶功能，还能将所有功能整合至同一个集中式平台上。图24：WayveAIdrive 图25：BYD于英伟达合作英伟达宣布将以API形式提供Omniverse™Cloud，并发布了五款全新OmniverseCloud API，既可以单独使用，也可以组合使用。借助五个全新OmniverseCloud应用编程接口（API），开发者能够轻松地将Omniverse的核心技术直接集成到现有的数字孪生设计与自动化软件应用中，或是集成到用于测试和验证机器人或自动驾驶汽

点击免费查看完整报告

你可能感兴趣

通信行业周报2024年第10期：英伟达发布新架构新产品，展望下周OFC展会

你可能感兴趣

通信行业周报2024年第9期：展望英伟达GTC，星舰第三次试飞再突破

通信行业周跟踪：英伟达发布新产品，L40S对光模块影响较小

新通信行业周报：移动发布新一代云网融合解决方案，华为超高清视频架构驱动5G应用发展

全球科技产业周报（第197期）：英伟达GTC大会发布Hopper架构；小米智能汽车预计1H24正式量产

通信行业信息周报（2018年第37周）：PT展关注第三阶段测试和《5G承载网络架构和技术方案》白皮书发布，5G发展快速进入新阶段