您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:通信行业周报2024年第10期:英伟达发布新架构新产品,展望下周OFC展会 - 发现报告
当前位置:首页/行业研究/报告详情/

通信行业周报2024年第10期:英伟达发布新架构新产品,展望下周OFC展会

信息技术2024-03-24马成龙、袁文翀国信证券李***
通信行业周报2024年第10期:英伟达发布新架构新产品,展望下周OFC展会

行业要闻追踪:英伟达2024年GTC发布新架构、新产品。(1)Blackwell架构GPU具有2080亿个晶体管,采用台积电定制4纳米工艺,通过10 TB/s片间互联技术连接两颗采用双倍光刻极限尺寸的裸片,单卡AI训练算力可达20PFLOPS。(2)GB200 NVL72架构可支持高达72个GPU。 该架构单个机架配置18个计算节点和9个NVSwitchs。其中,每个计算节点包含2个GB200(即2个Grace CPU、4个GPU),72个GPUs可实现算力达1440 PFLOPS;每个NVSwitch包含2个NVSwitch芯片,9个NVSwitchs支持带宽能力129.6TB/s。 而通过架构顶端的Quantum Infiniband-800交换机连接8个机架组成SuperPOD可提供11.5 Exaflops。此外,GB200互联使用铜连接(Copper Cabling),并搭载液冷系统,GB200机架使用铜缆共5000根,总长2英里长,相比光模块可节省20KW功耗。(3)NVIDIA正式发布人形机器人通用基础模型ProjectGR00T、数字孪生对外接口OmniverseCloudAPI、DRIVEThor集中式车载计算平台。其中ProjectGR00T一种多模态人形机器人通用基础模型,可使机器人与现实进行交换。建议关注AI产业链相关领域公司。 KIMI智能助手大模型取得突破。3月18日月之暗面公司宣布,Kimi智能助手在无损上下文长度提升到200万字,成为国内人工智能应用领域一重大突破。KIMI已经入驻火山引擎大模型服务平台,算力或是由字节跳动提供的。建议关注AI+应用相关领域公司。 展望下周2024年OFC展会:我国多厂商将发布1.6T光模块。全球头部光通信领域公司将在CPO、LPO、硅光等领域展示新突破技术产品。 建议关注光模块光器件相关领域公司。 投资建议:持续布局AI产业链,兼顾高股息 (1)短期视角,中国移动和中国联通本周发布了2023年财报,移动、联通2023年归母净利润同比分别增长5%/12%,业绩稳健增长,移动规划2024年持续提升分红率,高股息价值凸显,建议关注运营商。 (2)中长期视角,全球AI行业持续迎来技术快速变革发展,产业链相关公司2023年业绩表现亮眼,同时我国高度重视AI发展,产业趋势确定,持续关注算力基础设施:光器件光模块(中际旭创、天孚通信等),通信设备(中兴通讯、紫光股份等),液冷(英维克、申菱环境等)。 2024年3月重点推荐组合:中国移动、中际旭创、英维克、华测导航、三旺通信、菲菱科思。 风险提示:宏观经济波动风险、数字经济投资建设不及预期、AI发展不及预期、中美贸易摩擦等外部环境变化。 产业要闻追踪 (1)GTC总结 事件:NVIDIA GTC 2024在美国加利福尼亚州圣何塞会议中心成功启幕。本届大会以“卓越的头脑,突破性发现”为主题,英伟达推出了全新Blackwell架构芯片平台,同时还展示了公司在加速计算、软件服务、医疗、汽车以及机器人等领域的最新进展。 图1:英伟达在过去8年将AI计算能力提升1000倍 图2:Blackwell芯片规格,各种格式数据大幅提升 点评: 亮点一:Blackwell平台成为工业革命新引擎 Blackwell拥有六项革命性的技术,可以支持多达10万亿参数的模型进行AI训练和实时LLM推理: 全球最强大的芯片:Blackwell架构GPU由2080亿个晶体管组成,采用量身定制的台积电4纳米工艺制造,两个reticle极限GPU裸片将10TB/秒的芯片到芯片链路连接成单个统一的GPU。 第二代Transformer引擎 : 结合了Blackwell Tensor Core技术和TensorRT-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell通过新的4位浮点AI支持双倍的计算和模型大小推理能力。 第五代NVLink:为提高数万亿参数和混合专家AI模型的性能,最新一代英伟达NVLink为每个GPU提供了突破性的1.8TB/s双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信。 RAS引擎:Blackwell架构增加芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大部署规模AI的弹性,使其能连续运行数周甚至数月,并降低运营成本。 安全人工智能:机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议,这对于医疗保健和金融服务等隐私敏感行业至关重要。 解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。 图3:Blackwell芯片对比Hopper芯片 图4:Blackwell的6个特性 亮点二:GB200重磅亮相,算力、Switch、铜连接、液冷等均有突破 GB200架构支持36和72个GPU。每个机架托管18个基于MGX参考设计和NVLink SwitchSystem的计算节点。 GB200NVL36配置在一个机架中配置36GPU和18个单GB200计算节点。 GB200NVL72配置在一个机架中配置72GPU和18个双GB200计算节点,或者在两个机架中配置72GPU和18个单GB200计算节点(Computenode)。 图5:GB200NVL72招标 图6:GB200NVL72(36GraceCPUs+72BlackwellGPUs) 一个计算节点(Computenode)包含2个GB200,也就是2个GraceCPU、4个GPU,支持1.7TBFastMemory。 图7:GB200NVL72中每computenode配置2个GB200芯片(4个BlackwellGPUs) 图8:GB200 BlackwellB200的AI性能可达20PFLOPS,H100为4PFLOPS。BlackwellB200基于台积电的 4nm 工艺打造,采用了将两个die连接成一个GPU的双芯设计,每个GPU芯片上拥有2080亿个晶体管。 图9:BlackwellGPU芯片 图10:BlackwellGPU由2个Blackwell裸片组成 GB200芯片对比GH200芯片性能:在训练方面,之前90天内训练一个1.8万亿参数规模的模型需要8000个Hopper架构的GPU,功率为15兆瓦。现在同样时间内用2000个Blackwell架构的GPU就可以做到,且功率仅为4兆瓦。 在推理方面,基于Blackwell架构的芯片的推理能力大约是此前Hopper架构芯片的30倍。将一个Grace CPU和两个B200GPU组合在一起,就是超级芯片GB200,与H00芯片相比,GB200可以为大模型的推理负载提供30倍的性能提升,并将成本和能耗降低25倍。 图11:GB200NVL72与HGXH100推理性能对比(FP4格式、万亿参数) 图12:GB200NVL72与HGXH100训练性能对比 每个GPU上依然有18个第五代NVLink,单Link双向带宽从H100的第4代NVLink的50GB/s升级到100GB/s。所以B100和B200的GPU-to-GPU带宽上限为1.8TB/s,该速率带宽是PCIeGen5的14倍。 图13:英伟达NVLinkSpec 一个NVL72包含9个NVLink Switchs,总带宽129.6TB/s。第4代NVLink SwitchTray包含2个NVSwitch芯片,144个NVLinkPort,单Port的带宽为100GB/s, 支持的带宽能力为14.4TB/s。一个NVL72内的9个NVLink Switchs包含18个NVSwitch芯片,1296个NVLinkPort,可以完全连接72个GPUs(每个GPUs包含18个NVLinkports),支持带宽能力129.6TB/s。 图14:单机架配置18个NVLinkSwitch 图15:NVLinkSwitch(配置2个/计算卡) 机架的顶部有一台Quantum Infiniband-800交换机,配合第五代NVLink技术,用8个这样的机架就组成了包含576块B200显卡芯片的SuperPOD AI算力集群。这样一个SuperPOD就可提供11.5Exaflops(8x1440PetaFlops)的AI计算性能。 图16:QuantumInfiniBand Switch 图17:GB200NVL72组成SuperPOD,IB或以太网交换机 32000GPUs组成的超大数据中心可以提供645exaFLOPS算力,13PB的Fast Memory,58PB/s的聚合带宽。 图18:32000GPUs集群 GB200互联使用铜连接(copper cabling),并搭载液冷系统。英伟达GB200机架具有2英里长的NVLink布线,共5,000根电缆,节省了20KW功耗(如果使用光模块和retimer情况),以及6倍成本。同时其液冷方案中冷却液输入/输出水温分别为25℃/45℃”。 图19:英伟达GB200的背板连接 图20:GB200NVL72液冷方案 NVIDIA专为大规模AI量身订制全新网络交换机–X800系列。NVIDIA Quantum-X800InfiniBand网络和NVIDIA Spectrum™-X800以太网络是全球首批高达800Gb/s端到端吞吐量的网络平台。Spectrum-X800平台为AI云和企业级基础设施带来优化的网络性能。借助800Gb/s的SpectrumSN5600交换机和NVIDIA BlueField-3SuperNIC,Spectrum-X800平台为多租户生成式AI云和大型企业级用户提供各种至关重要的先进功能。 图21:英伟达X800系列交换机 亮点二:发布人形机器人模型ProjectGR00T NVIDIA正式发布人形机器人通用基础模型ProjectGR00T、OmniverseCloudAPI、同时宣布全球众多知名汽车品牌已使用NVIDIADRIVEThor集中式车载计算平台。 ProjectGR00T是一种多模态人形机器人通用基础模型,作为机器人的大脑,让机器人学习技能从而执行各种指令,与现实世界展开交互,比如使用榨汁机、敲击架子鼓。 GR00T使用做了重大更新的Isaac工具可以为任何环境中的机器人创建新的基础模型。NVIDIA还发布了Isaac Manipulator和Isaac Perceptor等一系列机器人预训练模型、库和参考硬件。Isaac Manipulator为机械臂提供了卓越的灵活性和模块化AI功能,并提供了一系列强大的基础模型和GPU加速库。Isaac Perceptor提供了多摄像头和3D环绕视觉功能 图22:ProjectGR00T人形机器人 图23:Isaac机器人平台模拟仿真 NVIDIADRIVE进一步助力自动驾驶。NVIDIA宣布NVIDIADRIVE Thor集中式车载计算平台,已经被比亚迪、昊铂、小鹏、Plus、Nuro、Waabi和文远知行等品牌采用。性能高达1000TFLOPS的DRIVEThor是专为汽车行业的生成式AI应用而打造的车载计算平台。DRIVEThor不仅可以提供丰富的座舱功能、安全可靠的高度自动化驾驶和无人驾驶功能,还能将所有功能整合至同一个集中式平台上。 图24:WayveAIdrive 图25:BYD于英伟达合作 英伟达宣布将以API形式提供Omniverse™Cloud,并发布了五款全新OmniverseCloud API,既可以单独使用,也可以组合使用。借助五个全新OmniverseCloud应用编程接口(API),开发者能够轻松地将Omniverse的核心技术直接集成到现有的数字孪生设计与自动化软件应用中,或是集成到用于测试和验证机器人或自动驾驶汽