您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:AI行业深度跟踪报告(二):铜互联,数据中心通信网络重要解决方案 - 发现报告
当前位置:首页/行业研究/报告详情/

AI行业深度跟踪报告(二):铜互联,数据中心通信网络重要解决方案

电子设备2024-05-23张益敏财通证券何***
AI行业深度跟踪报告(二):铜互联,数据中心通信网络重要解决方案

数据中心网络架构加速向高速率带宽迭代:AI算力需求大幅增长,通信网络带宽速率提升势在必行。以全球两大网络通信协议以太网和InfiniBand为例,2025年预期将发布的PCIe 7.0将提供比PCIe 6.0翻倍的双向传输带宽; 2025年将发布的InfiniBandGDR每通道传输速率提升至400 Gb/s,4通道速率将达到1.6Tb/s水平,数据中心网络架构加速向高速率带宽迭代。 短距通信场景铜互联相对优势明确:铜连接产品在数据中心高速互联中一直扮演着重要角色。在数据中心能耗攀升,以及建设成本高企的背景下,铜互联在散热效率、低功耗、低成本方面有着一定优势。行业龙头英伟达在最新的GB200 NVL72大机柜中大量采用铜连接方案,实现性能、能耗和成本的平衡。 顺应趋势,高速铜缆持续升级:伴随Serdes速率逐步从56G、112G向224G升级,单端口速率将基于8通道达到1.6T,高速传输成本有望大幅下降,对应铜缆速率也向着224Gbps演进。为解决高速铜缆的传输损耗问题,AEC、ACC通过内置信号增强芯片提升传输距离,铜缆模组生产工艺也在同步升级。 投资建议:铜缆在短距通信领域有相对优势,英伟达已在新产品大量采用铜互联方案,建议在铜互联持续向高速率升级趋势下,关注产业链相关标的:安费诺、泰科、莫仕、Credo、Astera Labs、Macom、先科电子、立讯精密、鸿腾精密、兆龙互连、金信诺、神宇股份、中航光电、鼎通科技、华丰科技、沃尔核材、新亚电子、精达股份、方邦股份等。 风险提示:英伟达新品不及预期风险,技术迭代不及预期风险,下游需求不及预期风险,供应链风险。 1数据中心网络架构加速向高速率带宽迭代 大模型及应用对算力基础设施要求较高,需要稳定、高效、安全的数字基础设施来支持其完成生成、存储、传输的整个交互过程,随之带来了对计算能力前所未有的需求。根据中国智能算力产业联盟数据,在AIGC的驱动下,对AI算力的需求呈指数级增长,大约每1-2个月翻一番。 图1.大模型计算需求快速增长 数据中心设备间互联成为制约数据中心整体系统算力提升的瓶颈,通信网络带宽速率提升势在必行。以历代PCIe协议为例,2003年PCIe1.0发布,单通道传双向带宽为500MB/s,传输速率为2.5 GT/s;目前最新的PCIe 6.0规范于2021年发布,传输速率提高至64 GT/s,根据PCI-SIG发布的技术路线图,2025年预期将发布的PCIe 7.0,最大数据速率将达到128.0 GT/s,通过16通道提供高达512GB/s的双向传输带宽。 图2.PCIe带宽提升趋势 图3.历代PCIe协议带宽 以InfiniBand为例,自2002年起,SDR正式发布,可支持的每通道传输速率仅为2.5 Gb/s,此后协议持续升级,2023年XDR发布,每通道传输速率为200 Gb/s,将在2025年发布的GDR每通道传输速率提升至400Gb/s,4通道速率将达到1.6Tb/s水平。 图4.Infiniband速率升级Roadmap 2短距通信场景铜互联相对优势明确 铜连接产品在数据中心高速互联中一直扮演着重要角色,特别是在服务器内部和Server-Top of Rack的短距离传输场景下,铜连接对于散热效率和信号传输以及成本方面有着显著的优势。因此铜互连仍是当下以及未来许多应用中最具成本效益的解决方案。 图5.铜互联在数据中心短距通信中扮演重要角色 根据LightCounting,全球无源直连电缆DAC和有源电缆AEC的市场规模将分别以25%和45%的年复合增长率增长,在全球范围内,大型人工智能集群以及长距离的型号传输主要依赖光通信,而较小的数据中心系统仍将主要使用电缆。 图6.全球高速电缆市场规模 2.1数据中心能耗攀升,铜互联拥有低功耗优势 数据中心总耗电量持续高速增长,在全球范围内,根据国际能源署(IEA)的数据可知,2022年全球数据中心的耗电量为460TWh(相当于全球总用电量的 2%),2026年可能会升至1,000TWh以上。根据工信部数据,截至2022年底,我国在用数据中心机架规模达到650万标准机架,2022年,我国数据中心总耗电量达到766亿kWh,占全社会耗(86372亿kWh)的0.9%。 图7.全球数据中心整体能耗预期将大幅提升 数据中心功率密度和端口功率快速提升。根据华为数据,随着算力和带宽的快速升级,数据中心单机柜的功率密度每五年翻一番,单端口功率随速率代际翻一番,数据中心的能耗呈现指数型增长,降低单位算力能耗趋势明确。 图8.数据中心功率密度和单端口功率迅速增长 2010年至2022年间,交换机芯片带宽容量从640 Gbps增长到了51.2Tbps,80倍的带宽增长带来了22倍的系统总功耗提升,其中光学元件功率(26倍)的功耗提升尤为明显。 图9.交换机能耗 铜缆互联由于不涉及光电转化,因此具有低功耗特点,相比于有源光缆 (AOC),目前的铜直接连接电缆(DAC)的功耗小于0.1 W,可以忽略不计,有源电缆(AEC)亦可将功耗控制在5w以内,可在一定程度上降低算力集群整体功耗。 图10.不同通信连接方式功耗 2.2数据中心建设成本高企,铜互联拥有降本优势 全球云厂商龙头资本开支保持高增速,今年Q1以来部分云厂商持续上调全年Capex支出预期,同时各大厂商均表示2024年Capex的主要投入将用于AI业务相关建设。 图11.2019-2023年全球云厂商龙头资本开支 表1.全球云厂商龙头关于资本开支的描述 AI数据中心建设成本大幅提高,根据Dell’Oro,一台AI加速服务器相较于传统服务器物料成本大幅增长,除了新增的GPU以外,其他通信、存储、电源、组装相关成本均大幅提升。 图12.AI服务器和传统服务器成本大幅提升 成本考量下铜互联性价比突出。在铜缆可触达的高速信号传输距离内,相比光纤连接,铜连接方案的成本较低,此外,铜缆模组在短距离内可以提供极低延迟的电信号传输并具有高可靠性,不会出现光纤在某些环境下可能出现的信号丢失或干扰风险。同时,铜缆的物理特性使得它更易于处理和维护,并且其具有高兼容度并不需要额外的转换设备。 图13.不同通信连接方式成本 2.3行业龙头先行,大量采用铜互联 英伟达于2024年3月发布最新一代Blackwell架构GPU,在专为AI和高性能计算任务设计的数据中心服务器架NVIDIA GB200 NVL72大机柜中采用了大量的铜连接方案,主要用于连接机柜内的GPU和Switch,确保数据在不同处理单元间的迅速和准确传输。 图14.英伟达BG200NVL72 Switch Tray内部采用铜互联 GB200 NVL72采用机架级设计,可连接36个Grace CPU和72个Blackwell GPU,与上一代H100相比GPU快6倍,为1.8T参数GPT-MoE等资源密集型应用提供了30倍的加速,在相同功耗下提供25倍的性能。性能提升、成本降低的关键是铜缆的运用,机器背面共有约5000根NVLink电缆,总长度达2英里。如果使用光传输,就必须使用光模块和retimer,这两个器件仅仅驱动 NVLink主干就耗电20kw,而铜缆连接方案整个机架耗电120kw,20kw的差异使得整个方案得以优化。 图15.NVL72背部部署大量铜缆 预计采用Blackwell平台产品的厂商众多,包括AWS,Google,Meta,Microsoft,OpenAI,Oracle,Tesla等。2024年3月18日Microsoft宣布将NVIDIA GB 200引入Microsoft Azure;Google宣布采用新的NVIDIA Grace Blackwell AI计算平台以及Google Cloud上的NVIDIA DGX Cloud服务。 Oracle宣布在OCI超级集群、OCI计算和NVIDIA DGX Cloud on OCI中采用NVIDIA Grace Blackwell以建立数字主权并管理专有的国家和个人数据。 图16.英伟达Blackwell平台合作伙伴 3顺应趋势,高速铜缆持续升级 目前铜缆模组主要分为DAC,AEC,ACC三种。其中DAC(Direct Attach Cable)无源直连铜缆两端是简单的电缆连接器,成本较低;AEC(Active Electrical Cable)和ACC(Active Copper Cable)均为有源电缆,相比无源DAC传输距离更长。 图17.DAC、AEC、ACC示意图 3.1高速率向224Gbps迭代 随着数据中心400G和800G速率网络成为主流,1.6T升级趋势明确,目前主流用于通信领域的Serdes速率在56G和112G,在即将到来的224G时代,数据中心通信单端口速率将基于4通道达到800G,8通道达到1.6T,成本有望大幅下降。与之对应的铜连接单通道速率也向着更高的112Gbps和224Gbps演进。 图18.交换机端口带宽演进方式 图19.CEI协议标准向224G高速率升级 英伟达伴随Blackwell架构发布的最新一代NVLink Switch芯片,支持72个端口,每个端口规格为2通道,单通道200Gbps,单颗Switch芯片最大支持7.2TB/s的双向带宽,并直接驱动铜缆模组实现高速互联。 图20.英伟达NVSwitch搭载200G Serdes 3.2芯片+芯线工艺降低传输损耗 电连接在向更高传输速率演进的过程中,信号的多电平脉冲幅度调制是相对明确的趋势,以目前高速信号主流采用PAM4(4-Level Pulse Amplitude Modulation)信号技术为例,比传统NRZ(Non-Return-to-Zero)信号多了两个电平,在相同符号周期内,PAM4信号的比特速率是NRZ信号的两倍。 图21.NRZ和PAM4信号调制示意图 而PAM4信号电压电平之间的间隔较小因此更容易受到外界环境(尤其是噪声)的干扰,因此在传输距离和散热方面存在挑战,以DAC为例,在400G速率下使用距离通常小于3米。 图22.DAC通常用于短距通信 ACC和AEC通过内置信号增强芯片确保更长距离的高速传输。其中ACC一般通过Redriver芯片在Rx端通过CTLE均衡调整增益实现放大信号;而AEC通常使用Retimer芯片在放大和均衡Tx和Rx端信号同时还会在Rx端重新做信号整形。相较于DAC,ACC和AEC由于内置信号增强芯片,因此在铜缆的选择上可以采用较为轻薄、线径较小的芯线,一般可以采用32 AWG以下的铜缆。 图23.Redriver设计和眼图 图24.Retimer设计及眼图 ACC有源线缆一般需要在接收端内置均衡器,均衡器产生与信道特性相反的特性,用来减小或消除由于码间干扰引起的信号失真,以达到更长距离的有效信号传输。 图25.高速传输中均衡器的应用 图26.信号均衡原理示意图 伴随铜缆模组产品升级,高速线缆工艺要求进一步提升。高速线缆生产一般包括绝缘芯线押出、平行对绕包、平行对成缆、线材编制、线材外被押出以及成品测试6大工序。线缆向高速率升级过程中,对于线缆各项工艺也提出更高要求,比如更少的芯线表面损伤,单线缆包含更多的平行对以及更好的对于信号串扰屏蔽等。 图27.25G、100G、800G铜缆复杂程度示意图 图28.铜芯线表面缺陷示意图 4建议关注 顺应数据中心通信网络架构升级,铜连接模组向着更高带宽速率演进的同时,在短距通信场景下的低功耗,低成本等方面有着出色表现。同时伴随行业龙头英伟达新一代Blackwell架构芯片产品以及NVL36/72解决方案逐步上量,其GPU之间以及柜内连接采用的高速铜缆连接方案有望成为数据中心硬件通信的核心解决方案之一,相关供应链有望随之迎来增长机遇。 安费诺(Amphenol)作为英伟达重要供应商,是全球领先的高速互连解决方案厂商,安费诺拥有多个基于单通道