· 行业周报|通信 英伟达正式加入UEC,国产算力持续推进万卡集群 AI行业跟踪30期(20240708-20240712) 核心结论 证券研究报告 2024年07月14日 行业要闻追踪 英伟达正式加入超级以太网联盟UEC。我们认为,短期来看,在算力军备竞赛背景下市场需求追求极致性能,有利于InfiniBand在集群网络中的渗透率提升。但长期来看,随着以太网性能的持续提升以及其具备的普遍性和经济性,下游厂商使用以太网的意愿有望持续提升。考虑到InfiniBand的成本占据集群成本的20%,远高于以太网的10%,我们认为包括英伟达在内的大多数厂商都会希望有一个比InfiniBand更便宜的网络替代方案。而英伟达加入UEC有望助力推进以太网技术升级。 摩尔线程推出KUAE智算集群解决方案,国产算力迈入万卡级别。我们认为,随着参数量的扩大以及“百模大战”竞争的持续,“大力出奇迹”的万卡集群有望成为大模型标配。而国产大规模集群仍面临较大挑战,需要进一步解决超大规模算力组网、集群效能提升、高能耗高密度机房设计等问题。 行情回顾 本周(07.08-07.12),我们构建的西部AI股票池中,其中108家A股公司整体周平均涨幅0.8%,59家美股公司整体周平均涨幅1.78%。A股公司中液冷及PCB板块分别上涨9.96%、8.31%,AI应用板块跌幅最大,下跌2%美股公司中,光模板块涨幅最大,上涨7.78%,数字巨头板块跌幅最大,下跌4.06%。根据西部通信股票池,A股市场中本周(07.08-07.12)涨幅居前十的个股分别是英维克(+21.25%)、芯原股份(+19.84%)、胜宏科技 (+15.97%)、锐捷网络(+11.29%)、亚通股份(+10.54%)、荣科科技 (+10.36%)、天孚通信(+8.92%)、申菱环境(+7.56%)、太辰光(7.37%)、奥士康(+6.73%)。美股市场中本周(07.08-07.12)涨幅居前五的个股分别是SoundHoundAI(+47.97%)、应用光电+22.29%)、Upstart(+16.85%)、BigBear.aiHoldings(+12.59%)、Unity(+8.91%)。 投资建议:AIGC和数字中国共振,算力托底。建议重点关注AI算力硬件,关注光模块(中际旭创、天孚通信、源杰科技等);散热领域(英维克)及ICT设备商等。 风险提示:技术落地不及预期、硬件设备市场接受度不及预期、监管政策风险、中美贸易摩擦风险 分析师 陈彤S0800522100004 chentongg@research.xbmail.com.cn 相关研究 通信:世界人工智能大会百花齐放,具身智能迎来新浪潮—AI行业跟踪29期 (20240701-20240705)2024-07-07 通信:CriticGPT用AI训练AI,美光发布最新财报—AI行业跟踪28期 (20240624-20240628)2024-07-01 通信:Anthropic新模型能力攀升,华为发布 HarmonyOSNEXT—AI行业跟踪27期 (20240617-20240621)2024-06-24 索引 内容目录 一、AI行业重点事件点评3 1.1英伟达正式加入超级以太网联盟UEC3 1.2摩尔线程推出KUAE智算集群解决方案,国产算力迈入万卡级别8 二、AI行业动态一览10 2.1国外行业动态10 2.2国内行业动态10 2.3行业展会/大会前瞻梳理11 三、AI行情回顾:A股液冷及PCB板块领涨12 四、投资建议:持续关注AI应用和算力基础设施13 五、风险提示13 图表目录 图1:PCI总线设计4 图2:InfiniBand发展历程4 图3:InfiniBand路线图4 图4:传统模式与RDMA模式对比5 图5:不同技术端到端时延5 图6:InfiniBand网络无损数据传输示意图5 图7:InfiniBand网络架构6 图8:UEC初创成员7 图9:A股AI行业细分板块周涨跌幅对比(07.08-07.12)12 图10:美股AI行业细分板块周涨跌幅对比(06.17-06.21)12 表1:海外大模型各训练参数8 一、AI行业重点事件点评 1.1英伟达正式加入超级以太网联盟UEC 事件:经媒体确认,英伟达已经正式加入超级以太网联盟UEC。UEC成立的部分原因是对抗英伟达主导的InfiniBand网络体系。InfiniBand在HPC集群领域有广泛应用,而UEC则致力于提供比现有RDMA更好的以太网传输。 点评: 点评1:InfiniBand发展历程及主要玩家回顾,从百花齐放到一枝独秀。 阶段一:1999-2001年为技术初创期,互联网催生总线升级需求,头部玩家主动布局。为 了支持更多外部设备,英特尔公司率先在标准PC架构中引入PC(IPeripheralComponent Interconnect,外设部件互连标准)总线设计。互联网的高速发展、线上业务及用户规模的增加给IT系统承载能力带来了较大考验。在摩尔定律的加持下,CPU、内存、硬盘等部件都在快速升级,而PCI总线升级速度缓慢,大大限制了I/O性能,成为整个系统的瓶颈。随及,英特尔、微软、SUN公司主导开发了“NextGenerationI/O(NGIO)”技术标准。而IBM、康柏以及惠普则主导开发了“FutureI/O(FIO)”。1999年FIODevelopersForum和NGIOForum进行了合并,创立了InfiniBand贸易协会(InfiniBandTradeAssociation,IBTA),并于2000年发布了InfiniBand架构规范的1.0版本。在此期间,Mellanox由几位从英特尔和伽利略技术离职的员工在以色列创立。其加入NGIO后并于2001年推出了首款InfiniBand产品。 阶段二:2002-2011年为行业整合阶段,其他厂商纷纷转向,竞争格局逐渐明晰,InfiniBand在新场景的应用初显成效。2002年英特尔“临阵脱逃”转向开发PCIExpress,即PCIe,并于2004年推出产品。随后微软也退出了InfiniBand的开发。2009年,在TOP500榜单中,已经有181个采用了InfiniBand技术,以太网当占据259个。在此期间Mellanox不断壮大成为InfiniBand市场的领导者,2010年,Mellanox和Voltaire公司合并,InfiniBand主要供应商只剩下Mellanox和QLogic。在新场景应用方面,InfiniBand分别于2003和2005年开拓了计算机集群互联和存储设备连接的应用领域。 阶段三:2012-2018年为InfiniBand与以太网“缠斗期”,Mellanox一枝独秀。2012以来,随着高性能计算需求的不断增长,InfiniBand市场份额不断突破,同时英特尔出资收购了QLogic的InfiniBand技术,返回到InfiniBand的竞争赛道。2015年InfiniBand技术在TOP500榜单中的占比首次超过了50%,达到51.4%,标志着InfiniBand成为超级计算机的首选内部链接技术。2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。2015年,Mellanox在全球InfiniBand市场上的占有率达到80%。其业务范围,已经从芯片逐步延伸到网卡、交换机 /网关、远程通信系统和线缆及模块全领域,成为世界级网络提供商。而以太网方面,2010年4月,IBTA发布了RoCE,将InfiniBand中的RDMA技术“移植”到了以太网并于2014年提出了更加成熟的RoCEv2,缩小了和InfiniBand之间的技术性能差距,结合本身固有的成本和兼容性优势,于2016年在TOP500榜单中的占比超越InfiniBand。 阶段四:2019年至今,AI带动通信网络升级,InfiniBand的高性能充分受益。2019年英伟达出资69亿美元,击败英特尔和微软成功收购了Mellanox。由于此前InfiniBand市 场相对垄断,最终形成了英伟达Mellanox一枝独秀的封闭产业生态。 图1:PCI总线设计图2:InfiniBand发展历程 资料来源:36氪,西部证券研发中心资料来源:36氪,西部证券研发中心 点评2:InfiniBand性能优越,具有高带宽、低时延、高可靠性和高可扩展性,可以满足高性能计算和人工智能等领域的需求。 1)高带宽:根据IBTA公布的InfiniBand路线图,目前400Gbps的NDR已经实现了规模化的商用部署,800Gbps的XDR的网卡也已经开始商用部署。高带宽使得节点之间可以以高速进行数据交换,适用于大规模数据传输、并行计算和存储系统等应用。 图3:InfiniBand路线图 资料来源:InfiniBandTradeAssociation官网,西部证券研发中心 2)低时延:InfiniBand网络采用点对点的直连架构。每个设备,如服务器、存储设备等都通过InfiniBand适配器直接连接到网络,形成点对点的通信结构。这种设计有助于降低通信的延迟,提高整体性能。降低多机多卡间端到端通信时延的关键技术是RDMA技术。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。当前RDMA技术主要采用的方案为InfiniBand和RoCEv2两种。在同集群内部一跳可达的场景下,InfiniBand和RoCEv2与传统IP网络的端到端时延在实验室的测试数据显示,绕过内核协议栈后,应用层的端到端时延可以从50us (TCP/IP),降低到5us(RoCE)或2us(InfiniBand)。 图4:传统模式与RDMA模式对比图5:不同技术端到端时延 资料来源:36氪,西部证券研发中心资料来源:百度智能云《2023智算中心网络架构白皮书》,西部证券研发中心 3)高可靠性:InfiniBand网络采用基于Credit信令机制来从根本上避免缓冲区溢出丢包。只有在确认对方有额度能接收对应数量的报文后,发送端才会启动报文发送。InfiniBand网络中的每一条链路都有一个预置缓冲区。发送端一次性发送数据不会超过接收端可用的预置缓冲区大小,而接收端完成转发后会腾空缓冲区,并且持续向发送端返回当前可用的预置缓冲区大小。依靠这一链路级的流控机制,可以确保发送端绝不会发送过量,网络中不会产生缓冲区溢出丢包。 图6:InfiniBand网络无损数据传输示意图 资料来源:百度智能云《2023智算中心网络架构白皮书》,西部证券研发中心 4)高可拓展性:InfiniBand是一种基于通道的结构,组成单元主要分为HCA(HostChannelAdapter,主机通道适配器)、TCA(TargetChannelAdapter,目标通道适配器)、InfiniBandlink(连接通道)以及InfiniBand交换机和路由器。InfiniBand架构通过连接大量节点并支持高密度服务器布局,可以实现轻松扩展。增加InfiniBand交换机和电缆即可扩大网络规模和带宽容量。 图7:InfiniBand网络架构 资料来源:36氪,西部证券研发中心 点评3:相较于InfiniBand,以太网具有成本低、兼容性好、灵活性高的特点。1)成本低:以太网所使用的设备、线缆和接口均是为标准化,且市场上有较多供应商和产品可以选择。而InfiniBand需要专用的设备及线缆接口。2)兼容性好:以太网遵循了TCP/IP模型或OSI模型,可以与不同的系统和设备进行互连互通。而InfiniBand使用了自己定义的网络协议,需要特定的软件和驱动才能与其他系统和设备互连互通。3)灵活性高:以太网能够支持各种复杂业务和应用协议,也可以支持SDN、Overlay和虚拟化等网络技术,提高网络的灵活性和可管理性。而InfiniBand主要支