您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:超算互联网时代的调度与调优:用AI重新定义通信 - 发现报告
当前位置:首页/行业研究/报告详情/

超算互联网时代的调度与调优:用AI重新定义通信

信息技术2023-11-05宋嘉吉、黄瀚、赵丕业、邵帅、石瑜捷、孙爽国盛证券胡***
超算互联网时代的调度与调优:用AI重新定义通信

全球算力快速上量,超算互联网时代加速到来。AI驱动下,算力已成为高确定性赛道之一,从GPU、光模块到算力租赁,那后面呢?随着大量GPU逐步到货、部署,如何用好这些昂贵的设备,使之发挥应有的算力将是核心,超算互联网将会是下一个崛起的朝阳赛道。我们把超算互联网,定义为服务器到货后,从形成稳定算力到输出稳定的商业推理结果的全过程,其中主要包括了云化、调优、调度、部署、落地、数据管理等等软硬结合的数个环节,参与者从全球核心大厂到海外创业公司,将带来海量的产业链投资机会。 1.云化/调优/调度-巨头战场,技术为骨,通信为魂。云化/调优/调度是将纸面算力变为可用算力的先期步骤,云化使算力变成用户可以便捷调用的“数字能源”,调优则是从通信和模型层面,压榨GPU的利用率,实现算力降本增效的必经之路。 调度是将全国乃至全球的算力资源统筹分配,实现成本优化,入网即有算力的核心环节。我们认为,由于大模型训练时的主要壁垒依然是数据并行下的通信瓶颈和长期积累的AI大工程经验,这三个涉及显卡数据交换与流通的环节的竞争壁垒将不断提高。只有拥有大量资本开支的巨头公司,才能支撑起这三个环节需要的通信网络、训练框架、AI工程经验,才能实现“buy more save more”的正向循环,其与中小玩家之间的竞争差距将会持续扩大。 2.软件服务-海外先行,百花齐放。相比巨头角逐的硬件层面,由于AI触及千行百业的特性,后端的软件和SaaS服务则在北美呈现出百花齐放的发展态势。但需要注意的一个核心点是,当下海外创业核心并非聚焦于独立的行业垂直模型,而是专注于服务训练者和服务于成熟模型的落地与部署。服务于训练者的环节包括了训练全过程的可视化,算力、存储等资源灵活按需调用,数据库AI化等等,服务于成熟模型落地与部署的环节则包括了多种环境下的推理调优,模型按需优化(准确度与性价比再平衡)等等。当下,在各个环节已经涌现出了一批优秀的北美创业公司,行业奇点时刻已经到来。 3.国产算力-加速追赶,前途光明。不可否认的是,由于算力资源,先发优势等等因素,海外AI发展拥有了较大的领先。叠加近期算力制裁等因素影响,国内AI发展进一步承压。正视差距,压力就是动力,随着国内自主算力和交换体系逐渐起量,中国算力有望加速追赶。此外,我国软件公司有望走出一条从加速库等核心环节延伸至下游落地场景的全新体系,同时,凭借全球领先的DCI网络与基建,运营商也有望走出一条算力网建设的全新道路。此外,北美如OctoML,DECI,Databrick等优秀的AI后周期服务公司也给中国创业者们提供了方向和思路,软硬件加速追赶,中国AI前景光明。 投资建议:综上所述,如何发挥GPU效用将是下一阶段算力的核心,算力调度和 算力调优将在网络、系统、软件侧各自发力,打造泛在的算网融合能力,而通信 能力仍是其中的核心点,AI将重新定义通信。 通信能力——超算互联网之魂 光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、 华工科技、源杰科技、剑桥科技、铭普光磁;通信设备:中兴通讯、紫光股份、 锐捷网络、盛科通信、菲菱科思、工业富联、寒武纪、震有科技;算力调度与调 优:思特奇、青云科技、中科金财、东方材料、博睿数据、中贝通信、中科曙光、 中国移动、中国电信、中国联通。 软件生态——超算互联网新星 数据可视化:恒为科技、浩瀚深度、中新赛克;BOSS系统:亚信科技、天源迪科、东方国信。 风险提示:AI发展不及预期,算力需求不及预期,市场竞争风险。 重点标的 股票代码 投资要件 市场对于超算互联网的拐点时刻认识不足。当下市场主要聚焦于算力的最核心环节显卡,市场普遍聚焦于企业拥有的显卡数量,纸面算力等等数据,而忽略了服务器到货只是整个算力链条的第一步,算力到货后如何将其上云并保证稳定性,如何从通信层面和模型层面压榨出显卡的每一丝性能,如何将不同算力中心的算力,调度并实时输送到终端用户手中,这些都是服务器的“纸面算力”到最后“实际算力”的困难与挑战。此外,拥有了“模型”和“算力”后,如何结合自身产品,客户需求,最终形成高性价比的商业落地方案,也是算力后市场的重要一环,通过模型一站式的模型末端调优服务,实现推理准确性与落地成本的平衡,通过对不同设备的环境的调试,使得客户可以在低算力环境实现部署,这等等都是打造超算互联网需要考虑的场景。从购买服务器到实际模型算力落地,中间的每一步都至关重要。当前,随着全球算力加速部署,北美的算力“后周期”市场已经出现了较为明显的拐点,进入产业链起量初期,我们相信,随着国内显卡陆续到货,伴随国产算力加速,后周期产业将成为下一个投资热土。 市场对于算力后周期市场的竞争格局存在预期差。当下国内的算力投资环节,市场普遍喜欢炒新上市股、小市值股,追逐边际变化。诚然,在显卡封锁加剧,巨头与中小公司拿卡能力边际差异不明显时,这种投资风格的确符合行业当阶段特色,但拉长来看,在涉及硬件、通信、大模型能力时,北美的行业发展趋势已经愈发明显,行业壁垒将会持续提高,最终变成一个只有几个巨头相互竞争的行业。这也是由大模型本身的发展规律或者训练原理所决定的,过去模型追求算法层面的精雕细琢,用小钱快速实现商业化,大模型则强调参数扩张与数据投喂,重剑无锋,越多的投入必然能够换来越好的效果,天量资本支出已然成为行业的入场券。从云化所需要的自研通信体系与集群沟通能力,算力调优所需要的高端通信设备,模型调优所需要的深厚AI大工程积累,到调度所需要的海量算力资源与网络基建,一环扣一环,持续加深行业门槛。但与此同时,下游偏落地和模型部署端,从北美经验来看,是更加百花齐放的市场,各个环节已经涌现出了一批优秀的北美创业公司,将给中国AI公司提供创业和转型的借鉴。 投资建议: 通信能力——算力后市场之魂 光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技、铭普光磁; 通信设备:中兴通讯、紫光股份、盛科通信、菲菱科思、锐捷网络、工业富联、寒武纪、震有科技; 算力调度:思特奇、青云科技、中科金财、东方材料、博睿数据、中贝通信、中科曙光、中国移动、中国电信、中国联通。 软件生态——算力后市场新星 数据可视化:浩瀚深度、恒为科技、中新赛克; BOSS系统:亚信科技、天源迪科、东方国信。 1.AI超算互联网——算力的后周期市场 当下,随着大模型训练的兴起,全球显卡与算力正在进入一段时间的快速膨胀期,国内外均欲打造AI超算互联网。与此同时,算力后周期市场也正在快速兴起。“后周期”中的后,与传统市场中的行业末期,行业后期不同,“后”指的更多的是后服务市场,我们认为的后服务,包括了显卡服务器到货IDC后,从形成稳定算力到输出稳定的商业推理结果的全过程。其中主要的环节包括了云化、调优、调度、部署、落地、数据管理等等软硬结合的数个环节,参与其中的既包括全球一线大厂,也包括许多海外优秀的创业公司。 图表1:超算互联网——算力的后周期 算力的后周期的市场需求迸发,我们认为核心原因在于大模型训练的难、大模型商用的贵以及大模型安全的忧。大模型训练的难在于,超大规模的参数和运算量远超单张或者单服务器显卡的容量,各个显卡之间如何实现数据并行与运算合作,是整个业界面临的首要问题,为此,诞生出了云化、调优、调度等后周期需求。大模型商用的贵体现在参数、效果、费用三者的矛盾之上,参数越多的模型,其对于实际问题的准确度越高,但其反应时间和消耗费用也越高,同时,如何将新迭代的模型快速部署至应用场景,也是开发者需要面临的问题。大模型安全的忧则更多的体现在数据层面,如何实现安全情况下,企业原有数据库与训练系统的相互调用,如何实现原有数据对于“AI”训练的可用等等。 纵观全球算力后周期的发展态势,我们认为正在形成两个迥然不同的生态,首先,在涉及算力使用和大模型训练的等上层建筑时,整个行业对于资本支出、模型经验积累等等方面的壁垒正在逐渐加深,正如黄仁勋在发布会上经常提到的“buy more save more”,大模型时代,天量资本支出已经成为这一领域的入场券,模型研究从“巧夺天工”到“重剑无锋”的转变,使得大算力,大模型的壁垒不断提高,行业格局加速走向巨头通吃。 图表2:Buy more SaveMore的典型代表GH200芯片 但在涉及到商业落地,数据安全,平台可视化等等模型偏下游环节时,我们反而从北美的创业公司上看到了百花齐放的生态,在训练过程与资源可视化,数据库调用,模型加速部署与性价比调节等方面,都涌现出了一批优秀的创业公司与解决方案,同时原有领域内的龙头软件公司也在积极开发方案,对接AI需求。与大模型和算力战争中的巨头垄断局面相比,这里的各个环节更加富有生机,也更容易在细分环节中成长出新的优秀独角兽公司。 图表3:数据库巨头snowflake与英伟达达成合作 最后,复盘海外前沿,展望国内发展,我们认为随着国内算力资源起量与模型训练深入,对于算力和模型层面的投资将会再度聚焦,聚焦大厂,聚焦通信能力。同时国内相关软件市场仍处于萌芽阶段,对标海外优秀创业产品,提早满足客户需求,将给国内软件和创业公司带来新一轮机会。同时,国内由于海外算力制裁等影响,国内如昇腾等国产优秀生态发展和起量过程中,可能也会涌现出一批优秀的行业加速库、生态软件公司,基于此再扩展出中国特色的相关模型服务体系,有望走出一条有中国特色的模型服务体系之路。 2.云化/调优/调度——巨头战场,技术为骨,通信为魂 2.1算力云化:算力租赁势起,被AI重定义的云计算 2.1.1AGI时代到来,GPU算力需求爆发,云计算面临新挑战 云计算是科技行业过去十年发展最为迅速的领域之一,伴随的是全球数字化程度的持续提升。互联网的高速发展,众多中小型及初创公司数字化需求爆发,通过自购ICT基础设施的形式支出巨且运维难度高,不适合具有灵活需求高速发展的长尾客户。而通过云计算,使用者可以随时获取云上资源,按需使用按需付费,可无限扩展。云计算将计算资源池化,通过软件实现自动化管理,让资源高效输出,并发展出IAAS、PAAS、SAAS以及其他众多形式,极大的促进了互联网发展和全球数字化进程。 图表4:云计算原理图 生成式AI兴起,算力需求从CPU向GPU跃迁。随着open ai旗下chatgpt的涌现,在全球范围内引爆了生成式AI的发展浪潮,作为下一代最重要的技术方向,企业人工智能发展需求正在爆发,拥有能够支持开发人员创建新一波人工智能应用程序需求的基础设施至关重要。许多企业正在转向云计算,但与主流企业工作负载不同,人工智能提出了传统云基础设施无法充分支持的新需求。从CPU到GPU再到GPU集群,企业发现自己正在采用越来越复杂的基础设施来满足其人工智能模型训练的需求。 图表5:CPU和GPU示意图 图表6:CPU和GPU的对比 大模型持续发展,高速互联高性能GPU集群是门槛。以openai为例,其gpt3具有1750亿个参数,是上一代版本的117倍,模型的持续发展迭代需要前所未有的规模,而对于大模型训练而言,多GPU互联基础设施是门槛,不仅仅是gpu,更重要的是gpu之间的高速互联,是gpu与交换机、光模块等基础设施共同互联后的集群,其资本开支和技术难度相较于以cpu和存储服务器为主的传统基础设施,有明显的提升,这也进一步抬高了大模型的门槛。 图表7:英伟达h100集群 大模型训练需要数千片甚至上万片GPU集群连续训练数月时间,海量计算的同时还有海量数据交换需求,与传统cpu和存储集群比较,内部通信互联要求提高十分明显。在传统云计算时代,只有超大型数据中心核心节点才会用到高速光模块和高端交换机,如400G和对应光模块,而在超算集群中,以H100集群为例,其中第一层便使用400G光模块,向上则使用800G光模块和对应交换机,网络互联要求提升十分明显。 图表8:英伟达DGX A100与DGX H100互联结构 AI云计算对应能力要求全面提升。云服务能力对于致力于布局AGI的