您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:通信行业深度:黎明已经到来—从技术演进看国产算力投资机会 - 发现报告
当前位置:首页/行业研究/报告详情/

通信行业深度:黎明已经到来—从技术演进看国产算力投资机会

信息技术2024-12-25宋嘉吉、黄瀚、邵帅国盛证券B***
AI智能总结
查看更多
通信行业深度:黎明已经到来—从技术演进看国产算力投资机会

通信 黎明已经到来—从技术演进看国产算力投资机会 证券研究报告|行业深度 2024年12月25日 国内算力需求的黎明已经到来。AI爆发两年以来,海外通过前期的算力积累和模型建设,开启了AI的商业循环之路,这对于国内的互联网巨头来说,意味着大规模部署AI业务的前提条件已经具备。今年以来,国内“豆包”、“可灵”等 优秀模型也开始商业化尝试,随着头部模型厂商开始走向放量与商业循环,我们认为,对于中国互联网行业蛋糕的再一轮切分即将到来,而在本轮竞争之中,算 增持(维持) 行业走势 力的建设,尤其是自主可控的算力建设,将是一切的先决条件。 GPGPU还是ASIC-先解决能用的问题。近期,博通在业绩电话会上描述了未来ASIC芯片的宏伟蓝图,但对于国产算力来说,我们判断,“能用与易用”的GPGPU将是未来几年的主旋律。相较于GPGPU,当下的AIASIC主流路线虽然纸面效率较高,但是在编译器,生态软件上与国内客户需求的适配度较低。从当 下来看,随着国内以“豆包”为代表的大模型应用加速放量,各厂商需要的是能够快速部署,抢占业务入口与用户的通用型算力,也就是GPGPU。同时对于以运营商,地方智算的建设者来说,通用算力代表着更好的用户接受度与投资回报 40% 28% 16% 4% -8% -20% 通信沪深300 率。长期来看,随着中国AI模型的竞争格局逐渐清晰,头部玩家的业务颗粒度逐渐变大,AIASIC也将在中国找到合适的渗透场景。 中国AI通信,路在何方?随着中国算力加速放量,自主可控的AI通信能力建设 也迫在眉睫,我们认为,建设中国AI通信,同海外一样,分为“Scale-Out”与“Scale-Up”两个部分。对于以交换机,以太网为主导的“Scale-Out”网络,核心是具备从芯片到整机自主可控的交换机体系。而对于过去更加封闭和专用的“Scale-Up”网络,我们不应走英伟达NV-Link体系的老路,而是应当学习海外以博通、AMD为主导的“UA-Link”联盟的经验,以及博通提倡的从封装开始的算核标准化互联服务,凭借过往中国电信巨头的网络经验和国产交换机芯片,封装技术的革新,组成适用于所有国产算力的自主版“UA-Link”和算核封装标准。 基建与制造:中国算力的底气!AI算力建设发展至今,已经跳脱了单芯片计算能 力的范畴,逐渐演变成从能源,通信到集群的系统性工程。如同航母一样,是对 于一个国家综合实力的考量。虽然在地缘政治下,中国的芯片制程和单芯片能力受到限制。但我们认为,在国产算力建设过程中,我们的基建与电子制造能力将是中国算力最重要的底牌之一。从两方面来看,首先是电子制造能力,中国的数 通光模块企业在多轮速率迭代周期中逐渐建立了竞争优势。同时随着连接方案多 样化,中国的铜模组,光纤光缆,长距离光模块等也将为AI建设添砖加瓦。第二方面,中国拥有全球最先进的电网设施和充足的电力供应,当下美国AI建设受困于电网容量,不得不寻求如DCI,天然气,小型核电等方式,但中国良好的电力基础,将使得国内在IDC扩容方面具有不可替代的优势。 投资建议:建议关注计算能力、通信能力、制造能力、基建能力的四大环节核心标的。 计算能力:寒武纪-U。 通信能力:中兴通讯、盛科通信-U、通富微电。 制造能力:新易盛、中际旭创、天孚通信、光迅科技、德科立、华工科技、锐捷网络、菲菱科思、紫光股份。 基建能力:润泽科技、光环新网、奥飞数据、英维克、麦格米特。 风险提示:AI建设不及预期,国内AI需求不及预期,海外制裁风险。 重点标的 2023-122024-042024-082024-12 作者 分析师宋嘉吉 执业证书编号:S0680519010002邮箱:songjiaji@gszq.com 分析师黄瀚 执业证书编号:S0680519050002邮箱:huanghan@gszq.com 分析师邵帅 执业证书编号:S0680522120003邮箱:shaoshuai@gszq.com 相关研究 1、《通信:进击的光通信——2025年通信行业投资策略》2024-12-22 2、《通信:字节领跑,国内算力投资加码》2024-12- 21 3、《通信:AI的新视角:从算力之战到能源之争——通信策略之AI基础设施篇》2024-12-19 股票代码 股票名称 投资评级 EPS(元) PE 2023A 2024E 2025E 2026E 2023A 2024E 2025E 2026E 688702.SH 盛科通信- U 买入 -0.08 0.04 0.10 -597.40 2,255.72 935.30 资料来源:Wind,国盛证券研究所 请仔细阅读本报告末页声明 内容目录 1.投资要件3 2.国产算力-能用与易用先行4 2.1GPGPU与ASIC的技术对比与优劣分析4 2.2我们的判断:GPGPU仍将是国内的主旋律7 3.中国AI通信路在何方?8 3.1中国AI通信之Scale-Out-以太网主导,交换机芯片是核心8 3.2中国AI通信之Scale-Up-“中国版NV-Link”迫在眉睫9 4.中国基建与中国制造:中国算力的底气12 4.1通信制造业:中国工业的明珠12 4.2IDC:再次成为核心资产12 5.投资建议13 6.风险提示13 图表目录 图表1:英伟达A100架构5 图表2:谷歌TPUV4架构5 图表3:TSPSuperlane位宽6 图表4:Groq的研发历程6 图表5:功能单元支持指令7 图表6:盛科通信交换机芯片9 图表7:UA-Link协议10 图表8:UA-Link有多家巨头加入10 图表9:博通3.5D封装11 1.投资要件 本篇报告将从一种路径(芯片路线选择)、两种道路(AI、通信发展道路)、三个板块 (芯片、通信、配套)、四种能力(计算、通信、制造、基建)梳理国产算力起量过程 中的投资框架与逻辑。 市场对于国内算力芯片的发展路径理解较浅。我们坚定认为,相较于ASIC芯片,GPGPU将是更适合中国当下几年算力市场的产品模式。首先,对于ASIC的定义,市场也较为模糊,我们认为,从国际主流来看,AIASIC是指没有DCU部分,只保留 TensorCore,且采用脉动阵列取数法为原理的芯片,即谷歌TPU、Groq、Tenstorrent等海外主流ASIC。其余保留了DCU部分的芯片,均应归类为GPGPU类型。虽然ASIC的芯片,在同等制程和面积下,拥有更高的理论性能,但ASIC芯片的开发,需要编译器和软件生态层面的配合。由于没有DCU部分的辅助,ASIC芯片的编译器开发难度远高于GPGPU芯片,同时新的生态软件也给客户带来了极高的切换成本。因此,在当下阶段,只有从模型训练到推理应用全自有的海外头部大厂,才能较好的运用自研ASIC。 对于国内来说,未来几年是算力部署的初始阶段,GPGPU算力的易用性将使其对客户更有吸引力,中国需要先用海量的,可用且易用的GPGPU算力堆砌出自己的模型与商业循环,在完全成熟以及业务颗粒度放大之后,ASIC在国内的市场才会慢慢显现。 当然在此过程中,对于GPGPU架构的优化也非常重要,例如可以同样通过对DCU中不同算力精度小核的取舍,来强化芯片的AI精度,也就是FP16精度的算力,实现更好的追赶,我们认为这才是对于中国算力来说当下更为合适的道路。 市场对于中国AI通信该如何发展理解较浅。随着AI集群规模的扩大,自主可控的AI 通信,将会变得更加重要。发展自主可控的AI通信,有两个领域,第一是Scale-Out 领域,这个领域主要涉及到交换机芯片到整机的自主可控,第二个则是Scale-Up领域,这个从英伟达经验来看,更加封闭且垄断,但我们认为,国内芯片厂商不应该走与英伟达类似的纯自研道路。从海外最新发展来看,从UA-Link联盟的成立,到12月5日博通3.5D封装方案的发布,芯片设计与通信公司的分工正在愈发明确,我们认为,行业应该学习这种趋势,让芯片公司专注于设计,同时集合国内电信巨头的网络经验、封装巨头的技术积累,交换芯片公司的自主产品,从而建立自主可控的由封装到专用芯片再到通信协议的“Scale-Up”网络联盟。 行业催化: 1.国内模型厂商业务推进加速。 2.国产算力产品能力不断提升。 投资建议: 建议关注计算能力、通信能力、制造能力、基建能力的四大环节核心标的。计算能力:寒武纪-U。 通信能力:中兴通讯、盛科通信-U、通富微电。 制造能力:新易盛、中际旭创、天孚通信、光迅科技、德科立、华工科技、锐捷网络、菲菱科思、紫光股份。 基建能力:润泽科技、光环新网、奥飞数据、英维克、麦格米特。 2.国产算力-能用与易用先行 近期,博通在财报电话会上给出指引,到2027财年,其AI业务的潜在市场规模约为600-900亿美元,我们认为,海外的ASIC的业务版图逐渐浮出水面,这也带动博通市值也一举突破万亿美金大关。 我们将视角拉回国内,许多投资者在这种背景下,认为ASIC作为AI专用芯片,其拥有更强的专用性,在同样的半导体制程下,将会拥有比英伟达为代表的通用GPU更强的 理论性能,是实现制程限制下算力“弯道超车”的理想之选。但从当下的客户需求与全球ASIC芯片开发进程来看,我们认为,在未来的2-3年内,GPGPU将依然凭借“能用”与“易用”,成为国产算力的主旋律。 2.1GPGPU与ASIC的技术对比与优劣分析 为了进一步解释为何我们做出“GPGPU”先行的判断,我们需要从两种芯片的底层技术出发,来理解在进行AI计算时,两种芯片的运算特点,与各自设计,使用场景的优劣。 随着大模型训练需求的跃升,Transformer算法快速风靡,Transformer算法通过大量且单一的“矩阵乘法”运算,使得模型的参数,能力快速跃升,带动了AI的高速发展。这种通过单一,大量的矩阵乘法运算来实现“大力出奇迹”的运算特点,也给当下的芯片演进,带去了不一样的土壤。 (由于技术部分过于复杂,不是此篇报告论证的重点,因此在本篇报告中只做大概论述并给出主要结论,更详细的两者技术对比以及演进路线可以参考我们之前发布的报告《AI算力的ASIC之路——从以太坊矿机说起》) 我们先来看以英伟达为代表的GPGPU是如何在芯片微架构层面完成一次矩阵运算的。GPGPU构型的芯片,最大的特点是其芯片由两大部分组成,专门负责矩阵运算的TensorCore(TU)与负责其他运算如向量运算,加减乘除的小核部分(DCU)。 在GPGPU构型的芯片上,进行一次矩阵乘法运算的大体过程如下,DCU中的每一个小核心先从HBM中取出一个单独的数字,将其传送给TU,连续多个cycle后,将TU填满,进行一次矩阵乘法,并得出结果。 图表1:英伟达A100架构 资料来源:英伟达官网,国盛证券研究所 在ASIC芯片上,以当下主流的TPU架构为例,其底层原理是“脉动阵列取数法”,从微架构层面看,其抛弃了DCU小核的部分,只保留TU大核来进行矩阵乘法运算。CPU与编译器直接从HBM中取出数字灌入TU来进行运算。 图表2:谷歌TPUV4架构 资料来源:googlecloud,国盛证券研究所 这么做有两个好处,第一,省去了在实际运算中不参与矩阵乘法的“DCU”部分,可以将多余的面积堆积更多的TU,从而实现更高的“AI算力密度”。第二,由于采用了“脉动阵列取数法”作为填满TU的底层原理,其将TU装满运算一次,并得出矩阵乘法结果的速度也更快。两者相互结合,相同面积与制程下,此种原理的芯片相较于英伟达的GPGPU,可以拥有更好的理论算力。 但与之对应的,ASIC的芯片相较于GPGPU也有不少缺陷和劣势。第一,在碰到稀疏数据,数据流中断时,脉动整列取数法的效率会降低,而GPGPU因为有DCU提前处理数据,因此不会有此类隐患。而在AI场景中,大部分数据是稀疏数据,同时受制于通信,显卡所获取的数据并不完全连续,这在一定程度上降低了ASIC芯片的理论效率。 第二,则是ASIC芯片的设计