您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国信证券]:基于GPT4.0模型的通信基础设施需求测算 - 发现报告

基于GPT4.0模型的通信基础设施需求测算

信息技术 2023-03-28 马成龙,付晓钦 国信证券 罗杰
报告封面

事项: 近期关于GPT模型的更新和进展不断,2022年12月OpenAI推出的基于GPT3.5模型的chatgpt应用在发布2个月就拥有了1亿用户,短短3个多月后,2023年3月14日OpenAI便发布了多模态GPT4.0大模型,相较于GPT 3.5模型,GPT 4.0模型支持图文回答并实现了回答度的大幅提升。3月25日,ChatGPT再次功能升级实现了对插件的初始支持,帮助ChatGPT访问最新信息、运行计算或使用第三方服务。国内,百度发布了文心一言大模型,华为盘古大模型也将迎来发布,行业催化不断。应用层面的快速进展会直接带动以服务器-交换机-光模块为代表的硬件基础设施的需求提升。 国信通信观点:我们尝试从硬件基础设施角度对于当前以Chatgpt为代表的AI应用需求带来的硬件的弹性进行测算,并得到以下几个重要结论:(1)在AI集群数据中心网络架构中,服务器:交换机:光模块对应比例为=1:1.2:11:4.;(2)短维度:从当下GPT模型一次性角度测算,服务器、交换机、光模块的市场弹性分别为15%、5%、3%;(3)长维度:下游需求亿级别大规模响应角度测算,服务器、交换机、光模块的市场弹性分别为65%、19%、10%。 投资建议:以Chatgpt为代表的AI应用正在得到快速发展,并进行着快速迭代,进而有望赋能多行业、多样化新型应用落地,提升行业效率。软端的快速发展离不开硬件基础设备的保障,因此AI数据中心内部的各类的硬件基础设施环节有望充分受益AI行业进步带来的需求提升:建议重点关注国内ICT领先企业【紫光股份】、【浪潮信息】、【锐捷网络】、【中兴通讯】、【菲菱科思】;光模块及光器件环节【中际旭创】、【天孚通信】、【新易盛】;IDC温控企业【英维克】、【申菱环境】;IDC电源端企业:【科华数据】、【科士达】;第三方IDC【奥飞数据】;建议关注:【同飞股份】、【佳力图】。 评论: 基于英伟达AI网络架构硬件需求比例:服务器:交换机:光模块=1:1.2:11.4 由于当前大部分AIGC模型都是基于英伟达方案来部署,我们从英伟达的AI集群模型架构进行拆解。 对于较大的AI数据中心集群,一般可多达几千台AI服务器的需求,在部署方面会拆分成一个个基本单元进行组件,英伟达对应的一个基本单元为SuperPOD。 根据SuperPOD公开信息:一个标准的SuperPOD由140台DGXA100GPU服务器、HDRInfiniBand200G网卡和170台NVIDIAQuantumQM8790交换机构建而成,其中交换机速率为200G,每个端口数为40个。 图1:英伟达SuperPOD基本结构 网络结构上,英伟达采用Infinband技术(“无限带宽”技术,简称IB)和fat tree(胖树)网络拓扑结构,和传统的数据中心的区别在于,在IBfattree结构下,使用的交换机数量更多,且因为每个节点上行下行的端口数完全一致,使得该网络是是无收敛带宽的,每个端口可采用同样速率的光模块。 图2:传统数据中心网络拓扑结构 图3:Fattree网络拓扑结构 光模块用量测算:我们从线缆角度测算光模块需求,一个SuperPOD170个交换机,每个交换机有40个端口,最简单方式上下个70台服务器,依次端口互联(上下1:1连接)对应的线缆需求为40×170/2=3400根,但是由于实际网络拓扑结构交换价不是该情况,连接情况更加复杂且会分为三层结构,因此线缆数需求有所提升,我们假设上升至4000根线缆需求。 线缆的需求分为三种,第一种用在机柜内部,互联距离 5m 以内,常用需求为铜缆,不需要光模块;第二类互联距离为 10m 以内,可以采用AOC(有源光纤)连接,也不需要光模块;第三类,带光模块的光纤,单根需求为2个光模块。 考虑到 10m 以内的连接占据多数,我们假设铜缆:AOC:光模块光纤比例=4:4:2. 光模块需求=4000*0.2*2=1600个。 对于一个SuperPod,服务器:交换机:光模块的用量比例=140:170:1600=1:1.2:11.4. 应用层面:单GPT4.0模型对于服务器需求用量测算 从用户使用角度来测算,我们对于服务器算力的测算受大模型参数,日活人数,每日每人提问等多因素影响。 在ChatGPT中,一个token通常指的是响应请求所需的最小文本单位,一般一个30词的提问大约对应40个token,推理是token的算力调用是2N。对应模型算力的需求我们分摊在一天24h的每一秒。 2𝐀∗模型参数 服务器用量= ×峰值需求倍数 算力利用率∗时间分摊∗单台服务器算力 基于以下假设,我们可得到对应一个在1亿日活的应用需要的AI服务器的需求约为1.5万台。 表1:单GPT4.0服务器用量测算 弹性测算一:现有采购部署层面弹性测算(基础投入维度) 角度1我们选择从现有完成一个类似GPT4.0入门级别要求的需求假设去测算硬件基础设施层面需求。 假设1:结合现有各类公开数据,完成ChatGPT4.0(训练+推理)需要至少3万张英伟达A100卡的算力投入,对应3750台A100的DGX服务器。 假设2:全球假设国内和海外有潜在20家公司可能按照此规模进行测投入。 假设3:网络结构比例按照单个SuperPOD方式部署,即服务器:交换机:光模块的用量比例=1:1.2:11.4。 假设4:服务器价格参考英伟达价格,为20万美元;交换价结合Mellanox售价,假设单价为2w美金,光模块根据交换机速率,现在主流为200G,假设售价为250美金。 结论:服务器、交换机、光模块的市场弹性分别为15%、5%、3%。 表2:一次性投入角度硬件需求角度测算 弹性测算二:下游需求亿级别大规模响应(远期应用规模起量角度) 角度2:基于下游应用呈现规模角度,即按照单GPT4.0模型对于服务器需求用量测算。 假设1:单个应用的需求角度开看,服务器潜在用量为1.5万台。 假设2:全球假设国内和海外有潜在20家公司可能形成同样类型规模应用。 假设3:网络结构比例按照单个SuperPOD方式部署,即服务器:交换机:光模块的用量比例=1:1.2:11.4。 假设4:服务器价格参考英伟达价格,为20万美元;交换价结合Mellanox售价,假设为2.5-3w美金,光模块根据交换机速率,现在主流为200G,假设售价为250美金。 结论:服务器、交换机、光模块的市场弹性分别为65%、19%、10%。 表3:下游应用大规模使用角度硬件需求角度测算 投资建议: 以Chatgpt为代表的AI应用正在得到快速发展,并进行着快速迭代,进而有望赋能多行业、多样化新型应用落地,提升行业效率。软端的快速发展离不开硬件基础设备的保障,因此AI数据中心内部的各类的硬件基础设施环节有望充分受益AI行业进步带来的需求提升:建议重点关注国内ICT领先企业【紫光股份】、【浪潮信息】、【锐捷网络】、【中兴通讯】、【菲菱科思】;光模块及光器件环节【中际旭创】、【天孚通信】、【新易盛】;IDC温控企业【英维克】、【申菱环境】;IDC电源端企业:【科华数据】、【科士达】;第三方IDC【奥飞数据】;建议关注:【同飞股份】、【佳力图】。 风险提示: Chatgpt为代表的应用落地不及预期,参数假设存在偏差,实际行业需求和投入力度不及预期。