您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西南证券]:从云计算看AI投资的ROI:企业上云具备性价比,云业务具备较高回报率 - 发现报告
当前位置:首页/行业研究/报告详情/

从云计算看AI投资的ROI:企业上云具备性价比,云业务具备较高回报率

信息技术2024-10-18王湘杰、尤品柯西南证券L***
AI智能总结
查看更多
从云计算看AI投资的ROI:企业上云具备性价比,云业务具备较高回报率

AI专题•从云计算看AI投资的ROI 企业上云具备性价比,云业务具备较高回报率 西南证券研究发展中心海外研究团队2024年10月 核心观点 小型企业及高成长性企业云化驱动力较强,云上部署相较于私有化部署具备更高性价比。私有化部署即自建数据中心,云上部署则采用云服务提供商的配套服务。1)部署考虑因素:在AI时代下,GPU的供需缺口是导致众多企业难以进行私有化部署的关键,当前,众多中小企业和初创公司难以获得高性能芯片以自建算力集群;且云上部署相较于自建IDC,开通效率更高。从长期来看,企业自建IDC的情况下,业务曲线和资源曲线之间容易产生短缺和浪费,云上部署则可以根据业务情况灵活增减,实现资源按需付费,成本更加可控。2)企业部署画像:根据HGInsights数据,初创企业和小微企业多数选择上云为主,而大型企业和中型企业在上云的同时,还会选择自建数据中心。且当业务具备较高成长性时,企业可以选择分阶段、增量式上云。3)部署成本测算:基于AI时代下模型预训练的算力需求,我们对企业是否选择云上部署进行成本探讨,根据测算,在各种模型规模下,私有化部署成本远高于云上预训练成本。 云服务商加大投入力度,云业务具备较高回报率。1)云服务商投入力度:亚马逊/微软/谷歌/甲骨文等大厂方面,资本开支持续增加,云计算基础设施加速布局;CoreWeave、Lambda等初创企业方面,近年来积极融资,以寻求更多算力资源。2)CPUIaaS与GPUIaaS对比:Semianalysis数据表明,GPU数据中心总拥有成本显著提升,在英伟达DGXH100服务器中,GPU成本中占比约7成,而内存和存储成本占比相较于CPU服务器显著下降;此外,在CPUIaaS时代,云计算通过虚拟化和容器等技术可实现资源的超卖,而在GPUIaaS时代,服务器在模型训练时通常处于满额利用状态,优化MFU成为提升可用算力的有效手段之一。3)投资回报:根据各厂商官网数据,H100的租赁价格从2$/h~13$/h不等,其中云服务大厂的算力租赁价格较为稳定。假设数据中心算力使用率为80%、且推出五折优惠,则云厂商每小时对应的实际收益为H100租赁价格的40%。若租赁价格为10$/h、对应实际收入为4$/h,扣除成本0.88$/h,利润率则可达78%,回本周期仅需1年。 相关标的:英伟达(NVDA.O)、微软(MSFT.O)、亚马逊(AMZN.O)、谷歌(GOOGL.O)、甲骨文(ORCL.N)等。 风险提示:市场需求不及预期;行业竞争加剧;投资回报不及预期等风险。 1 目录 第一章企业私有化部署和云上部署对比 1.1企业私有化部署和 数据中心控制权GPU可获得性建设或部署周期使用弹性部署成本等 企业私有化部署对数据中心具有更高控制权众多企业难以获得高性能芯片以自建数据中心自建IDC需三个月以上,云服务可做到分钟级开通云资源可以根据业务情况灵活增减实现资源按需付费,成本更加可控 云上部署的考虑因素 微小型企业选择上云为主,大型企业配备私有化部署 1.2企业私有化部署和 业务特性 支出水平 企业规模 稳态企业可选择自建机房,高成长性企业云化驱动力较强 微型支出客户占比约八成,北美地区客户分布较多 云上部署的客户画像 企业AI模型多为业务场景设计,部署中等模型即可满足需求 GPU成本或租赁价格 算力利用率(MFU) GPU峰值算力 模型大小 H100在FP16Tensor核心性能下的算力水平为1979TFOPS 1.3企业私有化部署与 万卡集群MFU可达40%,GPU数量越少、MFU越高 云上部署的成本探讨 单张H100成本在2.0~3.5万美金,云租赁价格在2$~13$/GPU/h 资料来源:西南证券 2 1.1企业私有化部署和云上部署的考虑因素 企业私有化部署对数据中心具有更高控制权,云上部署更具使用弹性。私有化部署即自建数据中心,云上部署则采用云服务提供商的配套服务。在私有化部署情况下,企业数据不会通过公共网络传输,安全性更高,且不同企业可针对自身特定需求进行定制化部署,具备更大控制权。云上部署则无需投入大量初始资本以及后续运维费用,相关配套服务通常由云服务商统一提供,更加快捷易用,同时可根据业务需求进行扩展或缩减,使用弹性更加灵活。 企业私有化部署和云上部署优劣势对比 对比 私有化部署 云上部署 定义 私有化部署或自建GPU服务器是指将应用程序或服务部署在组织内部的私有网络中,仅对内部用户开放。 云上部署或采用GPU云服务器是指将应用程序或服务部署在第三方云服务提供商的数据中心,通过网络连接使用。 成本 ①高服务器投资运营成本;②设备高功耗,需硬件改造适配;③为保障服务稳定,需运维IT成本; ①按需购买,不用投入大量资金购置物理服务器;②可及时采用最新GPU服务器,无需硬件更新置换;③无需投入服务器运维成本; 安全 ①数据不会通过公共网络传输,降低数据泄露的风险;②若不同用户共享资源,数据不隔离,需购买额外的安全防护服务等; ①不同用户间的资源需要进行隔离,对客户数据采取配套的安全保障措施;②通常能够与与服务商的其他云安全产品实现无缝对接,享有云服务器同等的基础云安全基础防护和高防服务; 易用 ①购买装机管理,自行实现硬件扩展、驱动安装;②需跳板机登录,操作复杂; ①与多种云产品接入,内网流量免费;②无需跳板机登录,简单易用;③清晰的GPU驱动的安装、部署指引,免去高学习成本; 弹性 ①组织可完全控制部署的硬件和软件,满足内部特定需求;②机器固定配置,难以满足未来随着时间变化的需求。 ①云服务可根据业务需求进行扩展或缩减,提高资源利用率。 资料来源:腾讯云,西南证券整理 3 1.1企业私有化部署和云上部署的考虑因素 GPU供不应求、部署周期较长或成为制约企业私有化部署的关键,使用弹性、成本优势是企业选择云上部署的长远考量。在AI时代下,GPU的供需缺口是导致众多企业难以进行私有化部署的关键,当前,适用于AI的高性能GPU供不应求,众多中小企业和初创公司难以获得高性能芯片以自建算力集群;此外,根据《华为云昇腾AI云服务》数据,云上部署相较于自建IDC,开通效率更高,通常情况下,自建数据中心从招标到验收需要三个月以上,而云服务可做到分钟级资源开通。而从长期来看,企业自建IDC的情况下,业务曲线和资源曲线之间容易产生短缺和浪费,云上部署则可以根据业务情况灵活增减,实现资源按需付费,成本更加可控。 企业私有化部署和云上部署优劣势对比 弹性按需 业务曲线与资源 曲线有GAP 云资源可以根据业务 情况灵活增减 资料来源:《华为云昇腾AI云服务》,西南证券整理 4 1.2企业私有化部署和云上部署的客户画像 微小型企业选择上云为主,大型企业配备私有化部署 ①大型企业自建数据中心,业务生态有望整合协同。根据HGInsights数据,大型企业和中型企业在上云的同时,还会选择自建数据中心。三大云厂商的下游客户中,超过70%的大型企业(员工数量超过1000人)均会选择“上云+自建数据中心”的方案。由于大型企业具备较强的资金或资源实力,通常会围绕自身核心业务配备数据中心,以实现业务的生态协同和更高的成本效益。 2024年云厂商下游客户上云和自建数据中心占比 ②小型企业选择上云为主,按需购买实现弹性易用。根据HGInsights数据,小微企业(员工数量小于100人)以上云为主。由于小型企业云服务需求相对较小,且上云方案更加简单易用,只需按需订阅,因此初创企业和小微企业多数选择上云为主。 100% 9% 83% 79% 63% 72% 44% 54% 47% 29% 32% Entreprise >1000人 Mid-Market 100~1000人 AWS SMB 10~100人 Startup <10人 14% Entreprise >1000人 17% Mid-Market 100~1000人 SMB 10~100人 Startup <10人 Entreprise >1000人 Mid-Market 100~1000人 GCP SMB 10~100人 Startup <10人 Azure 28% 54% 83% 21% 46% 68% 86% 17% 37% 56% 71% 91% 80% 60% 40% 20% 0% 上云为主上云+自建DC 资料来源:HGInsightsdata,西南证券整理 5 1.2企业私有化部署和云上部署的客户画像 微型支出客户占比约八成,北美地区客户分布较多 ①从客户支出水平来看:根据HGInsights数据,微型支出客户(月均支出小于1k美元)在各家云厂商中的占比可达75%~90%;整体来看,谷歌的微型支出客户占比更高,亚马逊和微软的中大型支出客户占比更高。 ②从客户地区分布上看:根据HGInsights数据,亚马逊AWS和谷歌GCP北美客户占比过半,分别为53%和52%,高于微软的38%;而微软Azure在欧中非地区具备相对优势,客户占比为39%,亚马逊AWS和谷歌GCP分别仅为26%和28%。 2024年云厂商各支出水平客户占比($/月) 2024年云厂商全球各地区客户占比 100%100% 80%80% 60%60% 40% 40% 20% 0% 亚马逊AWS谷歌GCP微软Azure 20% 0% 亚马逊AWS 谷歌GCP微软Azure <1k1k~5k5k~20k20k~100k>100k 北美欧中非亚太拉美 资料来源:HGInsightsdata,西南证券整理资料来源:HGInsightsdata,西南证券整理 6 1.2企业私有化部署和云上部署的客户画像 稳态企业可选择自建机房,高成长性企业云化驱动力较强 稳态企业可选择自建机房,高成长企业云化驱动力较强。当企业业务长期稳定在某一存量水平,或核心业务需要基础设施配套协同时,自建机房不失为一种合理的选择;而当业务具备较高成长性时,企业可以选择分阶段、增量式上云,如互联网、游戏等行业,在开发阶段算力需求旺盛、系统需要快速上线,项目可能呈现爆发式增长,为满足业务需要,上云更具灵活性。根据HGInsights数据,金融、科技、医疗等行业的IT支出排名较为靠前,支付意愿较强。随着大语言模型的持续发展,金融、科技(代码)、医疗、法律以上四大行业可以通过混合专家模型等技术手段,在基座模型之上进行垂类专业能力的学习强化,推出具备更高成本效益的AI工具,为B端企业降本增效。 2024年主要行业IT支出预测(亿美元) 2024年云厂商行业买家监测数量(万个) 40010 3008 6 200 4 1002 00 亚马逊AWS谷歌GCP微软Azure 互联网教育媒体游戏制造金融 资料来源:HGInsightsdata,西南证券整理 资料来源:HGInsightsdata,西南证券整理 7 1.3企业私有化部署与云上部署的成本探讨 当前,集群扩展的主要驱动因素在于千亿或万亿参数模型的预训练需求。在LLMs预训练阶段,需要将大量的训练数据并行至足够量的GPU上,而GPU的显存成为制约训练更大模型的主要条件之一。因此,我们基于AI时代下模型预训练的算力需求,对企业是否选择云上部署进行成本探讨。 ①公式一:模型预训练所需计算次数=6*模型参数量*预训练数据量。根据OpenAI《ScalingLawsforNeuralLanguageModels》,训练Transformer模型的理论计算量为C≈6N*D,其中,N为模型参数量大小,D为训练数据量大小。 模型预训练所需GPU数量 模型预训练所耗费的GPUhours 24h 计划训练天数 模型预训练所耗费的GPUhours 模型预训练所需算力 单张GPU每小时的有效算力 模型预训练所需算力 模型参数量 模型预训练数据量 6 单张GPU每小时的有效算力 单张每秒GPU峰值算力 GPU有效利用率 60s 60mins 大语言模型预训练算力需求测算思路 ②公式二:模