AIGC算力全景与趋势报告 分析师:丁乔dingqiao@qbitai.com 量子位智库QbitAIInsights 序言 2023年无疑是AIGC元年,ChatGPT引发的各类大模型竞赛中,行业内绕不开的一个话题便是算力从何而来。 算力目前已经在AIGC产业内形成新共识——算力成为AIGC发展的关键基石。随着英伟达今年一系列不断推陈出新的产品动作,可以看到国际上最先进的算力厂商如今已迈向由超级芯片组成的算力集群阶段。 此外,算力厂商也无疑成为AIGC产业下的率先受益方。然而,随着大模型参数的不断增长,OpenAI近期表明算力成为其发展的挑战之一。在AIGC产业繁荣的当下,可以预见的是未来对算力的需求会越来越大。那么,在这场AIGC盛宴中,应该如何应对当下面临的「算力危机」呢? 在《AIGC算力全景与趋势报告》中,量子位智库将从我国算力产业现状、算力产业变革、趋势预判等角度出发,通过广泛调研与深度分析,全面立体描绘我国当前AIGC算力产业全景与趋势。 我们期待,能够与众多投入、关注、期待中国AIGC算力产业的伙伴一起,共同见证并打造中国AIGC算力产业的蓬勃未来。 目录01 02 03 04 AIGC驱动,算力产业机遇空前AIGC算力产业全景 05 AIGC算力产业代表案例 AIGC算力产业「五新」趋势AIGC算力产业周期预测 01AIGC驱动,算力产业机遇空前 AIGC潮起,算力产业挑战巨大,机遇空前 OpenAI发布ChatGPT属于GPT系列中的聊天机器人模型。GPT系列中,GPT3是由1750亿参数组成的语言模型,而GPT4的参数更是达万亿级别。国内目前公布的大模型参数规模也普遍在百亿至千亿级别。如此庞大的参数规模,对于芯片提供商、云服务厂商以及服务器厂商都产生了新需求。 全球范围内,GPT具备从底层改变各行业规则的能力,作为AIGC产业的基建,算力产业在未来有望成为一项公共服务渗透入各行各业。基于此,智算中心作为公共算力基础设施,成为AIGC基建中的关键环节。 来源:InformationisBeautiful 大模型参数量变化 云计算厂商 智算中心 服务器厂商 芯片 •游戏规则被改写,MaaS能力成为竞争的关键变量 •在算力需求暴涨、数据和模型资源稀缺、AI技术广泛落地背景下,智算中心成为地区AI新基建 •大模型训练驱动AI服务器需求暴涨,并且正在催生新物种:AI模型一体机 •GPU为核心的AI训练芯片供不应求,是AIGC算力产业最大挑战和最大机遇 •需求 芯片:大模型训练需求暴涨,GPU供不应求 当前大模型参数量在百亿至千亿参数规模,在训练阶段,对芯片的需求从CPU+加速器转变为以GPU主导的大规模并行计算。未来,当多数大模型参数规模到达万亿级别,将产生更大的算力需求。在单芯片性能之上,智算中心能够通过算力的生产-调度-聚合-释放,支持AI产业化发展。 •缺口 目前市场对于英伟达芯片的需求远大于供给。经测算,一万枚英伟达A100芯片是做好AI大模型的算力门槛。国内具备此量级的公司最多只有1家,而GPU芯片持有量超过一万枚的企业不超过5家。 训练阶段(单次成本) 单次GPT-3Small(1.25亿)计算量2.6PFlops/天单次GPT-3XL计算量为27.5PFlops/天 单次GPT-3(175B)计算量3640PFLops/天 芯片需求 GPT3(175B)3640PFLops:35000块A100/1 成本 天或1024块A100跑1个月 单次训练成本:>1200万美元 算力需求 微调阶段预13计50算.4力PFlops/天 芯片需求 13000块A100/1天或433块A100跑1个月成本 成本:920万/月 推理阶段(日常运营)ChatGPT2023年2月官网总访问量11亿次; 用户每次与ChatGPT互动的云计算成本成为约0.01美元;保守预估,假设用户每次访问网站只进行一次互动 芯片需求 采用A100或V100设备 成本 运营的算力成本:~1100万美元/月 来源:阿里公开资料,量子位智库整理 服务器:业务增长显著,高端芯片AI服务器火爆 •现状 AIGC产业的发展将加剧AI服务器行业的增长速度,国产服务器厂商普遍业务增量在30%以上;国内市场中,服务器重新进入洗牌期。 •需求趋势 由于AIGC对于高性能计算的需求,云厂商在服务器的选择上以AI服务器为主。据IDC数据,2025年全球AI服务器市场规模将达317.9亿美元,年复合增长率为19%。英伟达GPU短期内面临产能不足问题,或将一定程度上限制AI服务器生产,从而影响出货量。 2022年中国服务器市场份额占比 800 2021-2025中国AI服务器市场规模预测 50% 17.00% 6.10% 4.90% 5.10% 5.30% 6.20%10.10% 28.10% 17.20% 700 600 500 400 浪潮信息新华三超聚变宁畅中兴通讯戴尔联想ODMDirect其他 300 200 100 0 2021 市场规模(亿元) 2025E 数据来源:IDC,量子位智库整理 工具与平台 MaaS产业结构图——以百度文心为例 EasyDL-大模型零门槛AI开发平台 文心大模型 数据标注与处理 ERNIE3.0 (百亿级) 鹏城-百度〮文心 语言理解与生成 (千亿级) (任务知识增强千亿级) ERNIE3.0Zeus NLP大模型 国网-百能度源•文心 BML-大模型全功能AI开发平台 大模型套件 大模型精调大模型轻量化 行业大模型 大模型API 旸谷大模型创意与探索 社区 大模型部署 浦发-百金度融•文心 云计算厂商:服务范式变革,MaaS带来新商业路径 MaaS成为云计算服务的新范式,云计算判别标准从算力能力转向「云智一体」的AI产品能力。 •范式转变 •成本 自研芯片:根据IDC2018年服务器成本结构数据显示,高性能服务器中,芯片成本占比高达50%~83%;全球头部云厂商(谷歌、微软、腾讯等)为摆脱过于依赖芯片 厂商的局面,均加大芯片自研力度。 医疗ERNIE-Health 金融ERNIE-Finance 对话PLATO 搜索ERNIE-Search 信息抽取ERNIE-IE 图网络ERNIE-Sage 跨语言ERNIE-M 文档图像表征学习 CV大模型 VIMER-StrucTexT 商品图文搜索表征学习 VIMER-UMS 多任务视觉表征学习 VIMER-UFO 自监督视觉表征学习 VIMER-CAE 跨模态大模型 E图文生成 RNIE-ViLG 文档分析ERNIE- Layout ERNIE-语言-语言 ViL ERNIE-ERNIE- 地理-语言 SAT GeoL 视觉-语言 生物计算大模型 蛋白质结构 分析 HELIX-Fold LIX-GE 化合物表征 HE学习M 《智能计算中心创新发展指南》指出,在智算中心实现80%应用水平的情况下,城市/地区对智算中心的投资可带动人工智能核心产业增长约2.9-3.4倍,带动相关产业 增长约36-42倍; 未来80%的场景都将基于人工智能,所占据的算力资源主要由智算中心提供,智算中心将成为经济增长的新动力引擎。 智算中心:基建级AI算力供应,打造地区经济增长新引擎 公共基建 全国超30座城市落地智算中心: 北京、天津、河北、南京、无锡、宁波、 杭州、武汉、沈阳、成都、哈尔滨、许昌、 广州、宿州、乌镇、昆山、甘肃、长沙 …… 企业方 阿里云张北超级智算中心、乌兰察布智算中心商汤科技人工智能计算中心 百度智能云-昆仑芯(盐城)智算中心百度智能云(济南)智算中心 腾讯长三角(上海)人工智能先进计算中心腾讯智慧产业长三角(合肥)智算中心 曙光5A级智算中心克拉玛依浪潮智算中心 中国电信京津冀大数据智能算力中心中国联通广东AI智算中心 …… 中国智能算力发展情况及预测 百亿亿次浮点运算/秒(EFLOPS) 1271.4 922.8 640.7 31.775155.2 268427 1500 1000 500 020192020202120222023202420252026 来源:国家信息中心《智能计算中心创新发展指南》,IDC,量子位智库整理 02AIGC算力产业全景 AIGC算力现状链路:芯片—服务器—云平台—模型应用 以微软为例 芯片资源 •外部:Azure云服务为ChatGPT构建了超过1万枚英伟达A100GPU芯片的AI计算集群 •内部:微软正在自研AI芯片——雅典娜(Athena),将由台积电代工,采用5nm制程首个目标:为OpenAI提供算力引擎,以替代英伟达A100/H100 云基础设施平台Azure 微软是OpenAI唯一云服务提供商,为GPT训练提供计算资源、存储资源、自动化部署和管理等支持 模型即应用(MaaS)1)AzureOpenAI服务: 企业级解决方案:借助AzureOpenAI,用户可以汇总文本、获取代码建议、为网站生成图像等 2)Microsoft365Copilot: 使用了GPT-4作为其核心的LLM,将用户的自然语言输入转化为高效的生产力工具,集成在Word、Excel、PowerPoint、Outlook、Teams等多个应用中 芯片层现状:AIGC算力2大路线,GPU通用路线和AISC专用路线 (主力产品)、寒武纪厂商为代表的专用AI芯片路线,此路线下的芯片更适用于垂类小模型,为其提供能效比更高的芯片。此外互联网云厂商的自研芯片也是专用路 AI芯片目前有两大路线,一种是英伟达代表的GPU路线,更适合当前AIGC产业对大算力的需求,与AIGC大模型的训练及推理适配度极高。另一种路线则是以国内华为 线,芯片主要服务于自家产品,为自身产品打造性能更优的算力底座。 专用芯片路线(Applicciarctuioitn)-specificintegrated 用来执行专门/定制化任务优势局限 •专用场景中能够做 •跳出当前的已有生 到更优的能效比 •研发周期长、 商业风险较大, 态,长期来看有可 产品易受市场 能实现真正超越 •不易扩展,难 变化影响 以满足后续增 加功能的需求 通用芯片路线(Graphicsprocessingunit) 能够完成多样化算力任务 优势局限 •擅长大规模并行计算 •兼容英伟达生态,是最快也是最适用于当下的解决方案 •在厂商被迫「重复造轮子」的前提下,追赶上英伟达的难度极高 •芯片总体功耗高 服务器层现状:AI服务器成主要增长点,采购占比互联网客户为主 服务器作为算力的载体,是AIGC基础设施的核心硬件。由于AIGC对于高性能计算的需求,云厂商在服务器的选择上以AI服务器为主。据IDC数据,2025年全球AI服务器市场规模将达317.9亿美元,年复合增长率为19%。AIGC产业的发展将加剧AI服务器行业的增长速度,国产服务器厂商普遍业务增量在30%以上; TrendForce日前发布预测,指出随着AI服务器与AI芯片需求同步看涨,预计2023年AI服务器(包含搭载GPU、FPGA、ASIC等主芯片)出货量将接近120万台,年增38.4%,并将2022-2026年AI服务器出货量年复合增长率上调至22%。 2022年,国内互联网大厂成为AI服务器的最大买家;2023年,随着AIGC的爆发,根据业内消息,互联网厂商依旧是AI服务器的最大买方。 15.5 15 14.5 14 13.5 13 12.5 2023AI服务器出货量预测 19% 0% 1.50% % 22.70% 6.00% 17% 14% 16% 1.5 2 2022年AI服务器采购量占比 13% 1220222023 微软谷歌MetaAWS字节跳动腾讯阿里巴巴百度其他 数据来源:TrendForce,量子位智库整理 云计算现状:MaaS重塑服务模式,新老玩家重构竞争力