您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国通信院]:智算基础设施发展研究报告(2024年) - 发现报告
当前位置:首页/行业研究/报告详情/

智算基础设施发展研究报告(2024年)

AI智能总结
查看更多
智算基础设施发展研究报告(2024年)

智算基础设施发展研究报告 (2024年) 中国信息通信研究院产业与规划研究所 2024年9月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。 转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 当前人工智能技术及生态迭代加快,对智能算力提出更强更大规模的需求。作为关键环节与核心底座,以智算中心为代表的智能算力基础设施,在AI落地破局与赋能新型工业化进程中,被赋予更重要的定位。智算基建成为支撑人工智能技术及产业发展的重要基石。本报告重点聚焦智算基础设施的供需布局、能力要求、赋能模式,梳理业界最新动态与发展趋势。 供需布局方面,聚焦区域智算基建布局场景,通过分析基础大模型与行业模型在训练端与推理端对智算的需求,明确城市布局智算中心应综合考虑区域内AI训练与推理需求,提出应做好智能算力资源的统筹,将行业大模型落地赋能,作为地方智算基建的主攻方向,避免地方政府“一窝蜂”导致大量算力的浪费。 能力要求方面,着力回答“智算基础设施需要提供什么能力”这个关键问题,提出推进智算集群构建应重视算力有效性、集群稳定性、绿色低碳性、服务易用性四个核心能力,引导行业层面强化标准规范体系建设,推出智算集群引导性规范。 赋能模式方面,关注我国智算基建商业运营赋能机制,重点梳理总结国内典型智算基础设施的商业运作模式与典型案例,为国内智算基建推进科学运营赋能提供重要参考。 当然,报告仍有诸多不足,恳请各界批评指正。 目录 一、智算基础设施发展概述1 二、智算基础设施的供需布局4 (一)基础大模型训练推动大规模智算集群强增长4 (二)模型推理应用将构成智算基建第二条增长曲线6 (三)区域智算基建布局综合考虑训练与推理需求8 (四)跨区域调度协同强力支撑智算基建供需对接10 三、智算基础设施的能力要求12 (一)算力有效性是核心12 (二)集群稳定性是保障14 (三)绿色低碳性是前提16 (四)服务易用性是亮点18 四、智算基础设施的赋能模式19 (一)产研合作行业大模型20 (二)龙头引领联合创新20 (三)央国企示范应用发展21 (四)超智融合算力生态22 五、发展建议22 (一)投资布局要分类引导,分级建设23 (二)服务能力要标准先行,强化引导23 (三)要素资源要联合创新,直击场景24 一、智算基础设施发展概述 智算,即人工智能算力,是用于支撑加速人工智能算法模型训练与推理的算力,其部署层级分为芯片级、单服务器节点级、多服务器集群级。在芯片级,依托GPU、NPU、FPGA和ASIC等加速芯片用于AI模型训练与推理加速,当前GPU在国内市场中占据主导地位。华为、天数、海光、寒武纪等本土企业在该领域积极研发布局,如华 为已经推出了昇腾系列全栈自主、性能优良的产品,能够实现对智能 计算的良好支撑。在单服务器节点级,以“CPU+XPU”异构计算范式为主的Al异构服务器,加强CPU与XPU协同,主流服务器产品相对更丰富,浪潮、戴尔等传统服务器厂家基于英特尔CPU+英伟达GPU的组合推出了AI服务器产品,华为及生态伙伴基于其自主研发的AI芯片推出了国产系列AI服务器产品。在多服务器集群级,Al应用中数据、模型的大型化趋势对智能算力的扩展性提出高要求,资源需要以集群模式部署以提供并行计算能力,高性能无损网络+高性能存储为单服务器节点级和多服务器集群级的算力突破提供了重要支撑。 图1人工智能算力的部署层级 来源:中国信息通信研究院 智算基础设施,即人工智能算力基础设施,是基于人工智能专用算力芯片及加速芯片等组成异构计算架构,以智能计算设施为核心设施,以智能算力集群为核心载体,面向人工智能应用场景,提供所需算力服务、数据服务和算法服务的公共算力基础设施。智算基础设施需要统筹协同计算、网络、存储等核心技术。大模型参数量和训练数据复杂性快速增长,对AI算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡可扩展集群系统,以满足AI大模型的训练需求。首先,大模型的训练推理需要大量的加速卡并行计算,并且需要使用分布式训练和推理来提高效率。同时,大模型对存储的需求也很高,因为模型需要存储大量的参数和梯度信息。此外,大模型对网络的需求也很高,因为需要快速传输数据和同步梯度信息。整体来看,智算基础设施的部署涉及计算、网络、存储三大维度的横向协同,也需要兼顾软件平台与硬件资源的纵向协同。 图2智算基础设施技术体系 来源:中国信息通信研究院 各方主体积极推进布局智算基础设施。以提供公共普惠的智能算力服务为基本原则,地方政府(地方国投产投平台投资)、央国企(电信运营商投资)、AI云厂商(阿里云、华为云、百度智能云等投资)是我国智算基础设施的投建主体。从总体定位看,智算基础设施成为地方发展人工智能产业、发展产业数字化的重要创新载体,具有重要价值。从落地运营看,智算基础设施是加快AI产业化和产业AI化的重要战略支撑。智算中心与AI云,是当前智算基础设施的两种主要形态。智算中心一般由地方政府或电信运营商主导建设,定位于服务区域层面的产业创新与科研创新。据团队不完全统计,截止2024年 7月底,纳入监测的智算中心(含已建和在建)已达87个1。AI云一般由公有云计算厂商进行区域范围的建设布局,并提供统筹的调度运营,依托云计算模式,将AI部署能力开放给用户,为其不同场景所 1数据来源:中国信息通信研究院产业与规划研究所监测。 需要的AI算力、算法以及数据,提供规模化、高效率、低成本的支撑能力。目前,华为云、百度智能云、阿里云、腾讯云等厂商占据国内AI公有云市场份额近94%2,平台效应凸显。 二、智算基础设施的供需布局 供需匹配与区域布局,是智算基础设施发展的关键问题。国家层面,由国家发改委、国家数据局、工信部等部委密集出台政策,指引智算基础设施科学布局发展,全面推动通用算力、智能算力、超级算力一体化布局。地方层面,各地围绕智算基础设施推出相关文件,引导区域层面加快智能算力资源汇聚,深度赋能实体经济。对区域而言,布局智算基建应综合考虑基础大模型训练与行业模型推理需求,以及跨区域智算调度协同。 (一)基础大模型训练推动大规模智算集群强增长 大模型的参数规模与对算力的消耗成正比,参数规模越大,对算力的需求越大。根据OpenAI公司《适用于神经语言模型的尺度定律 (ScalingLawsforNeuralLanguageModels)》论文观点显示,训练阶段算力需求与模型参数数量、训练数据集规模等有关,且为两者乘积的6倍:训练阶段算力需求=6×模型参数数量×训练集规模。本报告对目前公布了详细技术参数的主流大模型,进行训练算力资源的估算,根据计算公式进行归一化处理后,估算出训练阶段大模型对智能算力的需求。 2数据来源:IDC《中国人工智能公有云服务市场份额,2023》。 表1主流大模型对智能算力的需求3 模型名称 模型参数规模(个) 训练集 (Token数) 训练完成所需算力估算 (PFLOPS) 1000P智算中心耗时4(天) 100P智算中心耗时5 (天) 文心一言 2.60E+11 1.00E+12 1.56E+09 45 401 GPT3 1.75E+11 3.00E+11 3.15E+08 9 81 ChatGPT 1.75E+11 4.10E+11 4.31E+08 12 111 GLM-130B 1.30E+11 4.00E+11 3.12E+08 9 80 盘古 1.00E+11 3.00E+12 1.80E+09 52 463 LLaMA-65B 6.50E+10 1.40E+12 5.46E+08 16 140 BloombergGPT 5.00E+10 7.08E+11 2.12E+08 6 55 LLaMA-7B 7.00E+09 1.00E+12 4.20E+07 1 11 来源:中国信息通信研究院 推进基础预训练大模型(千亿级以上参数)需要大规模智算集群支撑。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡集群成为这一轮大模型基建军备竞赛的标配,万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代。万卡集群是指由一万张及以上的加速卡(如GPU、NPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以训练基础大模型。美国一直在引领万卡集群建设进程,诸如Google、Meta、微软、亚马逊、特斯拉等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发,以及生态服务等方面的技术创新。如Google推出超级计算机A3VirtualMachines,拥有26,000块NvidiaH100GPU;Meta在2022年推出拥有16,000块NvidiaA100的Al研究超级集群AlResearchSuperCluster,2024年初又公布了2个24576块Nvidia 3数据来源:中国信息通信研究院产业与规划研究所测算。 4预估1000P智算中心的算力有效比例为40%。 5预估100P智算中心的算力有效比例为45%。 H100集群,支持下一代生成式Al模型的训练6。 国内大型AI企业、头部互联网厂商、电信运营商等均在万卡集群的建设和使用过程中不断推动技术革新。字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进万卡集群的建设。其中,字节跳动搭建了一个12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型7。大型AI研发企业基于万卡集群加速模型研发,如科大讯飞2023年建设成首个支持大模型训练的万卡集群算力平台“飞星一号”。运营商作为算力基础设施建设的中坚力量,正加速推进超万卡集群智算中心的建设。目前,中国移动已投产呼和浩特万卡智算中心,共部署了近2500台智算服务器,单体算力规模可达 6.7EFLOPS,同时正在规划建设2个超万卡国产算力集群8。此外,中 国电信于今年3月宣布,天翼云上海临港国产万卡算力池正式启用。 (二)模型推理应用将构成智算基建第二条增长曲线 随着AI大模型的应用落地,推理智算需求正迎来爆发。随着Llama等开源框架的广泛应用,将加速大模型在各行业各领域落地生成式AI应用,行业模型的推理算力需求也将快速增长。据中信建设证券数据显示,2024年-2027年全球大模型推理的峰值算力需求量的年复合增长率为113%,远高于训练的78%。另据IDC调研数据显示,2026年云端训练需求与云端推理需求比由2022年的58.5%-41.5%变 6案例来源:通信产业网 https://www.ccidcom.com/yaowen/20240514/lfZA1rtFgLoX3R8yM1axamawxlo04.html. 7案例来源:字节跳动论文《MegaScale:ScalingLargeLanguageModelTrainingtoMoreThan10,000GPUs》. 8案例来源:国资委官网. 为37.8%-62.2%。此外,英伟达和英特尔今年都在公开场合多次强调了AI推理的重要性和巨大潜力,且英伟达2024财年Q4财报直接显示其数据中心40%的收入来自推理。可见,随着基础通用大模型市场趋于饱和,训练增长曲线逐渐放缓,大模型技术逐步进入融合赋能落地阶段,推理应用的智算需求可能比预期中的发展速度要更快。 大模型推理应用对智算基建的低成本性、实时性、稳定性提出更高要求。随着人工智能大模型逐步进入广泛投产模式,推理应用阶段对于单位算力的性价比、成本高度敏感。以Sora为例,据相关机构测算,基于扩散(diffusion-based)模型生产1530万到3810万分钟的视频后,在推理上花费的计算量将超过训练环节。此外,