您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:人工智能算力高质量发展评估体系报告 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能算力高质量发展评估体系报告

AI智能总结
查看更多
人工智能算力高质量发展评估体系报告

版权声明 本报告中所涉及的图片、表格及文字内容的版权归浪潮电子信息产业股份有限公司和中国信息通信研究院共同所有。其中部分数据在标注有来源的情况下,版权归属原数据公司所有。 任何机构、个人在引用本报告数据或转载有关报告内容时,应注明“来源:《人工智能算力高质量发展评估体系报告》”。违反上述声明者,将追究其相关法律责任。 目录 1发展现状及挑战1 1.1发展现状1 1.1.1政策上:政策导向日益明确1 1.1.2技术上:生成式AI突破发展3 1.1.3市场上:算力投资持续加码4 1.1.4规模上:智算规模增速明显6 1.1.5发展水平上:算力发展由“量”向“质”7 1.2面临挑战8 1.2.1挑战一:算力供给不足,供需匹配不平衡8 1.2.2挑战二:算力智能水平较低,难以满足多元应用场景9 1.2.3挑战三:算力面临能源考验,节能降碳刻不容缓10 1.2.4挑战四:多样化算力需求提升,普适普惠水平较低10 1.2.5挑战五:供应链完备性不足,生态构建待完善11 1.2.6挑战六:性能评价简单,算力实测性能欠缺12 2定义、内涵及特征12 2.1定义12 2.2内涵14 2.3特征15 2.3.1高算效:设计与运行计算效率“双优”体现15 2.3.2高智效:兼备高效和智能的AI业务支撑能力16 2.3.3高碳效:最低碳排放前提下实现最大化算力输出17 2.3.4可获得:普适应用需求和普惠使用成本的极致追求18 2.3.5可持续:技术兼容、供应链完备、产业生态开放的共同选择.18 2.3.6可评估:反映算力实际应用水平的多元评估19 3发展路径及展望19 3.1发展路径20 3.1.1系统设计,提升算效20 3.1.2协同驱动,提升智效21 3.1.3全生命周期管理,提升碳效22 3.1.4基建先行,推动算力普适普惠24 3.1.5繁荣生态,推动算力可持续发展25 3.1.6多元评估,加速算力规范化发展27 3.2展望28 4评估体系探索29 4.1评估体系构建背景30 4.1.1评估体系构建现状30 4.1.2评估体系构建建议31 4.2评估体系构建原则33 4.3评估体系构建实践34 4.3.1评估体系34 4.3.2算效水平34 4.3.3智效水平35 4.3.4碳效水平36 4.3.5可获得水平37 4.3.6可持续水平37 4.4评估体系构建意义39 4.5评估体系应用建议39 1发展现状及挑战 1.1发展现状 1.1.1政策上:政策导向日益明确 全球各国通过政策支持、战略规划等手段,加速构建领先的算力竞争力。美国公布2024财年政府预算,包括国防部、能源部、国土安全部等多个机构,累计向AI领域计划投入超过2511亿美元,以推 动AI研究和软硬件服务;欧洲陆续发布《塑造欧洲的数字未来》、《欧洲芯片法案》等文件,围绕数字化转型进行算力产业布局;日本近年来频繁强调振兴半导体产业,坚持以应用、绿色为导向发展算力,不断扩大国内尖端半导体生产。这些政策的实施加速了全球产业升级和科技创新,并提升了这些国家的算力竞争地位。 我国以算力基础设施建设为锚点,全面推动算力高质量发展。二 十届三中全会提出,高质量发展是全面建设社会主义现代化国家的首要任务。我国通过加强算力基础设施建设,推动算力技术与产业的创新发展,为经济社会的高质量发展注入新动能。在国家层面,《数字中国建设整体布局规划》、《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》、《算力基础设施高质量发展行动计划》、 《数据中心绿色低碳发展专项行动计划》等提出我国算力高质量发展的具体要求;在地方层面,浙江、北京、上海、广东、贵州、山西等省市也纷纷发布相关政策明确未来几年算力高质量发展行动计划。 1 表1我国算力中心相关政策规划(部分) 发布时间 发布部委/省份 政策名称 2024年7月 国家发改委、工信部、国 家能源局、国家数据局 《数据中心绿色低碳发展专项行动计划》 2023年12月 国家发改委、国家数据局、中央网信办、工信部、国家能源局 《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》 2023年10月 工信部、中央网信办、教育部、国家卫健委、中国人民银行、国务院国资委 《算力基础设施高质量发展行动计划》 2023年2月 中共中央、国务院 《数字中国建设整体布局规划》 2024年5月 浙江 《浙江省运力提升行动方案(2024—2027 年)》 2024年4月 北京 《北京市算力基础设施建设实施方案(2024—2027年)》 2024年4月 江苏 《江苏省算力基础设施发展专项规划》 2024年3月 上海 《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024- 2025年)》 2024年3月 广东 《广东省算力基础设施高质量发展行动暨 “粤算”行动计划(2024-2025年)》 2024年2月 贵州 《贵州省算力基础设施高质量发展行动计划(2024-2025年)》 2024年1月 山西 《山西省算力基础设施高质量发展实施方 案》 2023年12月 深圳 《深圳市算力基础设施高质量发展行动计 划(2024-2025)》 2023年12月 重庆 《重庆市算力网络发展“算力山城强算赋 能”行动计划(2023-2025年)》 2023年12月 安徽 《安徽省智能算力基础设施建设方案(2023-2025年)》 2023年8月 湖北 《湖北省加快发展算力与大数据产业三年行动方案》 2023年7月 河南 《河南省重大新型基础设施建设提速行动方案(2023-2025年)》 2023年4月 天津 《关于做好算力网络建设发展工作的指导 意见》 2023年3月 宁夏 《全国一体化算力网络国家枢纽节点宁夏枢纽建设2023年工作要点》 (来源:公开资料) 2 1.1.2技术上:生成式AI突破发展 人工智能以生成式AI技术为核心快速发展。以ChatGPT为代表的AIGC技术加速成为AI领域的最新发展方向,对经济社会发展产生了重大的影响。随着人工智能预训练大模型的不断进步、AIGC算法的持续创新,以及多模态AI技术的日益普及,AI已经能够生成包括文本、代码、图像、语音和视频在内的多样化内容。这些技术的发 展提升了AIGC模型的通用性和工业化水平,AIGC的商业潜力变得更加显著,如今大模型已成为企业在AI领域竞争的核心焦点。 算力成为推动生成式AI发展的关键。在大模型训练和生成式AI 应用的推动下,GPU和异构计算资源需求显著增长,算力的提升从简单的硬件扩展发展为涵盖算法优化、系统设计、资源调度和网络通信等多个层面的系统优化,算力性能和效率对模型推理、训练至关重要。在大模型训练中,通常采用多机多卡构建的算力集群进行分布式训练,而拥有大量的计算节点并不等同于拥有强大的计算能力。在分布式训练环境中,拥有数千亿至万亿参数的庞大模型通信时间可能占据整个训练过程的一半,网络通信和数据缓存等瓶颈问题会显著降低训练效率。另外,随着模型参数量增加,传统的训练方式可能会导致训练过程中算力利用率的降低。在大模型训练中,Checkpoint机制常用于在训练中定期保存模型参数,然而对于参数量极大的模型,该训练方式可能会导致显著的写入延迟,如GPT-3(1750亿参数),以15GB/s的文件系统写入速度计算,完成一次Checkpoint需要2.5分钟,这不仅增加了训练时间,也降低了GPU的利用率。 3 1.1.3市场上:算力投资持续加码 国家以直接投资或补贴方式推动算力产业投资建设。美国计划5 年内投资2800亿美元以保持美国在芯片技术领域的领先地位;中国 全面启动“东数西算”工程,截至2024年6月底,“东数西算”八大 国家枢纽节点直接投资超过435亿元,拉动投资超过2000亿元;欧 盟计划提供12亿欧元的公共资金用于“欧洲共同利益重要计划—— 下一代云基础设施和服务”;日本经济产业省拟为5家日本企业提供 总额725亿日元的补贴,用于打造人工智能超级计算机。随着全球各国在算力领域的竞争愈发激烈,算力相关产业市场规模将呈现持续增长态势。以AI服务器为例,据IDC预测,未来几年全球人工智能服务器市场规模将持续增加。 40000 35000 30000 25000 23674 20000 23590 23152 15000 21818 10000 18684 5000 819 2946 8203 10988 0 5466 2022 2023 2024 2025 2026 生成式AI服务器非生成式AI服务器 图1全球人工智能服务器市场规模预测(单位:百万美元) (来源:IDC,2023) 科技巨头发力智能算力,万卡算力集群布局加快。2023年以来 人工智能市场持续保持高增长态势,成为推动各国经济增长和技术创新的关键因素。据IDC研究,预计2022年至2032年全球人工智能 4 1400 1200 1000 800 600 548 399 400 217 200 137 40 67 0 20222023202420252026202720282029203020312032 304 728 897 1079 1304 产业规模的复合增长率高达42%,2032年将达到1.3万亿美元。基于人工智能的广阔前景,全球科技巨头纷纷加大对AI基础设施布局以维持行业竞争力。国际上Meta、微软&OpenAI、xAI等多家AI巨头陆续宣布或者完成10万卡集群建设,国内通信运营商、头部互联网、大型AI研发企业等均发力超万卡集群的布局。 图2全球AI产业规模预测(单位:十亿美元) (来源:IDC、Bloomberg、MandeepSingh) 5 表2全球科技巨头智算布局(部分) 科技巨头 万卡智算集群布局进展 谷歌 2023年5月,推出AI超级计算机A3,搭载了约26000块H100GPU,为其在机器学习和深度学习研究中的应用提供强大的算力支持 Meta 2024年初,Meta建成了两个各含24576块GPU的集群,并设定目标:到2024年底,构建一个包含35万块H100GPU的庞大基础设施,以支撑其元宇宙和AI研究 微软 早在2020年,微软便构建了一个覆盖1万块GPU的超级计算机,加速其在云计算和AI服务领域的发展 亚马逊 AmazonEC2Ultra集群采用了2万个H100TensorCoreGPU,为用户在处理大规模数据分析和机器学习任务方面提供强大算力支持 特斯拉 2023年8月,特斯拉上线集成1万块H100GPU的集群,将极大提升特斯拉在自动驾驶和车辆智能化方面的研发速度 腾讯 推出的星脉高性能网络能够支持高达10万卡GPU的超大规模计算,网络带宽高达3.2T,为未来的AI和大数据应用提供了广阔的发展空间 字节跳动 提出的MegaScale生产系统,支撑12288卡Ampere架构训练集群,为字节跳动在内容推荐、图像处理等AI应用方面提供了强大的算力保障 中国移动 计划今年商用哈尔滨、呼和浩特、贵阳三个万卡集群,总规模接近6万张GPU卡 中国电信 计划2024年在上海规划建设一个达到15000卡、总算力超过4500P的万卡算力池。2024年3月,天翼云上海临港万卡算力池已正式启用 中国联通 计划今年内在上海临港国际云数据中心建成中国联通首个万卡集群,集群建成后将为中国联通在数据中心和云计算市场提供新的竞争优势 1.1.4规模上:智算规模增速明显 (来源:公开资料) 全球算力规模稳步扩张,智算同比翻倍增长。以AIGC为代表的 人工智能应用、大模型训练等新需求、新业务的崛起,推动全球智算规模呈现高速增长态势。据中国信通院测算,截至2023年底,全球 6 算力总规模约为910EFLOPS1,同增增长40%,智能算力规模达到335EFLOPS,同增增长达136%,增速远超算力整体规模增速。我国 智能算力占增显著增加,智算中心集聚分布。据中国信通院测算,截 600 551 498 500 398 400 335 300 200 142 113 10