您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国电信]:智算产业发展白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

智算产业发展白皮书

信息技术2023-08-15-中国电信任***
智算产业发展白皮书

中国电信研究院 天翼智库 2023年8月 1 智算产业发展白皮书 (2023年) 编制说明 主编单位:中国电信研究院 参编单位:中国电信股份有限公司安徽分公司深圳海兰云数据中心科技有限公司 顾问专家: 中国电信研究院战略发展研究所所长:饶少阳 编委成员: 孙雪媛、陈元谋、赵静、马腾滕、熊小明、魏玥、李朔萌、谢林翰陈锡根、王勇 联系电话:010-50902887 邮箱:sunxy11@chinatelecom.cn 目录 引言5 一、智算发展迎来新机遇7 1、AI大模型驱动的智算时代正加速到来7 2、智能算力成为数字经济发展的新引擎8 3、国家和地方密集出台政策支持智算布局9 二、智算产业全景及新进展12 1、智算产业链初步形成,生态集聚效应不断增强12 2、国产自研AI芯片加速入场,短期高效供给仍受限15 3、智算中心建设版图持续扩张,智算服务灵活多样16 4、大模型呈蓬勃发展态势,助力产数业务发展19 三、智算发展五大新趋势21 趋势1:国产多元异构算力融合推动智算长效发展21 趋势2:智算从单节点向区域化协同、边端部署演变21 趋势3:普惠泛在的智算服务生态正逐步构建23 趋势4:确定性、高性能网络助推大规模智算集群构建24 趋势5:低碳化发展格局需创新智算-电网协同模式25 四、智算技术发展的七大关键词27 关键词1:存算一体27 关键词2:一云多芯27 关键词3:CPO28 关键词4:RDMA29 关键词5:DDC30 关键词6:并行计算32 关键词7:液冷32 五、智算发展潜力评估34 1、评估方法34 2、评估结果36 六、典型案例41 1、中国电信安徽智算中心41 2、中国电信(国家)数字青海绿色大数据中心42 3、海兰信海底数据中心43 七、总结与展望47 八、附录-智算评估实施方案48 1、评估指标模型构建48 2、评估指标赋值49 3、评估指标权重设计49 4、各省评估得分51 九、参考文献52 引言 以大模型为代表的通用人工智能不断演进,人工智能、机器学习、大数据分析等技术在金融、制造、汽车等领域持续渗透,大模型应用场景愈加广泛,正加速算力产业结构变革,智能算力将取代通用算力成为算力结构最主要构成,智算产业迎来了高速发展期。 工信部最新数据显示,我国算力总规模已位居全球第二,保持年约30%快速增长,新增算力设施中智能算力占比过半,成为算力增长的新动能;我国算力产业创新能力持续增强,面向大模型训练、推理等高性能芯片供给持续增强,多元异构计算技术加速普及,有力支撑人工智能、区块链、元宇宙等新兴应用发展。 算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力[1]。智算是算力的一种,指具有提供人工智能应用所需算力服务、数据服务和算法服务的智能算力,利用CPU与GPU、FPGA、ASIC等加速芯片的异构组合,实现高精度通用算力和低精度专用算力的融合供应[2,20]。智算涵盖从底层高性能芯片、服务器和网络设备,到智算中心基建、机电配套和软硬件服务平台,再到顶层人工智能应用等完整体系,产业上下链长、集聚效应显著。智算为经济增长提供数字转型、智能升级、融合创新的新动力,带动人工智能及相关产业倍速增长,成为我国数字经济发展的新引擎。 本白皮书系统分析了智算产业发展环境、产业链全景特点、最新 进展及面临挑战,指出了智算产业五大发展趋势、七大技术关键词,提出了我国智算发展潜力评估体系及分省指标结果,并介绍了典型智 算中心建设场景案例。 本白皮书由中国电信研究院编制,我们希望通过此白皮书为我国智算产业市场洞察、技术创新、生态建设,高水平发展提供参考启示。 一、智算发展迎来新机遇 1、AI大模型驱动的智算时代正加速到来 图1人工智能产业发展历程 人工智能自1956年诞生以来,历经三次发展浪潮。 第一次浪潮(1956-1970s),神经网络相关基础理论被提出,搜 索式推理、自然语言等大量AI程序和创新研究涌现。但由于大部分AI程序不具备解决复杂问题的能力,造成AI研究经费开始大幅削减,AI迎来第一次发展低谷。该阶段算力主要以IBM大型计算机为主,以集中的方式分配使用。 第二次浪潮(1980s-2000s),80年代名为“专家系统”的AI程 序问世,极大增强了AI的实用性。但“专家系统”应用仅限于特定领域,迭代升级难度及维护成本高,规模推广难度大,AI再次进入发展低谷。90年代小型计算机性能每18个月翻一番,且价格和耗电量大幅降低,算力逐渐进入分布式发展阶段[3]。 第三次浪潮(2006-2020),深度学习等算法的突破使得AI性能 大幅提升。移动通信技术快速发展,共享计算资源、提高算力利用率等需求催生出以云计算为中心的集中式共享算力模式。2016年,谷歌研发的AlphaGo将AI推向大众视野,语音识别、视觉处理等AI应用逐渐渗透到各行各业。同年,中国电信提出“云网融合”发展方向,将云计算和网络技术有机结合,实现计算和网络资源的统一管理和优化配置,推动网络和算力一体化供给、运营和服务。 当前人工智能正迎来第四次发展热潮,加速进入大模型驱动的智 算时代。2022年11月,OpenAI公司正式推出ChatGPT,推动生成式AI应用进入爆发期,M6、文心一言、盘古等国内AI大模型层出不 穷,AI算力需求被推到“井喷”状态,开启智算时代。随着数据指数级增长,计算密度越来越高、计算节点分布越来越广,加速云网与AI、安全等要素融合。算力逐渐由终端计算等需求驱动的“被动式”发展,转向促进AI大模型训练、实现通用人工智能等代表的“主动式”发展,从“技术工具”进阶为社会经济发展的“底层动力”。 2、智能算力成为数字经济发展的新引擎 人工智能产业市场前景广阔,成为推动全球经济发展的新动力。 IDC预测,全球以AI为中心的各类系统的软件、硬件与服务支出,2023年将达到1540亿美元,到2026年将超过3000亿美元,预计 2022年至2026年间复合年增长率(CAGR)为27%[4]。2021年中国Al服务器市场规模为53.9亿美元,预计2025年达到103.4亿美元,2021年至2025年间CAGR达17.7%[5]。 智算产业集群化作用显著,成为带动人工智能及相关产业快速发 展的新动力。到2035年,人工智能的发展将给我国甚至全球经济增 长带来突出贡献。预计到2026年,人工智能技术对于全行业的渗透率将超过20%[6]。据信通院数据,2022年我国算力核心产业规模达到 1.8万亿元,其中人工智能核心产业规模达5080亿元,同比增长18%[7];2022年我国新增算力基础设施中智能算力占比过半,智算成为算力增长新曲线,智算中心正在支撑人工智能产业的快速发展,支撑其到2025年达到4000亿,带动5万亿产业目标;2030年达到1万亿,带动10万亿元产业目标[8]。 3、国家和地方密集�台政策支持智算布局 表1.我国部委智算中心建设相关政策 数据来源:各部委官方文件 我国高度重视智算产业发展,围绕智算中心、人工智能、大模型等先后出台系列政策文件,加快产业布局。“十四五”规划和2035年远景目标纲要中明确提出要“加快构建全国一体化大数据中心体系, 强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群”。工信部、国家发改委等先后出台《新型数据中心发展三年行动计划 (2021-2023年)》、《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件,启动“东数西算”重大工程。2023年4月,中共中央政治局会议中强调“要重视通用人工智能发展,营造创新生态,重视防范风险。”7月,科技部批复25个平台建设国家新一代人工智能公共算力开放创新平台(含筹建)。 表2.我国各省市智算中心建设相关政策 数据来源:各省市官方政策文件 地方政府纷纷发布智算产业相关政策,开展智算中心相关基础设施建设工作,提供普惠算力服务。北京发布《北京市促进通用人工自能创新发展的若干措施》高效推动算力基础设施建设,将新增算力建 设项目纳入算力合作伙伴计划,加快推动智算中心建设,形成规模化先进算力供给。上海出台《上海市助力中小微企业稳增长调结构强能力若干措施》助力中小企业数字化转型,发放“AI算力券”,重点支持租用本市智能算力且用于核心算法创新、模型研发的企业,最高按合同费用20%进行支持。成都印发《成都市围绕超算智算加快算力产 业发展的政策措施》明确每年发放总额不超过1000万元的算力券, 用于支持算力中介服务机构、科技型中小微企业和创客、科研机构、高校等使用国家超算成都中心、成都智算中心算力资源。 二、智算产业全景及新进展 1、智算产业链初步形成,生态集聚效应不断增强 图2智算产业链图谱 目前,我国智算产业链已经初步形成,涵盖由芯片、软件、硬件供应商构成的上游产业,由云商、电信运营商、第三方数据中心服务商等构成的中游产业,以及由互联网、交通、金融、工业等行业等用户构成的下游产业。 (一)上游:AI芯片领域形成多方竞争格局 GPU、FPGA技术壁垒高,迅速形成寡头格局。英伟达(NVIDIA)凭借NVLink、NVSwitch等集群性能优势以及良好的CUDA生态,成为 全球GPU主要供货商,其A100芯片占据了数据中心GPU市场90%以上的份额。据IDC数据,预计到2025年GPU仍将占据AI芯片8成市场份额。同时赛灵思(Xilinx)和英特尔(Intel)已在FPGA领域形成双寡头格局,市场份额占比约90%[9]。 TPU、NPU逐渐兴起,呈现“百家争鸣”态势。以TPU、NPU为代 表的ASIC凭借吞吐量、功耗、算力等优势,逐渐被广泛应用于人工智能领域。国外以谷歌为首发布TPU芯片,国内寒武纪、华为、阿里等公司也都推出了深度神经网络加速的ASIC芯片,如华为昇腾NPU、阿里平头哥NPU。 白盒交换机以其软硬解耦、灵活可编程、高速转发等优势受到云 商智算中心大规模组网青睐。Omdia数据显示,2022年全球数据中心 以太网交换机市场份额白盒供应商占比32%,其中Arista占比18%。在北美市场,全球TOP3云商亚马逊、谷歌和Meta的白盒交换机购买规模已超市场总规模的三分之二。 InfiniBand和RoCE作为智算中心高性能网络的主流方案,满足 智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求。 InfiniBand网络方案及配套设备供应商主要包括英伟达、英特尔、思科,其中英伟达市场占有率超七成。支持RoCE的交换机厂商较多,主要以新华三、华为为主。支持RoCE的NVIDIAConnectX系列网卡当前市场占有率比较高。 (二)中游:云商及IDC服务商基于自身优势提供智算服务及解 决方案 云商、科技公司借助自身技术壁垒提供大模型及平台服务。主流云商一方面自建大型智算中心,如Meta宣布取消或暂停部分正在建 设的数据中心,对其11个正在开发的项目进行重新设计,彻底转向人工智能数据中心的建设。另一方面加速布局AI大模型,如谷歌“PaLM-2”、Meta“Llama2”等。特斯拉、苹果等科技公司基于自身 业务优势,一方面自建定制化智算中心,如特斯拉面向自动驾驶等领域建设超算中心Dojo,拥有超过100万个训练节点,算力达到1.1EFLOPS[10]。另一方面,积极布局AI大模型体系,巩固自身行业优势壁垒,如特斯拉AI机器人“擎天柱”、苹果“AppleGPT”。 IDC服务商依托云/网资源优势,积极参与智算建设。国内运营 商积极建设智算中心及平台,如中国电信推出息壤智能计算平台,提供智算、超算、通算多样化算力服务,为大模型训练、无人驾驶、生命科学等场景提供软硬一体解决方案,RDMA吞吐可高达1.6Tb[11]。国外IDC服务商仍在布局阶段,如2023年日本NTT宣布将在5年内投资8万亿日元(约合590亿美元)用于人工智能、数据中心和其他增长领域[12];Equinix的2023年全球科技趋势调查报告显示,人工智能应用率上升,但IT基础设施没有为人工智能做好充足准备