1 2 特别鸣谢 目录CONTENTS 序·东数西算与主权大模型的思考 •算力经济对基础设施、技术创新提出新要求P002 •确保“东数西算”工程高质量发展P003 •构建主权级基础大模型P004 •加快培养新质生产力人才P005 PARTⅠ·综述 第一章.算力即新质生产力P008 •智能驾驶有望贡献算力的全新增量P009 •高校开启新一轮技术创新实践P011 •智算产业需加快软硬件适配生态建设P013 •异构计算支持大计算场景P017 •绿色算力:从全栈视角落地液冷技术P019 •算力与能源协同联动P021 •“算力经济”创新实践P022 PARTⅡ·行业应用篇 第二章.算力数据驱动智能驾驶进入下�场P026 •自动驾驶进入数据驱动的3.0时代P027 •多模态大模型促进技术变革P028 •智能算力赋能自动驾驶P031 3 •车能路云网融合发展加速落地P035 2024数字中国万里行考察报告·目录 第三章.算力赋能产学研助力高校技术创新P042 •北京大学:算力运营探索,自研SCOW管理平台P043 •上海交通大学:优化应用部署,关注复合型人才培养P045 •华南理工大学:以多元化液冷实践打造高效绿色算力P050 •中国农业大学:花小钱办大事,算力强势增长P052 •华中农业大学:释放多元算力价值,推动交叉学科应用P054 •中国人民大学:升级算力应用,打造“玉兰10B”大模型P055 •北京理工大学:提升大模型价值,“墨子”全新升级P056 PARTⅢ·技术演进篇 第四章.多元算力交织P060 •CPU:分而利合P061 •GPU:合纵连横P079 •DPU:由云向智P088 •服务器:重构升级P105 第五章.全栈数据中心理念落地P117 •全栈液冷技术新突破P117 •从专业计算到创新实践P124 PARTⅣ·产业联动篇 第六章.算力能源协同P132 •绿色节能创新实践P133 •大模型助力算电协同创新P136 •绿电应用探索实践P138 •绿电供给实践P140 第七章.算力经济创新实践P145 •“算力之都”——张家口P146 •“草原云谷”——乌兰察布P147 4 •“中国云谷世界算谷”“金融云谷”——和林格尔P148 2024数字中国万里行考察报告·序 序·东数西算与主权大模型的思考 全国政协委员 中国科学院计算技术研究所研究员益企研究院首席专家顾问 张云泉 2024年的两会上,我提交了关于“东数西算”工程高质量发展、破解大模型算力瓶颈、培养新质生产力人才的相关提案。并且,首次提出了要构建“主权级基础大模型”,用以提升国家竞争力,维护未来国家安全。 算力经济对基础设施、技术创新提出新要求 在从事超级计算30余年的过程中,我对计算技术的发展和应用有了深刻的理解与洞察。2018年,我首提“算力经济(ComputationalEconomy)”这个概念,最初定义的维度是比较简单的。首先计算要成为算力经济的核心,未来以计算能力来衡量一个地方或地区的数字经济发展水平,使之成为一个很重要的指标。随着“东数西算”工程的发布正式开启了算力经济时代,一个地区的算力产业是不是发达,也意味着数字经济是不是有机会,算力经济也成为了西部地区新一轮经济发展的强力抓手。 狭义的算力经济定义是指与算力强关联的算力服务产业链,其中包括了四类参与者:一是算力设施提供者;二是算力生产者;三是算力运营者;四是是算力消费者。他们共同闭环成为一种商业模式。随着认识的深化,随后又有了广义的算力经济,即“算力+”。凡是可以用到算力的国民经济的各个方向 2 单元,都是算力经济的范围。只要以算力为核心生产要素,以算力为引擎,就都是广义的算力经济。这是数字经济很重要的一个组成部分,在数字经济中的比重会越来越大。 综上所述,在围绕算力本身产生的算力服务产业中,狭义的算力经济指算力服务业产业链;广义的算力经济可以理解为数字产业化、产业数字化、城镇数字化这种提供各种基础设施,提供各种支撑保障的新模式和新业态,也就是算力+产业。 算力经济是一个相对较新的概念。它指的是在数字经济中,计算能力(或称为算力)作为一种资源,其分配、使用和价值化的过程。随着技术的发展,特别是在云计算、大数据、人工智能等领域,算力作为新质生产力,成为了推动经济增长的关键因素之一,具备以下几个核心点。 •资源化:计算能力被视作一种资源,可以像电力、水资源一样被分配和交易。 •市场化:算力可以在市场上进行买卖,形成供需关系,价格由市场决定。 •服务化:算力通常以服务的形式提供给用户,如 云服务、高性能计算服务等。 •价值化:算力的使用可以带来经济价值,比如通过提高生产效率、促进创新、优化决策过程等。 •可扩展性:算力资源可以根据需求进行扩展,以适应不同的业务场景和计算需求。 •可持续性:随着对算力需求的增加,如何可持续地提供和使用算力,减少能源消耗和环境影 响,也是算力经济需要考虑的问题。 算力作为新质生产力的代表,围绕“大算力+大数据+大模型”,算力为数据和算法等新的生产要素赋能,正在催生数字化、智能化、生态化的新质生产力形态。而算力经济的发展对基础设施、政策法规、技术创新等多个方面都提出了新的要求,也为经济增长提供了新的动力。 确保“东数西算”工程高质量发展 为了确保“东数西算”工程高质量发展,2024年两会期间,我建议合理调整枢纽节点范围布局,实现资源的优化配置和高效利用,有力支撑大模型算力服务业的高质量发展。 2022年3月,国家发改委、中央网信办等四部门联合印发通知,同意在京津冀、长三角、内蒙古等八地启动建设国家算力枢纽节点。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。两年来,“东数西算”工程取得了显著成绩。促进了东西部的协同联动,缓解了东部能源紧张的问题,也给西部开辟了一条新的发展道路。同时,网络设施的联通也得到了加强,东西部间的数据直连通道正在加快打通,国家数据中心集群的网络节点等级和网络传输质量也得到了提 升,“东数西算”工程展现了良好的发展态势。 2023年,经过一年的考察和调研,“东数西算”工程在实施过程中尚存以下现象: 一是“东数西算”工程国家枢纽节点的遴选缺乏准入和退出机制,缺乏完善的考核评估机制,不利于“东数西算”工程高质量发展。部分国家枢纽节点的布局缺乏深入系统的论证,缺乏公开透明可操作的准入和退出机制,更缺乏行之有效的考核评估办法,无法及时跟踪和评估枢纽节点的发展状况,并根据发展情况及时对国家枢纽节点的数量和布局进行动态调整,确保“东数西算”工程的高质量发展。 二是部分国家枢纽节点存在数据中心集群规划范围与市场自然形成的数据中心集聚区域重合度较低的问题。这种现象在长三角和粤港澳较为普遍。以长三角枢纽为例,目前两个国家规划的数据中心集群起步区位于上海西面,而上海西北部的嘉定、太仓、常熟等地,已经有不少新建或正在运营的数据中心,但因未纳入“东数西算”数据中心集群起步区内,客观上形成了枢纽规划区内数据中心活跃度不如规划区外的局面,不利于“东数西算”工程健康发展。 三是国家枢纽节点基于传统数据中心而规划,缺乏新一代支持大模型训练的高端智算中心,影响推动大模型训练和推理服务产业的发展的进程。 为确保“东数西算”工程的高质量健康发展,我提出以下建议: 一是建立枢纽节点动态准入退出机制,定期对“东数西算”工程国家枢纽节点的项目数量、投资数额、运行状况、产业发展趋势、算力服务品质、资源利用率、行业应用需求等进行全面评估,并根据 3 2024数字中国万里行考察报告·序 评估结果对枢纽节点的数量和布局进行动态调整。通过评估,可以将非“东数西算”布局内但具备一定超前发展优势的地区纳入“东数西算”的枢纽节点版图中。对于发展滞后、运营能力不足的国家枢纽节点,可以适时进行清退。同时,通过适度的政策倾斜,吸引新项目落地在国家数据中心规划区域 (如起步区),壮大国家数据中心集群规模,有序引导数据中心和算力中心产业向规划区域内转移,确保规划范围内的数据中心和算力中心高质量健康发展。 二是加强对现有枢纽节点国家数据中心集群起步区周边项目的审核,对符合准入条件的项目可以纳入起步区,对确实不符合准入条件的项目予以调整,提升区域重合度和起步区活跃度。复核在新基建浪潮中获批但不在“东数西算”工程规划范围内的数据中心项目,用“东数西算”的准入规则严格考核用能和环保水平,符合标准且有实际应用需求的可以批准、授予能评;对于确实不适合纳入规划范围的,可采用逐步退出的机制;原则上不再批准新的数据中心项目,旧有数据中心在现有设施到期后逐步淘汰,原则上不予改造。 三是正确引导和鼓励新型高端智算中心的建设,有序推进大模型训练和推理服务产业的发展。降低算力成本、提高利用效率,真正促进大模型的落地进展。 总之,为确保“东数西算”工程的高质量发展,要建立起“东数西算”工程的动态调整机制,发扬“东数西算”精神内核而不拘泥于具体的规划,建立起完善的准入和退出机制,健全问责和扶持体系,在保持总体稳定的基础上,根据区域经济发展、产业转型升级、能源结构调整等因素的变化,适时调整枢纽节点的规划范围、节点数量和布局,实现资源的优化配置和高效利用,护航算力经济更 健康有序的高质量发展。 构建主权级基础大模型 大模型在2023年的火爆,与GPU的一卡难求,进一步暴露出我国算力产业发展存在的核心问题。大模型已成各国科技竞争的战略必争地。 近来,美国在大模型领域持续发力:Meta公司拟采购35万片英伟达GPU发展自己的大模型;软银集团正尝试投入一千亿美金研发自己的AI芯片;OpenAI更是计划筹集七万亿美金研制生产新AI芯片。 2023年,英国政府官网公告称,要创立“基础模型工作组”,英国希望能拥有自己国家的“主权”人工智能技术,其公共服务也能够从这种人工智能的转型影响中受益。 近日,英伟达提出“主权AI”的概念,并将其定义为“一个国家利用自己的基础设施、数据、劳动力和商业网络生产AI的能力”。英伟达官网发布的文章认为,“主权AI”涵盖物理和数据基础设施,后者包括主权基础模型,由当地团队开发,并在当地数据集上进行训练,以促进对特定语言、文化和习俗的包容性。 为此,2024年两会期间我也提出要重视“主权级基础大模型”的开发。“主权级基础大模型”是一个动态概念,它应该是某一时期内最高水平的大模型。这一大模型算力要求最高、智能水平最高,是一个国家AI水平的最高点,是基础大模型的基础,也可以被形容为“根模型”。 “主权级基础大模型”将深刻影响一个国家的科技 4 竞争力,涉及军事、经济、政治等多方面能力。没有“主权级基础大模型”,就像是国家没有了国防重器,国家就会被打压,国家安全也会受到威胁,因此必须尽快研制处于国际领先水平的“主权级基础大模型”,以维护未来的国家安全。 我建议,利用我国在超算研发建设中的丰富积累,设立能够支持“主权级”多模态大模型训练的专用超算攻关专项。过去的15年,我国超算的研制已经达到世界领先水平,形成了神威、天河和曙光三大世界级超算研制团队,夺得了十一次世界冠军和两次超算应用最高奖“戈登贝尔奖”。通过该专项计划的支持,可以充分利用超算领域多年积累的人才和技术优势,快速形成突破,尽快缩小我国在“主权级基础大模型”训练领域与美国的差距,为研制更先进适用的大模型专用训练芯片和系统赢得时间。 目前,国内一些企业往往倾向于使用国外的开源大模型,还经常出现低水平的重复与“内卷”,百模大战使得算力资源过于分散,延误了“主权级基础大模型”的研发。 无论是专用超算攻关专项还是AI芯片攻关专项,都需要国家出面协调资源,以当年“两弹一星”的形式组建队伍,以取得快速突破。留给我们的时间窗口并不长,不能错失良机。 在解决AI芯片“卡脖子”的基础性问题上,希望能够集中全国AI芯片研制力量,组建由业内权威专家和各主要AI芯片厂家参加的智能算力发展专项组,通过多轮竞争,确定最优的训练芯片研发技术