智算赋能算网新应用白皮书 腾讯云计算(北京)有限责任公司 中国信息通信研究院云计算与大数据研究所 智算赋能算网新应用白皮书 腾讯云计算(北京)有限责任公司 中国信息通信研究院云计算与大数据研究所2023年9月 编委会 编委成员 主编: 张晋、栗蔚 编委(排名不分先后): 秦若毅、周锐、吴炳文、马飞、苏越、赵伟博、桑柳 参编单位: 腾讯云计算(北京)有限责任公司 中国信息通信研究院云计算与大数据研究所 版权声明 本白皮书版权属于腾讯云计算(北京)有限责任公司、中国信息通信研究院云计算与大数据研究所,并受法律保护。转载、摘编或利用其他方式使用本白皮书内容或观点,请注明:“来源:《智算赋能算网新应用白皮书》”。 违反上述声明者,编者将追究其相关法律责任。 目录/CONTENTS 1.智算服务赋能算网应用创新发展态势02 1.1智算成科技发展新驱动,各国抢抓智算服务发展机遇03 1.2算网应用连接技术与用户,多样产业角色入局共建03 1.3智算服务“内修外治”,助力算网应用赋能千行百业04 1.3.1智算服务牵引智能算力利用率、生产率双提升04 1.3.2智算服务助力算网应用推陈出新、由浅入深05 2.智算服务关键技术06 2.1智算服务发展聚焦绿色、多模态与泛在07 2.1.1绿色:用“连接”引领低碳生活,助力产业低碳转型07 2.1.2多模态:AIGC技术大爆发,成为数智发展新引擎08 2.1.3泛在:让智能算力像水一样流动,随时随地按需取用09 2.2资源全面感知、精准调度,提升智能算力利用率10 2.2.1智能算力感知:构建智算感知能力体系,为资源细粒度优化提供依据10 2.2.2智能算力共享:精准隔离,有效提升智算应用部署密度11 2.2.3混合部署:智算应用分级QoS,削峰填谷,充分利用空闲算力12 2.2.4智能算力调度:一体化精准调度,最大化算力价值12 2.3提升智算生产率,推动算力泛在化发展13 2.3.1高性能计算:提升单节点计算能力,并向分布式、混合并行模式演进15 2.3.2高性能网络:建设高性能通信网络,有效提升智能算力集群性能15 2.3.3高性能存储:提升缓存命中率,降低数据读取耗时15 2.3.4计算加速框架:集成模型工具箱,大幅提升大模型生产效率16 3.智算服务赋能算网应用创新升级18 3.1算网应用呈现场景化、多样化、个性化特点19 3.2技术演进,驱动传统算网应用萌生新活力20 3.2.1交通出行应用20 3.2.2汽车产业应用21 3.2.3制造行业应用23 3.3场景创新,激发创新算网应用打开新局面25 3.3.1东N西M应用25 3.3.2生成式应用26 3.3.3制造行业应用28 3.3.4数字人应用31 4.算网应用未来发展趋势34 前言/FOREWORD 随着国家“东数西算”工程的启动,算力产业发展进入快车道,推动构建于算力网络之上的算网应用快速发展。伴随大模型训练、全真互联等人工智能浪潮的兴起,将全社会带入智算时代,智算服务成为激发数字经济发展的新动能、新引擎,一方面新场景激发算网新应用诞生,另一方面技术演进促进传统算网应用焕发新活力。 对此,国内外已形成建设智算服务共识,通过政策支撑、资金扶持等方式推动智算服务发展,助力其“内修”——从感知、部署技术到调度技术优化,提升智能算力利用率、生产率,“外治”——推陈出新、由浅入深,扩展算网应用场景支持广度与深度。 在关键技术演进上 本报告系统梳理智算服务关键技术,指出为支撑算网应用建设,当前产业在提升智能算力利用率、生产率上的发展重点与现状:一方面建设灵活感知、融合编排、泛在调度的智算技术矩阵提升智能算力利用率,另一方面打造大规模、高性能智算集群提升智能算力生产率。 在算网新应用发展上 本报告给出算网应用产业发展观察,按照算网应用特性从传统应用与创新应用两方面展开讨论:传统应用依托智算服务实现智能化升级,焕发新活力;创新应用借助智算服务快速发展,强化产业渗透。 在未来发展趋势上 本报告提出三个关键方向:一是在应用发展上,模型即服务具备强大发展潜力,未来将有效助力算力网络发展;二是在服务模式上,类比公有云与私有云,未来将形成通用与专用算网应用协同支撑产业发展的服务模式;三是在发展格局上,跨架构、跨地域提供服务的算网应用将成为全国算网一体化服务的关键支撑。 为进一步梳理智算服务、算网新应用等发展态势,腾讯云计算(北京)有限责任公司与中国信息通信研究院云计算与大数据研究所结合产业发展现状,立足双方智算服务与算力网络研究成果,深度分析产业需求与电信运营商等行业建设算网应用的诉求,输出《智算赋能算网新应用白皮书》。本报告内容仍有诸多不足,恳请各界批评指正。 01 智算服务 赋能算网应用创新发展态势 随着新一轮科技革命和产业变革深入推进,以及元宇宙、大模型等新兴应用场景的发展,全球对智能计算的需求激增,智算服务正在成为数字经济发展的新引擎,推动算网应用在产业智慧化的浪潮下展现出全新生命力。算网应用以算力网络为构建基础、以算力任务及相关资源统一编排调度为目标、以算网协同为依托直接服务用户或者相关场景。 在智能计算的持续演进下,算网应用出现两点新变化:一是传统算网应用焕发全新活力,例如功能性能升级、场景支持深化等;二是顺应产业需求衍生创新算网应用,扩展算力网络在产业的支持广度与深度。 智算赋能算网新应用白皮书03 1.1智算成科技发展新驱动,各国抢抓智算服务发展机遇 全球各国布局智算服务,拉开新一轮科技竞赛序幕 伴随智慧出行、智能制造等产业智能化的程度的提升,以及元宇宙、大模型等新兴应用场景的发展,全球对智能算力的需求激增,进入了智算服务的新一轮增长期。政策上,美国白宫科技政策办公室发布《国家人工智能战略研发计划》,此政策对AI研发关键领域、投资重点领域等内容进行规范,以确保美国在AI领域的领先地位;2023年,欧盟议会成员就《人工智能法》达成政治协议,该法案将管辖所有人工智能产品或服务的提供方,涵盖可以生成内容、预测、建议或影响环境的决策的系统。算力规模上,根据中国信息通信研究院《中国算力发展指数白皮书(2022年)》统计,2021年全球智能算力规模达232EFLOPS,2030年预计达到52.5ZFLOPS,平均年增速超过80%,占全球算力总规模的93%以上,智算算力将成为全球算力规模增长的主要驱动力。研发投入上,2020年美国《无尽前沿法案》中提出拟在未来5年投入1000亿美元研发包括芯片、人工智能在内的10大关键技术;2021年4月,欧盟以条例的形式通过“数字欧洲计划”,对包括人工智能在内的项目进行投资,总额达75.9亿欧元。 我国大力发展智算服务,产业布局提速 政策上,《新型数据中心发展三年行动计划(2021-2023年)》指出,引导新型数据中心智能化建设,加快高性能智能计算中心部署,支撑各类智能应用。《“十四五”数字经济发展规划》指出要推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施,提供体系化的人工智能服务。算力规模上,2021年我国智能算力规模达到104EFLOPS,在我国算力总规模中占比超过50%,增速为85%,成为算力规模增长的主要驱动。2022年中国人工智能核心产业规模已达5080亿元人民币。研发投入上,北京、上海、广东、山东等地设立专项基金用于人工智能相关技术、标准的研发和应用,打造泛在、标准的智算服务。 1.2算网应用连接技术与用户,多样产业角色入局共建 算网应用构建于算力网络之上,以服务形式将算力网络技术能力统一输出给用户及应用场景。运营商、云服务商等不同产业角色均投入到算网应用的建设中来,运营商依托其强大的网络能力,打造连接云、边、端资源、服务一体化的算力网络,如中国移动《算力网络白皮书》中提出建设“网络无所不达、算力无所不在、智能无所不及”的算力网络;中国电信规划“核心+省+边缘+端”四级架构AI算力网络,提供算网数智等多要素融合的AI算力服务;中国联通将打造基于算网融合设计的服务型算力网络,构建云网边一体化智能调度和能力开放体系。云服务商依托其成熟的虚拟化技术与算力编排调度技术,建设统一资源管理平台,如“星辰算力调度平台”可实现异构算力资源灵活调度、弹性伸缩。 04智算赋能算网新应用白皮书 1.3智算服务“内修外治”,助力算网应用赋能千行百业 智算服务向内聚焦智能算力利用率、生产率的提升,向外打造智能算力一体化供给服务,支持多样算网应用蓬勃发展。 生成式应用 东N西M 交通出行 汽车行业 数字孪生 提升利用率 智算服务 提升生产率 数字人 制造行业 文旅行业 智能客服 位置服务 智算服务框架 1.3.1 智算服务牵引智能算力利用率、生产率双提升 技术推陈出新,提升智能算力利用率 智算服务通过不断提升网络传输速度、优化算力调度技术等方式实现智能算力利用率的提升。网络传输方面,路由协议与芯片间高速互联技术高速发展。网络云化过程发展出了以IPv6+、SD-WAN(SoftwareDefinedWideAreaNetwork)、SRv6(SegmentRoutingoverIPv6)、确定性网络为代表的路由技术,支持将业务需求与算力信息随数据包进入网络,打破网络与算力应用的边界,支撑算力服务下算与网的深度融合,打造坚实算力网络。NVIDIA推出NVLink技术,支持GPU之间业务数据高速互通,良好支撑大模型训练场景。融合调度方面,确定性提供高质量调度保障。算力调度领域发展出了同时考虑算力节点与网络传输性能的算网融合技术,提供兼具低时延与高可靠特性的算力服务。例如在智能制造场景下,由于工业制造环境复杂、协议多样,所以需要对算力、网络等支撑资源进行集中化的统一调度和编排。麦肯锡公司发布的《2021年离散制造业上云调查》报告显示:云的IT价值在敏捷性、弹性和经济性几个方面的充分呈现加上同5G技术和应用的结合,在制造、供应链和采购等价值链关键环节赋能作用明显,也催生出如车联网/车路协同、超高清视频流媒体、远程医疗等多行业应用场景。 智算赋能算网新应用白皮书05 资源化零为整,提升智能算力生产率 中国信息通信研究院《中国算力服务研究报告(2023年)》指出,算力应用依托有效算力进行计算并输出结果从而实现应用价值,有效算力则是真正完成计算任务的计算能力。提升算力生产率,是提升有效算力规模的关键手段之一。智算服务将社会闲散智能算力整合起来,通过服务化的方式完成智能算力交付,具体体现在以下两个方面:一是平台化建设,实现资源集约与统一供给。智算平台围绕人工智能及其衍生技术建设,向下深度适配CPU、GPU、FPGA、MLU、NPU、TPU等算力资源,屏蔽异构算力软硬件差异,构建无需用户理解、感知的资源池;向上提供标准化编程范式及智能计算工具链,提供诸如模型训练、推理、验证等能力,提供自然语言处理、语音处理、图像视频处理等应用,助力产业生态融通。二是云边端协同,将资源供范围扩展到边、端零散算力。智算服务结合计算任务特征判断所需计算设备规格及位置,使得边缘、终端智算资源也可运行较小规模、时延不敏感的计算任务,进一步扩大智算资源供给范围,打造泛在化智算服务。以移动云“中训边推”场景为例,人工智能计算任务通过中心云进行大规模模型训练,通过边缘云完成就近推理。该技术实现思路支持资源秒级自动优化、天然跨域容灾,可有效应对计算需求突增的场景。 1.3.2 智算服务助力算网应用推陈出新、由浅入深 推陈出新,智算服务驱动创新算网应用新发展 如元宇宙,大模型等应用场景,通常具有发展年限较短、智能算力规模需求大、性能要求高的特性。如GPT-3.5在微软AzureAI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640天)。智算服务提供大规模、高性能智算集群,支撑创新算网应用快速落地。 由浅入深,智算服务助力传统算网应用释放新价值 如出行行业应用、