阿里云 国家信息中心 StateInformationCente 人工智能2.0时代的公共智算服务 发展指南 国家信息中心 阿里云计算有限公司 2023年10月 版权声明 本报告中所涉及的图片、表格及文字内容的版权归国家信息中心和阿里云计算有限公司 共同所有。其中部分数据在标注有来源的情况下,版权归属原数据公司所有。本报告取得的 数据来源于公开资料,如有涉及版权纠纷问题,请及时联系我们。 任何机构、个人在引用本报告数据或者转载有关报告内容时,需注明来源。违反上述声 明者,将追究其相关法律责任。 编写委员会 主编 单志广霍嘉安筱鹏 执行主编 李俊元马潮江吴洁倩王丹丹 张天劫 李俊平 穆飞代少贺唐 曲柳莺 于静怡 编 委(按姓氏笔画排序 于风霞 张 岳 王超 张雅琪 史 张 亮 亚平关乐宁 陈棚舍日古榜 李春雨 胡拥军郑海超徐凌验涂菲菲秦国涛 张延强 房毓菲 戴彧 前言 前言 人工智能是引领新一轮科技革命和产业变革的战略性技术和重要驱动力量,与经济社会发展深度融合的前果广阅、潜力巨大。随着人工智能技术的持续送代升级,其引领作用和潜在价值被逐步释放,带来了新一轮发展战路机避,正在成为国际竞争的新焦点。加快健全完善与人工智能相适应的基础设施,制度环境和产业配套,是降低人工智能研发应用门槛、激发技术和产业活力、构筑人工智能发展优势、抢占发展先机的战略性选择,是加快数字中国建设的必然要求。 当前,人工智能发展由单一智能的1.0时代向通用智能的2.0时代演进,由单模态问多模态融合发展,呈现出创新加速、跨界融合、应用深化的阶段特征。面向数字经济、数字社会、数字政府各领域人 工智能数据、算力、算法、模型服务需求快速增长,人工智能供给侧的基建化、模块化、专业化、服务化、长效化趋势明显,作为数字时代“准公共品”的基础性、通用性、公共性特质进一步凸显。“可定制的”人工智能服务能够像水、电、气、腰一样使捷安全高效地使用,随需应变地满足个性化需求,成为客行 业共享AI红利的共同愿景。 为此,亟需推动构建政府和市场互补、多元协作的公共智算基础设施体系和服务供给格局,发挥市场配置资源的决定性作用,减少投资浪费、增加有效供给、规避系统性风险。鼓励引导云服务商、人工 生态,创新服务模式、提升服务实效,降低使用者的进入门槛和综合成本,为大中小企业、科研机购、政府部门等提供高质量公共智算服务,成为当前发展的急迫要求和基本趋势。 通用人工智能发展新趋势,梳理智算服务发展形势和现状,明确“公共智算服务”概念内涵、服务架构、服务内容和服务体系,提出实现生态化发展的策略建议,最后提供相关实践案例:本报告言在为公共智 算服务的建设方、供应方、使用方和生态伙伴等提供协同发展参考,为各地方、各行业人工智能应用提供指引和情签,为加快A能十行白业、助力经济社会发质负献力量。 目录 前言 、概述 (-)基本概念 01 (二)主要特征 01 1.云化共享· 01 2.高效计算· 01 3.开放兼容· 02 4.按需服务 02 5.稳定安全· X3 6.绿色低碳· 03 7.长效运营· 03 二、发展形势 05 (一】人工智能发展进入2.0时代,智算发展迎来高速增长机漫期 05 (二)智算资源准公共品特质凸显,公共智算服务需求快速增长 05 (三)全球“双碳”进程逐渐深入,绿色低碳成为智算服务必然要求 三、现状和问题 07 【一】发展现状 07 1.政策体系遥步健会,发展环境持续优化 07 2.智算服务供给质齐升,服务模式创新题出 10 (二)面临挑战 12 四、服务框架 14 【一】服务架构 14 1.股务资源构件化 2.股务调度智能化 3.服务供给多元化 (二)服务内客 15 人工智能2.0时代的公共智算服务发展指南 1.算力资源服务 2.算法模型服务16 3.数据资源服务17 (三)服务生态18 五、推进策略·20 (一)需求导向,强化产业赋能应用20 (二)适度超前,优化部署智算设施 (三)技术先进,提高软硬协同能力20 (四)强化运营,培育长效服务生态20 (五)以评促建,提升智算服务水平 六、实践案例,22 (一)面向城市暂能应用的公共智算服务 22 1.北京市:统筹布局突破算力制约22 2.枕州市:抓住MaaS模式变革机遇打造模型输出原地23 (二)面向科学智能应用的公共智算服务23 3.复且大学智算平台(CFFF):国内高校最大规模异构替算平台23 (三)面向行业智能应用的公共智算服务 4。小鹅汽车:借力打造“扶播”以更低成本实现更强算力24 5.百川智能:取长补短强化生态合作打造核心竞争力25 、概述 一、概述 (一)基本概念(二)主要特征 智能计算(简称智算)是指面向算法模型驱1.云化共享动的高并行、高吞吐复奈计算任务需要,基于最 新人工智能理论,采用先进的人工智能异构计算架构,配置最优计算策略,实现以最小开销达到 云化共享是指以云服务方式实现智算资源的 高效调度和使用,是暂算资源能够作为“准公共 最佳效果的一种先进计算形态,智能计算是可以品”实现普惠便捷服务的必要条件和最有效方式。 通过云化共享,一是可以屏蔽底层技术细节,降 根据具体任务对计算资源进行优化、调度和有效 分配的一种新型计算形式。相较于通用计算和超 算,智能计算是更为适应AI训练和推理应用的 低用户获取智算资源的技术门槛和转移成本;二是可以实现即时开通和便捷使用,减少用户的初 始投入和使用成本;三是可以提高用户的满意度、 一种算力形态。资源的利用率和服务的性价比,通过共享资源、 随着人工智能2.0时代的到来,智算成为关弹性调度、按量计费,更好满足高弹性资源使用键性基础资源。智算资源具有的初始固定投入高,需求。 边际成本递减、边际收益递增特征,决定了采用 公共性服务能够更好地匹配供需,有效降低单位 使用成本。同时,由于采用云服务方式能够有效屏蔽底层技术差异,实现暂算资源弹性调度、按 需共享、按量付费。因此,以云服务的方式提供公共智算服务成为破解智算资源获取门租高、使 用或本高、资源易闲置等难题,实现普适普惠供 云化共享的实现,有赖于云服务的三个方面 技术特点。一是资源的多租户共享,支持多个用户共用资源,并确保各用户的业务不互相影响,最大化提升智算资源使用效率;二是资源的弹性 调度,支持基于多地域、多中心部署的资源池,根据业需要实时弹性匹配资源,快速扩容满足业 给、高效利用的基本要求。务高峰时资源需求,用完即收,释放资源降低成本;三是云原生技术的全面应用,通过服务架构 本研究认为,公共智异算服务是指面问人工暂和服务产品的全面无服务器化【Serverless]量 能技术和产业发展趋势,为有效提升资源利用率大程度屏蔽技术细节,降低使用门槛,提升资源降低获取门槛和使用成本,以基础性、公共性、调度能力,实现开箱即用、按量计费,帮助用户普适性为原则,以多样化、泛在化、规模化人工更好地聚焦自身业务需求,构建云上应用,充分 智能应用需要为牵引,采用公共云服务方式模块享受云服务自适应、免运维、高弹性优势带的 化、组件化、服务化封装算力、算法、数据等暂红利: 算资源,提供普适普惠服务,以平台化、生态化、 市场化、绿色化、长效化方式实现智算资源高效2.高效计算 供给。高效计算是指公共智算服务提供的是大规 模、高并行、高吞吐的计算服务,这也是公共智 01 人工智能2.0时代的公共智算服务发展指南 算服务面向人工智能2.0时代大模型训练和推理3开放兼容 应用的基本要求。基于云化共享方式提供的高效开放兼容是指提供公共智算股务的技术和服计算服务,一是能够保障和提高大模型训练和推务框架是开放的,能够造配兼容各种技术和服务理的效力,缩短训练时间、提升训练稳定性、提产品,这是多元协司的公共暂算股务生态得以形升推理应用性能,更好满足20时代人工智能应成的前提基础,也是公共智算服务资源能够有效用需求;二是可以提高资源的利用率,让每一块集成,向用户提供普适服务的必要条件。保持公AI芯片发挥史大的算力效能,从而得到史高的服共智算服务生态的开放兼容,一是有利于消除技 务性价比。术壁垒,促进智算资源的标准化供给;二是有利 实现高效计算需要重点关注四个方面的性于智算资源共建共享,泽低A开发和使用成本:能。一是并行计算效率,不仅要能够支持单卡三是有利于避免同质化竞争、促进协同创新,促到万卡的并行计算弹性拓展能力,还要保证大进AI生态和AI产业的繁荣发展。 规模并行计算的线性加速比,避免因算力节点面向人工智能技术和应用趋势,开放兼容 规模化造成使用效率的过度衰减。二是模型计主要体现为四个方面支持。一是支持“一云多 算效率(ModelFLOPSUtilization,MFU)1,芯”,能够对底层异构芯片进行统一纳管、统一在同样的硬件配置条件下,提高模型计算效率,池化和统一调度,屏藏底层异构芯片关异,避免可以使模型训练得更快,从而达节约资源、降低形成算力孤岛,同时更好满足用户的多样化算力成本的效果。三是网络性能,大模型训练所需需求。二是支持“一云多算”,能够对异构算力的(超)大规模算力主要通过GPU并行计算实集群进行统一管理,实现混合云管理和跨集群现,网络性能的优劣将直接影响分布式并行计资源协同调度。三是支持主流的深度学习框架,算的性能,进而影响大模型训练的质量和速度,如带见的机器学习框架PyTorch、TensorFlow、 通过双上联网络架构、GPU直连、高精度拥塞Caffe和主流开源分布式训练框架Megatron- 控制等手段能有效拓展带宽、优化通信、减少LM,DeepSpeed等,提供从数据处理、模型训练、 拥塞和延迟,提供高带宽、低延时、稳定可靠服务部署到预测的一站式服务。四是具备繁荣的的网络连接支持。四是存储性能,大模型训练模型开源生态,支持多种开源模型和商业模型部过程中存在海量小文件的读写探作,采用并行署,提供模型开发应用全生命周期服务,支持模 文件存储(ParallelFileStorage,PFS)等技术,型一键调用。 能够有效提供海量数据高并发处理、高否旺并 行存储、向量数据库快速检索、高安全高可靠4,按需服务 数据存储等能力,从而减少GPU闲置等待时间、按需服务是指公共智算服务能够快速响应缩短检查点(CheckPoint)保存时间,提高模多样化的人工智能应用需要,通过组合标准化型训练的效率和稳定性;采用分层存储等技术,封装的服务资源提供定制化服务的能力,直接提供存储容量和吞吐性能的线性扩展能力,能影响到公共智算服务能香“用起来、用得好”,够最大程度降任存储成本。也是公共智算服务普适性的重要体现。按需服 02 一、概速 务不仅能够更好地满足多场景、多样化的人工息安全等级保护基本要求》(GB/T22239-2019) 智能应用需求,还能够使公共智算服务被更多要求的信息安全等级保护三级水平等进行衡量。用户接受,从而通过史多用户的共享提高资源三是云服务的容错与恢复机制,由于大模型对训利用率。练的稳定性、故障检测与训练容错提出了更高的 要求,需要重点关注能够有效缩短故障处理时间实现服务按需供给需要三个方面支持。一是的智能容错、自动恢复等保障机制,从而提高大 资源的逻辑调度方面,支持服务资源的标准化封 装、模块化组合、任务化供给,根据客户不同任 模型训练的效率、降低模型训练成本。 务需求,提供疆盖模型开发全生命周期的多元服6.绿色低碳务,并支持授业务需要分类获取、自由组合、定 制提供。二是资源的物理部署方面,支持服务资绿色低碳是“双碳”目标背景下公共智算服源多节点部署、一体化调度,提供本地化部署和务主动应资源环境约束的集中体现,也是公共公共云部署等多种方式,支持本地优先、就近服算服务支持经济社会绿色可持续发展的内在要务、多级扩展,在为用户提供最优服务体验的同求。在数字革命提速的今天,敬据中心日益成为 时,提供最高性价比。三是服务的获取方面,支“能耗大户”和环境保护风险点,让智算服务更 持用户自助服务,如满足用户一站式选择服务配加绿色低碳变得尤为重要。置和升级扩展的需求,支