AI智能总结
白皮书编制组 华为云计算技术有限公司 叶坤奇张琦张永明蔡智源王雷博魏鹏程陶希陈佳敦朱佳玮马红伟左鹏飞付森波张超盟范恒龙鲍玥冯绍宝朱磊 中国信息通信研究院云计算与大数据研究所 刘如明杜岚 行吟信息科技(上海)有限公司徐瑞文胡伟琪余奕陈磊熊峰 第四范式(北京)技术有限公司李孟轩 远盟康健科技有限公司杨宇陈浩 复旦大学彭鑫沈立炜陈碧欢 01背景和前言 1.1大模型开创智能时代的新纪元,AI 产业迎来新一轮创新浪潮……………………………………………021.2云原生助力 AI 产业突破发展瓶颈,云原生 AI 成为产业发展新范式………………………………………02 02云原生 AI 基础设施发展和挑战 2.1云原生 AI 技术的演进…………………………………………………………………………………………052.2算力诉求井喷,AI 产业面临挑战……………………………………………………………………………06 03云原生 AI 技术概论 3.1云原生 AI 资源管理系统建设要点……………………………………………………………………………093.2云原生 AI 训练系统建设要点…………………………………………………………………………………153.3云原生 AI 推理系统建设要点…………………………………………………………………………………263.4云原生 AI 边缘云系统建设要点………………………………………………………………………………303.5弹性伸缩,应对 AI 任务浪涌挑战……………………………………………………………………………32 04云原生 AI 技术应用 4.1云原生 AI 跨地域多集群协同…………………………………………………………………………………384.2云原生 AI 算力效能优化………………………………………………………………………………………414.3云原生 AI 云边协同计算………………………………………………………………………………………464.4大模型云原生化解决方案……………………………………………………………………………………494.5云原生 AI 设备驱动管理………………………………………………………………………………………51 05云原生 AI 行业实践 5.1社交平台 RB 云原生 AI 平台应用加速实践…………………………………………………………………545.2AI 解决方案提供商 FP 多场景 AI 云原生化实践……………………………………………………………585.3医疗科技公司 HL 云原生 AI 智能医疗实践…………………………………………………………………60 背景和前言 1.1大模型开创智能时代的新纪元,AI 产业迎来新一轮创新浪潮 1.2云原生助力 AI 产业突破发展瓶颈,云原生 AI 成为产业发展新范式 1.1大模型开创智能时代的新纪元,AI 产业迎来新一轮创新浪潮 AI 软件及应用市场持续增长,AI 大模型成为产业主要增长点。据 IDC 估计,2026 年中国人工智能软件及应用市场规模将达到 211 亿美元,各行业的 AI 需求极大地推动着 AI 市场增长。随着数字经济、元宇宙等概念的逐渐兴起,人工智能进入大规模落地应用的关键时期 , 但其开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题开始显露,阻碍了规模化落地。以 ChatGPT 为代表的 AI 大模型的横空出世改变了这一局面。凭借其优越的泛化性、通用性、迁移性,AI 大模型为人工智能大规模落地带来新的希望。面对人工智能的各种挑战,AI 大模型的出现提供了通用化解决方案,从无标注数据中通过自监督学习获取大量“知识”,实现用更统一的方式推动人工智能产业落地。 广泛智能需求驱动 AI 产业不断创新,大模型助力各行业生产力变革。随着办公、制造、金融、医疗、政务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等多方面的 AI 智能需求,AI产业迎来了井喷式的创新和发展。凭借在文字、语音、图像、视频等多模态处理能力上的跃迁,AI 大模型摇身变为“助理”、“专家”走入办公室、制造车间、金融市场、医疗机构、政务大厅,结合传统软件使得各个行业更加智能化、自动化。AI 大模型已然改变了我们的生活和工作的方方面面,成为各个行业不可或缺的重要助手。 1.2云原生助力 AI 产业突破发展瓶颈,云原生 AI 成为产业发展新范式 AI 产业面临数据、算法、算力等多方面发展瓶颈。据 IDC 统计 , 中国数据规模将从 2021 年的 18.51ZB增长至 2026 年的 56.16ZB,年均增长速度 CAGR 为 24.9%,增速位居全球第一。随着数据量的高速增长,数据特征高维、模态格式多样的趋势也逐渐明显,对数据的 AI 建模也相应地更加复杂,计算复杂度会随之呈指数增加,数据标注难度也会增加。同时,海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险。与此同时,AI 应用场景更加多元化、复杂化,往往需要对多个任务进行深度融合和统一建模,这意味着厂商需要针对不同场景、不同任务开发大量的算法和模型,增加了 AI 应用的开发难度。算力方面,需要针对不同的场景和高性能计算能力进行拓展融合 , 满足研发企业的多芯部署、分布式优化、高性能计算等需求,这涉及了计算资源的灵活调度和统一运营管理,给企业 AI 创新带来了额外的成本。 云原生 AI 成为 AI 产业发展的新范式。为了突破 AI 产业的发展瓶颈,云原生 AI 技术应运而生。一方面,云原生技术为 AI 应用运行提供了一个可扩展、高可靠的平台,更好地支持 AI 开发和使用。目前,基于Kubernetes 的云原生可以有效管理各类网络、存储和计算资源,已逐步演变为实际上的云操作系统,服务 于私有云、公有云以及混合云环境。基于其高可用特性,云原生系统可通过自动故障恢复机制在故障发生时迅速恢复服务,确保 AI 应用的稳定运行。其次,利用 Kubernetes 自动伸缩功能带来的出色扩展性,云原生可以根据 AI 应用需求快速增加或减少计算资源,满足不同场景下的计算需求。同时,云原生具备良好的兼容性,可以与各种 AI 框架和工具无缝集成,实现 AI 应用的快速开发和部署。此外,云原生提供了丰富的计算(如 CPU 和 GPU)、网络和存储能力,并提供隔离和受控共享机制,加速了 AI 应用开发的效率和性能,并降低了企业的成本。另一方面,AI 也可以从调度资源、安全等方面增强云原生。在涉及多个优化标准的情况下,AI 可以分析集群的历史使用情况并预测未来工作负载模式和资源可用性,更好地调度云基础设施资源,进而降低能源消耗和使用成本。在安全方面,AI 可以分析大规模数据集并预测系统中的潜在威胁或弱点。用于检测异常网络行为的 AI 模型可以轻松地用于保护工作负载或在边缘部署中的一组集群,加强企业对新兴网络威胁的防御。 本白皮书重点关注云原生 AI 基础设施层支持 AI 开发和使用,结合云原生开源生态发展现状和行业实践,深入分析云原生 AI 技术落地所面临的技术挑战并给出具体的技术指导方案。 02PART 云原生 AI 基础设施发展和挑战 2.1云原生 AI 技术的演进2.2算力诉求井喷,AI 产业面临挑战 ·04· 云原生技术本质上是基础设施云化和与之配套的服务(例如 CI/CD 就是如何在云化的基础设施部署软件)的技术。这在云原生 AI 里也是一样的,云原生 AI 基础设施是云原生 AI 技术最为基础的一环。云原生AI 基础设施向上为 AI 训练作业、推理服务及模型开发等各类 AI 业务提供任务编排和调度能力,向下对多数据中心的异构硬件设备统一纳管并提供高效、可靠的资源供应能力。这一章将简短地回顾一下云原生 AI基础设施的技术演变历程,我们会看到如今云原生 AI 技术面临的挑战的来源。 2.1云原生 AI 基础设施的演进 2018 年图灵奖获得者计算机体系结构泰斗约翰 · 轩尼诗 (John Hennessy) 和戴维 · 帕特森 (DavidPatterson),在颁奖典礼上发表了题为“计算机体系结构的新黄金时代”(A New Golden Age for computerArchitecture) 的演讲①,指出摩尔定律 (Moore’s Law) 和登纳德定律 (Dennard Scaling Law) 走到了尽头,处理器的晶体管密度和单位面积功耗已接近极限,处理器的性能提升不再遵循摩尔定律,后摩尔定律时代到来。 AI 技术的发展和新的软硬件接口抽象为云原生基础设施带来了新的挑战和机遇,以面向特定领域体系结构 (Domain-Specific Architecture, DSA) 处理器为代表的新架构能够提供更高的性能,更低的成本和更优的能效。 2022 年 11 月 30 日 OpenAI 公司推出了智能聊天机器人 ChatGPT,在发布后的 2 个月内用户数量就突破 1 亿,成为史上用户增长最快速的现象级应用。ChatGPT 表现出的对文本的超凡理解力和生成能力,让工业界对 AGI 从学术研究走进实际的商业应用有了前所未有的信心,各类基于 Transformer 架构的 AIGC 大模型应用如雨后春笋,国内也出现了百模大战的态势,更进一步出现了 Stable Diffusion 和 Sora 等多模态大模型。在近几年的大模型研究和工程实践中,业界发现模型的训练数据、参数量和计算量越大,模型的效果越好,模型规模与模型效果呈现显著的正相关,虽然学术界存在争议,但大模型的 Scaling Law 仍然是业界的基本共识。 为应对大模型对算力、存储(带宽、容量)需求,必须把大量加速卡和服务器节点通过高速总线和网络连接起来,利用节点内总线(Scale-Up)和节点间网络(Scale-Out)的层次化扩展能力,构建大规模 AI集群以提供充足的算力供应,随着模型尺寸的持续增长,AI 集群的规模也越来越大。典型的 AI 集群具有两个或三个网络平面及一个高速总线平面,分别是:前端网络平面,用于集群管理和 AI 作业的调度发放;后端网络(Scale-out 或 Back-end)平面,用于扩展多 AI 服务器节点,通过高性能网络 Infiniband 或以太网 把不同节点的 GPU/NPU 卡通过 RDMA 协议连通起来,主要用于模型参数的数据同步(注:也有厂商称之为参数平面);存储网络,通过专用的存储网卡和交换机将训练节点和存储设备连接起来,用于训练数据读取和模型快照(Checkpoint)存取;高速总线(Scale-Up link)平面,通过高带宽高可靠的片间总线(如:PCIe/NVlink 等)将节点内加速卡互联起来,用于大模型训推过程中的梯度更新等数据同步。 2.2算力诉求井喷,AI 产业面临挑战 OpenAI/Meta/ 字节跳动等公司近期所披露出的 AI 集群的规模都超过万卡,在他们的研究报告和相关的学术论文中提出大量当前 AI 业务在使用大规模算力集群过程中遇到的挑战和问题,这里我们列举几个核心问题: 相对于单卡和单计算节点的计算效率,AI 计算任务在多卡多节点上的执行是否能够达到线性的收益目标,特别是随着集群规模的扩展,线性度能够持续保持。以模型训练为例,模型训练的吞吐(样本数 / 秒)= 单卡训练吞吐(样本数 / 秒)*加速卡数量 * 线性度,理想的线性度是趋近于 1。 线性度问题 通过高性能总线将多个节点的加速卡连接起来的超节点(SuperPOD), 打破了传统节点的模型,如英伟达 DGX H100 支持将 32 个节点的 256 个 GPU 组成一个超节点,超节点内的 GPU HBM 和 CPU 内存统一编址,支持更大参数规模的模型加载。这超出了传统节点资源和拓扑模型的表达能力。 而在 Scale-Out 扩展方面,一般采用二层或三层 Spine-leaf 拓扑模型,通过无带宽的收敛 Infin