您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为&中国信通院]:2024云原生AI技术架构白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2024云原生AI技术架构白皮书

2024云原生AI技术架构白皮书

白皮书编制组 华为云计算技术有限公司 叶坤奇张琦张永明蔡智源王雷博魏鹏程陶希陈佳敦朱佳玮马红伟左鹏飞付森波张超盟范恒龙鲍玥冯绍宝朱磊 中国信息通信研究院云计算与大数据研究所 刘如明杜岚 行吟信息科技(上海)有限公司 徐瑞文胡伟琪余奕陈磊熊峰 第四范式(北京)技术有限公司 李孟轩 远盟康健科技有限公司 杨宇陈浩 复旦大学 彭鑫沈立炜陈碧欢 目录 CONTENTS 01背景和前言 1.1大模型开创智能时代的新纪元,AI产业迎来新一轮创新浪潮02 1.2云原生助力AI产业突破发展瓶颈,云原生AI成为产业发展新范式…02 02云原生AI基础设施发展和挑战 2.1云原生AI技术的演进…05 2.2算力诉求井喷,AI产业面临挑战06 03云原生AI技术概论 3.1云原生AI资源管理系统建设要点…09 3.2云原生AI训练系统建设要点…15 3.3云原生AI推理系统建设要点…26 3.4云原生AI边缘云系统建设要点…30 3.5弹性伸缩,应对AI任务浪涌挑战…32 04云原生AI技术应用 4.1云原生AI跨地域多集群协同…38 4.2云原生AI算力效能优化…41 4.3云原生AI云边协同计算…46 4.4大模型云原生化解决方案49 4.5云原生AI设备驱动管理…51 05云原生AI行业实践 5.1社交平台RB云原生AI平台应用加速实践54 5.2AI解决方案提供商FP多场景AI云原生化实践…58 5.3医疗科技公司HL云原生AI智能医疗实践60 云原生AI技术架构白皮书背景和前言 01 PART 背景和前言 1.1大模型开创智能时代的新纪元,AI产业迎来新一轮创新浪潮 1.2云原生助力AI产业突破发展瓶颈,云原生AI成为产业发展新范式 ·01· 1.1大模型开创智能时代的新纪元,AI产业迎来新一轮创新浪潮 AI软件及应用市场持续增长,AI大模型成为产业主要增长点。据IDC估计,2026年中国人工智能软件及应用市场规模将达到211亿美元,各行业的AI需求极大地推动着AI市场增长。随着数字经济、元宇宙等概念的逐渐兴起,人工智能进入大规模落地应用的关键时期,但其开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题开始显露,阻碍了规模化落地。以ChatGPT为代表的AI大模型的横空出世改变了这一局面。凭借其优越的泛化性、通用性、迁移性,AI大模型为人工智能大规模落地带来新的希望。面对人工智能的各种挑战,AI大模型的出现提供了通用化解决方案,从无标注数据中通过自监督学习获取大量“知识”,实现用更统一的方式推动人工智能产业落地。 广泛智能需求驱动AI产业不断创新,大模型助力各行业生产力变革。随着办公、制造、金融、医疗、政务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等多方面的AI智能需求,AI产业迎来了井喷式的创新和发展。凭借在文字、语音、图像、视频等多模态处理能力上的跃迁,AI大模型摇身变为“助理”、“专家”走入办公室、制造车间、金融市场、医疗机构、政务大厅,结合传统软件使得各个行业更加智能化、自动化。AI大模型已然改变了我们的生活和工作的方方面面,成为各个行业不可或缺的重要助手。 1.2云原生助力AI产业突破发展瓶颈,云原生AI成为产业发展新范式 AI产业面临数据、算法、算力等多方面发展瓶颈。据IDC统计,中国数据规模将从2021年的18.51ZB增长至2026年的56.16ZB,年均增长速度CAGR为24.9%,增速位居全球第一。随着数据量的高速增长,数据特征高维、模态格式多样的趋势也逐渐明显,对数据的AI建模也相应地更加复杂,计算复杂度会随之呈指数增加,数据标注难度也会增加。同时,海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险。与此同时,AI应用场景更加多元化、复杂化,往往需要对多个任务进行深度融合和统一建模,这意味着厂商需要针对不同场景、不同任务开发大量的算法和模型,增加了AI应用的开发难度。算力方面,需要针对不同的场景和高性能计算能力进行拓展融合,满足研发企业的多芯部署、分布式优化、高性能计算等需求,这涉及了计算资源的灵活调度和统一运营管理,给企业AI创新带来了额外的成本。 云原生AI成为AI产业发展的新范式。为了突破AI产业的发展瓶颈,云原生AI技术应运而生。一方面,云原生技术为AI应用运行提供了一个可扩展、高可靠的平台,更好地支持AI开发和使用。目前,基于Kubernetes的云原生可以有效管理各类网络、存储和计算资源,已逐步演变为实际上的云操作系统,服务 ·02· 于私有云、公有云以及混合云环境。基于其高可用特性,云原生系统可通过自动故障恢复机制在故障发生时迅速恢复服务,确保AI应用的稳定运行。其次,利用Kubernetes自动伸缩功能带来的出色扩展性,云原生可以根据AI应用需求快速增加或减少计算资源,满足不同场景下的计算需求。同时,云原生具备良好的兼容性,可以与各种AI框架和工具无缝集成,实现AI应用的快速开发和部署。此外,云原生提供了丰富的计算(如CPU和GPU)、网络和存储能力,并提供隔离和受控共享机制,加速了AI应用开发的效率和性能,并降低了企业的成本。另一方面,AI也可以从调度资源、安全等方面增强云原生。在涉及多个优化标准的情况下,AI可以分析集群的历史使用情况并预测未来工作负载模式和资源可用性,更好地调度云基础设施资源,进而降低能源消耗和使用成本。在安全方面,AI可以分析大规模数据集并预测系统中的潜在威胁或弱点。用于检测异常网络行为的AI模型可以轻松地用于保护工作负载或在边缘部署中的一组集群,加强企业对新兴网络威胁的防御。 本白皮书重点关注云原生AI基础设施层支持AI开发和使用,结合云原生开源生态发展现状和行业实践,深入分析云原生AI技术落地所面临的技术挑战并给出具体的技术指导方案。 ·03· ·03· 云原生AI技术架构白皮书云原生AI基础设施发展和挑战 02 PART 云原生AI基础设施发展和挑战 2.1云原生AI技术的演进 2.2算力诉求井喷,AI产业面临挑战 ·04· 云原生技术本质上是基础设施云化和与之配套的服务(例如CI/CD就是如何在云化的基础设施部署软件)的技术。这在云原生AI里也是一样的,云原生AI基础设施是云原生AI技术最为基础的一环。云原生AI基础设施向上为AI训练作业、推理服务及模型开发等各类AI业务提供任务编排和调度能力,向下对多数据中心的异构硬件设备统一纳管并提供高效、可靠的资源供应能力。这一章将简短地回顾一下云原生AI基础设施的技术演变历程,我们会看到如今云原生AI技术面临的挑战的来源。 2.1 云原生AI基础设施的演进 2018年图灵奖获得者计算机体系结构泰斗约翰·轩尼诗(JohnHennessy)和戴维·帕特森(DavidPatterson),在颁奖典礼上发表了题为“计算机体系结构的新黄金时代”(ANewGoldenAgeforcomputerArchitecture)的演讲①,指出摩尔定律(Moore’sLaw)和登纳德定律(DennardScalingLaw)走到了尽头,处理器的晶体管密度和单位面积功耗已接近极限,处理器的性能提升不再遵循摩尔定律,后摩尔定律时代到来。 AI技术的发展和新的软硬件接口抽象为云原生基础设施带来了新的挑战和机遇,以面向特定领域体系结构(Domain-SpecificArchitecture,DSA)处理器为代表的新架构能够提供更高的性能,更低的成本和更优的能效。 2022年11月30日OpenAI公司推出了智能聊天机器人ChatGPT,在发布后的2个月内用户数量就突破1亿,成为史上用户增长最快速的现象级应用。ChatGPT表现出的对文本的超凡理解力和生成能力,让工业界对AGI从学术研究走进实际的商业应用有了前所未有的信心,各类基于Transformer架构的AIGC大模型应用如雨后春笋,国内也出现了百模大战的态势,更进一步出现了StableDiffusion和Sora等多模态大模型。在近几年的大模型研究和工程实践中,业界发现模型的训练数据、参数量和计算量越大,模型的效果越好,模型规模与模型效果呈现显著的正相关,虽然学术界存在争议,但大模型的ScalingLaw仍然是业界的基本共识。 为应对大模型对算力、存储(带宽、容量)需求,必须把大量加速卡和服务器节点通过高速总线和网络连接起来,利用节点内总线(Scale-Up)和节点间网络(Scale-Out)的层次化扩展能力,构建大规模AI集群以提供充足的算力供应,随着模型尺寸的持续增长,AI集群的规模也越来越大。典型的AI集群具有两个或三个网络平面及一个高速总线平面,分别是:前端网络平面,用于集群管理和AI作业的调度发放;后端网络(Scale-out或Back-end)平面,用于扩展多AI服务器节点,通过高性能网络Infiniband或以太网 ①https://www.jiqizhixin.com/articles/2019-01-30-12 ·05· 把不同节点的GPU/NPU卡通过RDMA协议连通起来,主要用于模型参数的数据同步(注:也有厂商称之为参数平面);存储网络,通过专用的存储网卡和交换机将训练节点和存储设备连接起来,用于训练数据读取和模型快照(Checkpoint)存取;高速总线(Scale-Uplink)平面,通过高带宽高可靠的片间总线(如:PCIe/NVlink等)将节点内加速卡互联起来,用于大模型训推过程中的梯度更新等数据同步。 2.2 算力诉求井喷,AI产业面临挑战 加速卡数量*线性度,理想的线性度是趋近于1。 模型训练为例,模型训练的吞吐(样本数/秒)=单卡训练吞吐(样本数/秒)* 相对于单卡和单计算节点的计算效率,AI计算任务在多卡多节点上的执行是 否能够达到线性的收益目标,特别是随着集群规模的扩展,线性度能够持续保持。以 线性度问题 OpenAI/Meta/字节跳动等公司近期所披露出的AI集群的规模都超过万卡,在他们的研究报告和相关的学术论文中提出大量当前AI业务在使用大规模算力集群过程中遇到的挑战和问题,这里我们列举几个核心问题: 通过高性能总线将多个节点的加速卡连接起来的超节点(SuperPOD),打破了传统节点的模型,如英伟达DGXH100支持将32个节点的256个GPU组成一个超节点,超节点内的GPUHBM和CPU内存统一编址,支持更大参数规模的模型加载。这超出了传统节点资源和拓扑模型的表达能力。 而在Scale-Out扩展方面,一般采用二层或三层Spine-leaf拓扑模型,通过无带宽的收敛InfiniBand或以太网络将加速卡节点连接成AI集群。要保持AI算力集群中AI任务的线性度,需要综合作业节点间的网络拓扑和AI任务的并行策略及其通讯需求进行作业任务的层次化调度,这对集群的调度器提出了新的要求,即:要感知集群的资源的网络拓扑和(超)节点拓扑,并根据AI任务的并行模式和通讯要求,将任务切分并调度到合适的节点和卡上,目前云原生AI调度器方案在拓扑感知及作业并行策略表达及调度算法方面存在明显的能力缺口。 大模型训练的主要并行模式和通信需求如下,通信模式具有显著特征: 1.周期性强,每轮迭代的 通信模式一致; 2.流数量少,单流带宽 大,同步突发。 3. 通信量大,带宽需求高。 ·06· 并行模式 特征 通信需求 Tensor并行(TP) 通信量巨大(百GB),通信时间不可掩盖 节点内allreduce 超高带宽 Pipeline并行(PP) 通信量较大(模型相关,百M-GB级),通信时间不可掩盖/流水可掩盖 跨节点P2P 中带宽 数据并行(DP) 通信量大(GB级),通信时间计算可大部分掩盖 跨节点allreduce 高带宽 MOE并行 通信量大,通信时间不可掩盖 跨节点alltoall/allreduce 高带宽 表2-2-1大模型并行模式和通信需求 集群可用度和资源利用率问题: 是AI集群使用者和供应