热门搜索：

2024云原生AI技术架构白皮书

信息技术2024-08-15-华为&中国信通院梅***

AI智能总结

云原生 AI 技术架构白皮书

背景和前言

大模型引领新时代：大模型的出现为AI产业带来了新的发展机遇，推动了AI市场的快速增长。随着ChatGPT等大模型的应用，AI产业在办公、制造、金融、医疗等领域展现出巨大的潜力，推动了产业的智能化转型。
云原生助力突破瓶颈：云原生技术为AI产业提供了高效、可靠的基础架构，解决了数据、算法、算力等方面的挑战。云原生AI技术已成为推动AI产业发展的新范式。

云原生AI基础设施发展和挑战

技术演进：随着摩尔定律和登纳德定律的终结，AI技术的发展带来了新的挑战和机遇。新架构如DSA处理器提供了更高的性能和能效。
算力需求激增：AI集群规模不断扩大，从单卡到万卡，需要通过多层次扩展（Scale-Up和Scale-Out）来满足计算需求。典型AI集群包括前端网络平面、后端网络平面、存储网络和平面高速总线。
挑战：
- 线性度问题：多卡多节点的计算效率难以保持线性收益。
- 资源利用率：如何平衡集群资源利用率和任务性能目标。
- I/O瓶颈：内存墙和IO传输墙问题导致数据访问效率低下。
- 故障恢复：大模型训练需要通过保存快照加速故障恢复。

云原生AI技术概论

资源管理系统建设要点：
- 资源管理：涵盖AI资源管理、矩阵算力基础设置管理、云原生资源管理等。
- 扩展性：面对多种类型的AI芯片和参数面网络，需要构建可扩展的资源管理架构。
- 数据传输：构建高效的数据管道，解决内存墙和IO传输墙问题。
训练系统建设要点：
- 多卡多节点调度：确保计算任务的线性度。
- 资源分配：合理分配计算资源，平衡集群资源利用率和任务性能目标。
推理系统建设要点：
- 实时响应：确保推理系统的实时性和可靠性。
- 弹性伸缩：根据实际需求动态调整资源。
边缘云系统建设要点：
- 本地处理：在边缘设备上进行数据处理，减少延迟。
- 资源优化：优化边缘设备的资源利用，提高效率。
弹性伸缩：
- 应对任务浪涌：通过动态调整资源来应对AI任务的高峰需求。

总结

本白皮书详细介绍了云原生AI技术的发展现状和挑战，强调了云原生AI在解决AI产业面临的算力、资源管理、I/O瓶颈等问题中的重要作用。通过构建高效的资源管理系统、训练系统、推理系统和边缘云系统，云原生AI技术能够推动AI产业的进一步发展，实现智能化转型。

白皮书编制组华为云计算技术有限公司叶坤奇张琦张永明蔡智源王雷博魏鹏程陶希陈佳敦朱佳玮马红伟左鹏飞付森波张超盟范恒龙鲍玥冯绍宝朱磊中国信息通信研究院云计算与大数据研究所刘如明杜岚行吟信息科技（上海）有限公司徐瑞文胡伟琪余奕陈磊熊峰第四范式（北京）技术有限公司李孟轩远盟康健科技有限公司杨宇陈浩复旦大学彭鑫沈立炜陈碧欢目录 CONTENTS 01背景和前言 1.1大模型开创智能时代的新纪元，AI产业迎来新一轮创新浪潮02 1.2云原生助力AI产业突破发展瓶颈，云原生AI成为产业发展新范式…02 02云原生AI基础设施发展和挑战 2.1云原生AI技术的演进…05 2.2算力诉求井喷，AI产业面临挑战06 03云原生AI技术概论 3.1云原生AI资源管理系统建设要点…09 3.2云原生AI训练系统建设要点…15 3.3云原生AI推理系统建设要点…26 3.4云原生AI边缘云系统建设要点…30 3.5弹性伸缩，应对AI任务浪涌挑战…32 04云原生AI技术应用 4.1云原生AI跨地域多集群协同…38 4.2云原生AI算力效能优化…41 4.3云原生AI云边协同计算…46 4.4大模型云原生化解决方案49 4.5云原生AI设备驱动管理…51 05云原生AI行业实践 5.1社交平台RB云原生AI平台应用加速实践54 5.2AI解决方案提供商FP多场景AI云原生化实践…58 5.3医疗科技公司HL云原生AI智能医疗实践60 云原生AI技术架构白皮书背景和前言 01 PART 背景和前言 1.1大模型开创智能时代的新纪元，AI产业迎来新一轮创新浪潮 1.2云原生助力AI产业突破发展瓶颈，云原生AI成为产业发展新范式 ·01· 1.1大模型开创智能时代的新纪元，AI产业迎来新一轮创新浪潮 AI软件及应用市场持续增长，AI大模型成为产业主要增长点。据IDC估计，2026年中国人工智能软件及应用市场规模将达到211亿美元，各行业的AI需求极大地推动着AI市场增长。随着数字经济、元宇宙等概念的逐渐兴起，人工智能进入大规模落地应用的关键时期,但其开发门槛高、应用场景复杂多样、对场景标注数据依赖等问题开始显露，阻碍了规模化落地。以ChatGPT为代表的AI大模型的横空出世改变了这一局面。凭借其优越的泛化性、通用性、迁移性，AI大模型为人工智能大规模落地带来新的希望。面对人工智能的各种挑战，AI大模型的出现提供了通用化解决方案，从无标注数据中通过自监督学习获取大量“知识”，实现用更统一的方式推动人工智能产业落地。广泛智能需求驱动AI产业不断创新，大模型助力各行业生产力变革。随着办公、制造、金融、医疗、政务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等多方面的AI智能需求，AI产业迎来了井喷式的创新和发展。凭借在文字、语音、图像、视频等多模态处理能力上的跃迁，AI大模型摇身变为“助理”、“专家”走入办公室、制造车间、金融市场、医疗机构、政务大厅，结合传统软件使得各个行业更加智能化、自动化。AI大模型已然改变了我们的生活和工作的方方面面，成为各个行业不可或缺的重要助手。 1.2云原生助力AI产业突破发展瓶颈，云原生AI成为产业发展新范式 AI产业面临数据、算法、算力等多方面发展瓶颈。据IDC统计,中国数据规模将从2021年的18.51ZB增长至2026年的56.16ZB，年均增长速度CAGR为24.9%，增速位居全球第一。随着数据量的高速增长，数据特征高维、模态格式多样的趋势也逐渐明显，对数据的AI建模也相应地更加复杂，计算复杂度会随之呈指数增加，数据标注难度也会增加。同时，海量的数据将不可避免带来更大的数据噪声问题、数据偏见风险。与此同时，AI应用场景更加多元化、复杂化，往往需要对多个任务进行深度融合和统一建模，这意味着厂商需要针对不同场景、不同任务开发大量的算法和模型，增加了AI应用的开发难度。算力方面，需要针对不同的场景和高性能计算能力进行拓展融合,满足研发企业的多芯部署、分布式优化、高性能计算等需求，这涉及了计算资源的灵活调度和统一运营管理，给企业AI创新带来了额外的成本。云原生AI成为AI产业发展的新范式。为了突破AI产业的发展瓶颈，云原生AI技术应运而生。一方面，云原生技术为AI应用运行提供了一个可扩展、高可靠的平台，更好地支持AI开发和使用。目前，基于Kubernetes的云原生可以有效管理各类网络、存储和计算资源，已逐步演变为实际上的云操作系统，服务 ·02· 于私有云、公有云以及混合云环境。基于其高可用特性，云原生系统可通过自动故障恢复机制在故障发生时迅速恢复服务，确保AI应用的稳定运行。其次，利用Kubernetes自动伸缩功能带来的出色扩展性，云原生可以根据AI应用需求快速增加或减少计算资源，满足不同场景下的计算需求。同时，云原生具备良好的兼容性，可以与各种AI框架和工具无缝集成，实现AI应用的快速开发和部署。此外，云原生提供了丰富的计算（如CPU和GPU）、网络和存储能力，并提供隔离和受控共享机制，加速了AI应用开发的效率和性能，并降低了企业的成本。另一方面，AI也可以从调度资源、安全等方面增强云原生。在涉及多个优化标准的情况下，AI可以分析集群的历史使用情况并预测未来工作负载模式和资源可用性，更好地调度云基础设施资源，进而降低能源消耗和使用成本。在安全方面，AI可以分析大规模数据集并预测系统中的潜在威胁或弱点。用于检测异常网络行为的AI模型可以轻松地用于保护工作负载或在边缘部署中的一组集群，加强企业对新兴网络威胁的防御。本白皮书重点关注云原生AI基础设施层支持AI开发和使用，结合云原生开源生态发展现状和行业实践，深入分析云原生AI技术落地所面临的技术挑战并给出具体的技术指导方案。 ·03· ·03· 云原生AI技术架构白皮书云原生AI基础设施发展和挑战 02 PART 云原生AI基础设施发展和挑战 2.1云原生AI技术的演进 2.2算力诉求井喷，AI产业面临挑战 ·04· 云原生技术本质上是基础设施云化和与之配套的服务（例如CI/CD就是如何在云化的基础设施部署软件）的技术。这在云原生AI里也是一样的，云原生AI基础设施是云原生AI技术最为基础的一环。云原生AI基础设施向上为AI训练作业、推理服务及模型开发等各类AI业务提供任务编排和调度能力，向下对多数据中心的异构硬件设备统一纳管并提供高效、可靠的资源供应能力。这一章将简短地回顾一下云原生AI基础设施的技术演变历程，我们会看到如今云原生AI技术面临的挑战的来源。 2.1 云原生AI基础设施的演进 2018年图灵奖获得者计算机体系结构泰斗约翰·轩尼诗(JohnHennessy)和戴维·帕特森(DavidPatterson)，在颁奖典礼上发表了题为“计算机体系结构的新黄金时代”(ANewGoldenAgeforcomputerArchitecture)的演讲①，指出摩尔定律(Moore’sLaw)和登纳德定律(DennardScalingLaw)走到了尽头，处理器的晶体管密度和单位面积功耗已接近极限，处理器的性能提升不再遵循摩尔定律，后摩尔定律时代到来。 AI技术的发展和新的软硬件接口抽象为云原生基础设施带来了新的挑战和机遇，以面向特定领域体系结构(Domain-SpecificArchitecture,DSA)处理器为代表的新架构能够提供更高的性能，更低的成本和更优的能效。 2022年11月30日OpenAI公司推出了智能聊天机器人ChatGPT，在发布后的2个月内用户数量就突破1亿，成为史上用户增长最快速的现象级应用。ChatGPT表现出的对文本的超凡理解力和生成能力，让工业界对AGI从学术研究走进实际的商业应用有了前所未有的信心，各类基于Transformer架构的AIGC大模型应用如雨后春笋，国内也出现了百模大战的态势，更进一步出现了StableDiffusion和Sora等多模态大模型。在近几年的大模型研究和工程实践中，业界发现模型的训练数据、参数量和计算量越大，模型的效果越好，模型规模与模型效果呈现显著的正相关，虽然学术界存在争议，但大模型的ScalingLaw仍然是业界的基本共识。为应对大模型对算力、存储（带宽、容量）需求，必须把大量加速卡和服务器节点通过高速总线和网络连接起来，利用节点内总线（Scale-Up）和节点间网络（Scale-Out）的层次化扩展能力，构建大规模AI集群以提供充足的算力供应，随着模型尺寸的持续增长，AI集群的规模也越来越大。典型的AI集群具有两个或三个网络平面及一个高速总线平面，分别是：前端网络平面，用于集群管理和AI作业的调度发放；后端网络（Scale-out或Back-end）平面，用于扩展多AI服务器节点，通过高性能网络Infiniband或以太网 ①https://www.jiqizhixin.com/articles/2019-01-30-12 ·05· 把不同节点的GPU/NPU卡通过RDMA协议连通起来，主要用于模型参数的数据同步（注：也有厂商称之为参数平面）；存储网络，通过专用的存储网卡和交换机将训练节点和存储设备连接起来，用于训练数据读取和模型快照（Checkpoint）存取；高速总线（Scale-Uplink）平面，通过高带宽高可靠的片间总线（如：PCIe/NVlink等）将节点内加速卡互联起来，用于大模型训推过程中的梯度更新等数据同步。 2.2 算力诉求井喷，AI产业面临挑战加速卡数量*线性度，理想的线性度是趋近于1。模型训练为例，模型训练的吞吐（样本数/秒）=单卡训练吞吐（样本数/秒）* 相对于单卡和单计算节点的计算效率，AI计算任务在多卡多节点上的执行是否能够达到线性的收益目标，特别是随着集群规模的扩展，线性度能够持续保持。以线性度问题 OpenAI/Meta/字节跳动等公司近期所披露出的AI集群的规模都超过万卡，在他们的研究报告和相关的学术论文中提出大量当前AI业务在使用大规模算力集群过程中遇到的挑战和问题，这里我们列举几个核心问题：通过高性能总线将多个节点的加速卡连接起来的超节点（SuperPOD）,打破了传统节点的模型，如英伟达DGXH100支持将32个节点的256个GPU组成一个超节点，超节点内的GPUHBM和CPU内存统一编址，支持更大参数规模的模型加载。这超出了传统节点资源和拓扑模型的表达能力。而在Scale-Out扩展方面，一般采用二层或三层Spine-leaf拓扑模型，通过无带宽的收敛InfiniBand或以太网络将加速卡节点连接成AI集群。要保持AI算力集群中AI任务的线性度，需要综合作业节点间的网络拓扑和AI任务的并行策略及其通讯需求进行作业任务的层次化调度，这对集群的调度器提出了新的要求，即：要感知集群的资源的网络拓扑和（超）节点拓扑，并根据AI任务的并行模式和通讯要求，将任务切分并调度到合适的节点和卡上，目前云原生AI调度器方案在拓扑感知及作业并行策略表达及调度算法方面存在明显的能力缺口。大模型训练的主要并行模式和通信需求如下，通信模式具有显著特征： 1.周期性强，每轮迭代的通信模式一致； 2.流数量少，单流带宽大，同步突发。 3. 通信量大，带宽需求高。 ·06· 并行模式特征通信需求 Tensor并行(TP) 通信量巨大（百GB），通信时间不可掩盖节点内allreduce 超高带宽 Pipeline并行(PP) 通信量较大（模型相关，百M-GB级），通信时间不可掩盖/流水可掩盖跨节点P2P 中带宽数据并行(DP) 通信量大（GB级），通信时间计算可大部分掩盖跨节点allreduce 高带宽 MOE并行通信量大，通信时间不可掩盖跨节点alltoall/allreduce 高带宽表2-2-1大模型并行模式和通信需求集群可用度和资源利用率问题：是AI集群使用者和供应

点击免费查看完整报告

你可能感兴趣

2024云原生AI技术架构白皮书

云原生 AI 技术架构白皮书

背景和前言

云原生AI基础设施发展和挑战

云原生AI技术概论

总结

你可能感兴趣

边缘计算小型化边缘服务器云原生软件架构及参考设计技术白皮书

6G 原生 AI 架构和技术白皮书

6G原生AI架构和技术白皮书（英）

2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书

云原生架构白皮书