华为云昇腾AI云服务 6AFAMILY云化算力底座 目录 大模型引发全球算力需求的指数级增长 02 大模型为AI产业带来拐点 03 Sora的出现再次印证Scalinglaw,大模型创新需要澎湃算力支撑 04 聚焦业务创新,企业需要全栈算力服务 05 大模型是人类迄今为止最复杂的软件、硬件系统 06 昇腾AI云服务,大模型时代的最佳云化全栈算力服务 07 满足多样化算力使用模式 08 满足多样化算力管理模式 09 满足多样化算力部署模式 10 昇腾云服务打造6AFAMILY算力沃土 11 昇腾AI云服务打造6AFY算力沃土,构建百模千态首选云底座故障恢复快FaultrecoveryAcceleration 1213 资源获取快AccessAcceleration 14 模型迁移快MigrationAcceleration 15 云上推理投资优InvestmentAdvantage 17 就近服务时延优LatencyAdvantage 19 云上性能优YieldAdvantage 21 昇腾云服务开放兼容支持百模千态 22 AIGallery:一站式AI社区服务平台,构建百模千态的开放昇腾社区 23 D-Plan:生态伙伴计划 24 客户案例 26 昇腾AI云服务—全球行业先行者 26 华为云昇腾AI云服务 01 AMIL 大模型引发全球算力需求的指数级增长 大模型引发全球算力需求的指数级增长 02华为云昇腾AI云服务 大模型为AI产业带来拐点 从“感知”走向“生成”,从专用走向通用 大模型引发全球算力需求的指数级增长 感知理解世界,专用领域 替代低端重复性工作 生成创造世界,通用领域 替代较高端脑力劳动工作 Gemini… 内容生成,预测 视觉识别,翻译 专家系统 ChatGPTGPT4 控制论 NLP CV 深度学习 GAN AI4S AI技术里程碑 AI产业发展浪潮 AI重点事件里程碑 1956年 达特茅斯会议 1997年 “深蓝”战胜人类 2015年 视觉识别超过人类 2020年 蛋白质结构预测 2022年…… ChatGPT 人工智能产业发展经历三次浪潮。最近的一次是以Transformer架构为代表的大模型,生成式AI的兴起,将我们带入新的AI产业浪潮之中。大模型是人工智能历史的分水岭,此前,人们更多关注和讨论的是机器如何感知世界,例如识别日常生活中的各种物体;而现在,人类则进入到通过大模型的生成能力创造数字世界,预测未来趋势。通过对海量数据的预训练,大模型可以在超高维度空间上对人类全部知识进行高度压缩,进行微调就可以完成多个应用场景任务的泛化,模型正在从专用走向通用。 随着人工智能技术的日新月异,AI将进一步驱动各行各业生产能力、生产效率从“量变到质变”,实现跨越式发展和新质生产力跃升,如何用好AI将成为国家、行业、企业的核心竞争力。 华为云昇腾AI云服务03 Sora的出现再次印证Scalinglaw,大模型创新需要澎湃算力支撑 2012年至2023年 算力需求翻了数十万倍 SORA所消耗的算力相比 LLM类模型要大数个量级 GPT-4 ChatGPT AlphaGoZero 数十万倍 GPT-3需求增长 AlphaZero NeuralMachine Translation TI7Dota1v1Xception 数千倍 差距 VisualizingVGGand Understanding ConvNets DeepSpeech2ResNets Seq2Seq GoogleNet 百倍级 AlexNetAI算力增长 感知 认知 生成 Sora(1minvideo) GPT-4(1000texttokens)LLama-270B(1000texttokens) DiT-XL/2ImageGeneration(512x512pximages) 1025 1e+4 1e+3 1e+2 1e+1 1e+0 1e-1 1e-2 1e-3 1e-4 1023 FLOPS 1021 1019 1017 1015 201220132014201520162017201820192020202120222023 0.0 0.2 0.4 0.6 0.81.0 模型规模及发布时间推理消耗算力对比 Source:FactorialFundsAIinferencecomputecomparison 大模型的爆发引发全球算力需求的指数级增长。2024年基于扩散的视频生成模型Sora的出现,其革命性的视频生成能力,不仅展示了AI在视觉内容创造上的突破,更预示着全球算力需求的新一轮激增。数据显示,过去10年AI算力需求翻了30万倍。而未来10年AI算力将再增长500倍。数据集规模将从目前的一两个T增长到 100T。此外,大模型还需要理解更长的上下文,Token长度将从千级发展到十万级。 视频生成类模型的算力消耗相比LLM提升20倍,意味着训练集群规模要扩大一个数量级。万卡训练集群将成为训练下一代生成式模型的必备条件。由于算力规模扩大,算力的调度和管理的难度将大幅提升,需要有一个算力平台可以整合管理,调度,自动故障隔离,checkpointing,自动任务恢复的任务。这些挑战相互影响、环环相扣。 针对AI时代的这些挑战,华为云提出了软硬件结合的系统性创新,华为云昇腾AI云服务整合集群算力、计算引擎CANN、AI开发框架MindSpore和ModelArtsAI开发生产线。为大模型的训练,推理,AI应用的开发、运行提供稳定可靠的全栈算力保障。 聚焦业务创新,企业需要全栈算力服务 聚焦业务创新, 企业需要全栈算力服务 应用发布 业务规划 行业特征工程 模型层/ 优化器设计 模型架构设计 超参定义和范围标定 模型微调设计 大模型是人类迄今为止最复杂的软件、硬件系统 大模型是一个复杂系统工程,大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单堆积,需要解决诸如低时延数据交换,节点之间均衡计算避免冷热不均,消弭算力堵点。避免出现单点硬件故障导致的全面训练中断、梯度爆炸、算法重训等一系列的问题,是一项复杂的系统工程,需要从算力效率、线性扩展、长效稳定等多个方面进行系统设计。而云化的全栈算力服务由于积累了足够多的模型训练,运维经验,以服务的方式让企业使用到最新的经验,技术成果,避免重复解决问题,让企业得以聚焦创新。 大模型不仅需要算法,而且需要数据处理, 压缩/转换 优化/部署 2.模型设计 6.集成 API开放 防攻击/ 故障隔离 5.推理部署 三.推理部署&集成 在线离线 推理推理 量化 蒸馏 转剪 换枝 二.算力准备&模型训练 3.算力准备 &系统调优 4.大规模训练&微调 计算平台系统设计 模型预训练 代码模型调试训练 AI集群平台建设 下游任务微调 系统调试与上线 代码模型调试微调 软硬件优化、模型开发、应用创新、推理部署的系统工程能力 —.数据&模型准备 1.数据处理 公共开放行业私有指令微调数据处理数据处理数据处理 » 参数面无损网络 » 开源数据集选择 » 多种并行策略设计 » 大模型分布式推理切分 » 推理集群设计 » 多级存储优化 » 预训练数据清洗 » 通信链路加速 » 在线推理框架 » 推理集群调度系统 » 计算集群密度设计 » 数据质量测试 » 多任务可视化profiling » 模型剪枝和蒸馏技术 » 多应用LoadBalance » 液冷设计 » 稠密稀疏混合架构 » 断点续训设计 » 模型INT量化 » API接口设计 » 多样化算力调度 » RLHF算法设计 » 算子融合调优 » 下游多任务效果测试 » 防攻击设计 » 集群稳定性设计 » RLHF数据集标注 » 多样化算力调度 » 微调算法优化 » 故障恢复和隔离 » …… » …… » 多任务权重融合 » 推理性能调优 » …… » …… » …… AI计算硬件 混合云 公有云 AI框架MindSpore、TensorFlow、PyTorch...... 异构 计算架构 芯片使能 AI平台 Standard Lite Edge ModelArts 边缘云 专属云 通用计算硬件 昇腾AI云服务,大模型时代的最佳云化全栈算力服务 昇腾AI云服务官网 应用场景 模型托管模型统一注册管理模型统一训练微调模型统一应用服务 AIGallery 百模千态社区 解决方案 案例 应用 示例 数据 模型 昇腾AI云服务:包括云化算力、AI开发生产线ModelArts和AI开发者生态AIGallery。为支持大模型的“百模千态”创新,昇腾AI云服务提供触手可及的澎湃AI算力服务,独有的多级恢复机制和完备的工具链可实现千卡训练连续30天不中断,任务恢复时长小于30分钟,为大模型和AI应用的开发、运行、运维提供最佳算力云底座。 LLM AIGC 自动驾驶 内容审核 数字人 …… 澎湃算力 高效易用 集群训练 打造百模千态的 云网边端芯 即开即用 全栈平台能力 故障自动恢复 黑土地 算力协同 无需自建或改造数据中心 无需投资通用AI技术 无需担心运维和安全 无需担心模型开发应用难 无需担心端侧算力瓶颈 增量训练大模型 需要数百卡算力 智能应用开发 需要数十卡算力 offering »提供开箱即用的开源大模型,支持微调,快速上手 »提供端到端应用开发工具链、向量数据库等 »提供丰富的预制应用模板 拥有较深的行业理解 offering »提供主流三方大模型 »提供完善的SFT训练框架 »提供参考案例 »提供易用的大模型应用开发工具链 拥有较强行业背景和大量行业数据 自研大模型 需要数千卡算力 offering »提供大规模算力集群 »提供分布式加速库 »提供大模型适配和优化 »技术栈开放,高度自主可控 拥有超级APP 满足多样化算力使用模式 满足多样化算力管理模式 AI开发生产线ModelArts,是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。为满足客户多样化的算力管理模式,ModelArts提供Standard和Lite两种模式。ModelArtsStandard包含端到端的AI开发生产线+算力持续运维平台。ModelArtsLite仅包含算力持续运维平台。 ModelArtsStandard 一站式AI开发平台 TensorFlow/Pytroch 等第三方框架 ModelArtsLite ModelArtsStandard服务的介绍 端到端生产工具链,一致性开发体验 昇腾工具链 SDK|CLI IDE插件 Codelab »线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理 数据管理 模型开发 训练任务 推理服务 AI工程化能力,支持AI全流程生命周期管理 »支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断 »提供端到端的AI开发生产线+算力持续运维平台 容错能力强,故障恢复快 »故障检测覆盖度95%,故障30分钟内恢复,恢复成功率大于95%,保障千卡作业稳定训练数周以上,训练有效卡时大于95% ModelArtsLite 资源 访问方式 Kubernetes/SSH/API AI加速 资源调度 Kubernetes 专属集群 ElasticCluster(原生接口) 虚拟机/ElasticServer 裸金属(原生算力) 集群管理 门户故障告警权限运营管理管理管理管理管理 AI算力 数据加速 训练加速 推理加速 ModelArtsLite服务的介绍 零改造迁移 »提供业界通用的k8s接口使用资源,业务跨云迁移无压力 »SSH直达节点和容器,一致体验 多种资源形态 »集群模式,开箱即提供好Kubernetes集