热门搜索：

华为云昇腾AI云服务实用指南

信息技术2024-09-08-华为李***

AI智能总结

华为云昇腾AI云服务在大模型时代提供了全面的算力解决方案，以适应人工智能产业的快速发展和需求。以下是对报告内容的总结：

主要发现与趋势

大模型的兴起：大模型作为人工智能历史的分水岭，标志着从“感知”到“生成”的转变，从特定领域的应用走向更广泛的通用领域。这推动了全球算力需求的指数级增长，预计未来十年AI算力需求将增长500倍。
算力需求与挑战：大模型的训练和运行需要巨大的算力支持，这不仅增加了算力需求，还带来了调度、管理、故障恢复等挑战。华为云昇腾AI云服务通过整合算力、计算引擎、AI开发框架和AI开发生产线，提供了全栈算力服务，以应对这些挑战。
企业需求：聚焦业务创新的企业需要全栈算力服务来支持大模型的开发和应用，这包括模型训练、推理、应用开发与运行的各个阶段。

升腾AI云服务的关键特点

6A FAMILY：昇腾AI云服务构建了一个6A算力沃土，涵盖加速资源获取、模型迁移、故障恢复、就近服务、云上性能优化和投资优势等关键领域，以满足多样化算力需求。
模型支持与管理：提供广泛的模型支持，包括开源大模型、自研大模型以及与合作伙伴的协作，同时提供模型托管、微调和应用服务。
算力管理模式：通过ModelArts服务提供标准化和轻量级算力管理方案，支持AI开发全流程，包括数据处理、模型训练、推理部署和运维管理。
算力部署模式：实现端云协同，通过云网边端芯的算力协同，为终端应用提供更强大的算力支持，打破硬件限制。
故障恢复与管理：通过主动诊断和快速恢复机制，确保集群长期稳定运行，减少故障对业务的影响。
资源获取效率：提供高效接入AI算力中心，支持大规模模型训练，满足不同规模的训练需求。
模型迁移与优化：支持多种框架、加速库的快速迁移，提供工具化迁移服务，简化模型和应用的部署流程。

结论

华为云昇腾AI云服务通过提供全面的算力解决方案，旨在满足大模型时代对高性能计算资源的需求，支持企业实现业务创新和数字化转型。该服务通过整合先进的算力资源、提供灵活的算力管理、优化模型迁移与部署流程，以及强化故障管理和资源获取效率，为企业提供了一个稳定、高效、易于使用的云化全栈算力平台。

华为云昇腾AI云服务 6AFAMILY云化算力底座目录大模型引发全球算力需求的指数级增长 02 大模型为AI产业带来拐点 03 Sora的出现再次印证Scalinglaw，大模型创新需要澎湃算力支撑 04 聚焦业务创新，企业需要全栈算力服务 05 大模型是人类迄今为止最复杂的软件、硬件系统 06 昇腾AI云服务，大模型时代的最佳云化全栈算力服务 07 满足多样化算力使用模式 08 满足多样化算力管理模式 09 满足多样化算力部署模式 10 昇腾云服务打造6AFAMILY算力沃土 11 昇腾AI云服务打造6AFY算力沃土，构建百模千态首选云底座故障恢复快FaultrecoveryAcceleration 1213 资源获取快AccessAcceleration 14 模型迁移快MigrationAcceleration 15 云上推理投资优InvestmentAdvantage 17 就近服务时延优LatencyAdvantage 19 云上性能优YieldAdvantage 21 昇腾云服务开放兼容支持百模千态 22 AIGallery：一站式AI社区服务平台，构建百模千态的开放昇腾社区 23 D-Plan：生态伙伴计划 24 客户案例 26 昇腾AI云服务—全球行业先行者 26 华为云昇腾AI云服务 01 AMIL 大模型引发全球算力需求的指数级增长大模型引发全球算力需求的指数级增长 02华为云昇腾AI云服务大模型为AI产业带来拐点从“感知”走向“生成”，从专用走向通用大模型引发全球算力需求的指数级增长感知理解世界，专用领域替代低端重复性工作生成创造世界，通用领域替代较高端脑力劳动工作 Gemini… 内容生成，预测视觉识别，翻译专家系统 ChatGPTGPT4 控制论 NLP CV 深度学习 GAN AI4S AI技术里程碑 AI产业发展浪潮 AI重点事件里程碑 1956年达特茅斯会议 1997年 “深蓝”战胜人类 2015年视觉识别超过人类 2020年蛋白质结构预测 2022年…… ChatGPT 人工智能产业发展经历三次浪潮。最近的一次是以Transformer架构为代表的大模型，生成式AI的兴起，将我们带入新的AI产业浪潮之中。大模型是人工智能历史的分水岭，此前，人们更多关注和讨论的是机器如何感知世界，例如识别日常生活中的各种物体；而现在，人类则进入到通过大模型的生成能力创造数字世界，预测未来趋势。通过对海量数据的预训练，大模型可以在超高维度空间上对人类全部知识进行高度压缩，进行微调就可以完成多个应用场景任务的泛化，模型正在从专用走向通用。随着人工智能技术的日新月异，AI将进一步驱动各行各业生产能力、生产效率从“量变到质变”，实现跨越式发展和新质生产力跃升，如何用好AI将成为国家、行业、企业的核心竞争力。华为云昇腾AI云服务03 Sora的出现再次印证Scalinglaw，大模型创新需要澎湃算力支撑 2012年至2023年算力需求翻了数十万倍 SORA所消耗的算力相比 LLM类模型要大数个量级 GPT-4 ChatGPT AlphaGoZero 数十万倍 GPT-3需求增长 AlphaZero NeuralMachine Translation TI7Dota1v1Xception 数千倍差距 VisualizingVGGand Understanding ConvNets DeepSpeech2ResNets Seq2Seq GoogleNet 百倍级 AlexNetAI算力增长感知认知生成 Sora(1minvideo) GPT-4(1000texttokens)LLama-270B(1000texttokens) DiT-XL/2ImageGeneration(512x512pximages) 1025 1e+4 1e+3 1e+2 1e+1 1e+0 1e-1 1e-2 1e-3 1e-4 1023 FLOPS 1021 1019 1017 1015 201220132014201520162017201820192020202120222023 0.0 0.2 0.4 0.6 0.81.0 模型规模及发布时间推理消耗算力对比 Source:FactorialFundsAIinferencecomputecomparison 大模型的爆发引发全球算力需求的指数级增长。2024年基于扩散的视频生成模型Sora的出现，其革命性的视频生成能力，不仅展示了AI在视觉内容创造上的突破，更预示着全球算力需求的新一轮激增。数据显示，过去10年AI算力需求翻了30万倍。而未来10年AI算力将再增长500倍。数据集规模将从目前的一两个T增长到 100T。此外，大模型还需要理解更长的上下文，Token长度将从千级发展到十万级。视频生成类模型的算力消耗相比LLM提升20倍，意味着训练集群规模要扩大一个数量级。万卡训练集群将成为训练下一代生成式模型的必备条件。由于算力规模扩大，算力的调度和管理的难度将大幅提升，需要有一个算力平台可以整合管理，调度，自动故障隔离，checkpointing，自动任务恢复的任务。这些挑战相互影响、环环相扣。针对AI时代的这些挑战，华为云提出了软硬件结合的系统性创新，华为云昇腾AI云服务整合集群算力、计算引擎CANN、AI开发框架MindSpore和ModelArtsAI开发生产线。为大模型的训练，推理，AI应用的开发、运行提供稳定可靠的全栈算力保障。聚焦业务创新，企业需要全栈算力服务聚焦业务创新，企业需要全栈算力服务行业特征工程模型层/ 优化器设计模型架构设计超参定义和范围标定模型微调设计大模型是人类迄今为止最复杂的软件、硬件系统大模型是一个复杂系统工程，大模型开发的每一步都存在着大量的工程化技术挑战。算力系统也并非算力的简单堆积，需要解决诸如低时延数据交换，节点之间均衡计算避免冷热不均，消弭算力堵点。避免出现单点硬件故障导致的全面训练中断、梯度爆炸、算法重训等一系列的问题，是一项复杂的系统工程，需要从算力效率、线性扩展、长效稳定等多个方面进行系统设计。而云化的全栈算力服务由于积累了足够多的模型训练，运维经验，以服务的方式让企业使用到最新的经验，技术成果，避免重复解决问题，让企业得以聚焦创新。大模型不仅需要算法，而且需要数据处理，压缩/转换优化/部署 2.模型设计 6.集成 API开放防攻击/ 故障隔离 5.推理部署三.推理部署&集成在线离线推理推理量化蒸馏转剪换枝应用发布业务规划二.算力准备&模型训练 3.算力准备 &系统调优 4.大规模训练&微调计算平台系统设计模型预训练代码模型调试训练 AI集群平台建设下游任务微调系统调试与上线代码模型调试微调软硬件优化、模型开发、应用创新、推理部署的系统工程能力 —.数据&模型准备 1.数据处理公共开放行业私有指令微调数据处理数据处理数据处理 » 参数面无损网络 » 开源数据集选择 » 多种并行策略设计 » 大模型分布式推理切分 » 推理集群设计 » 多级存储优化 » 预训练数据清洗 » 通信链路加速 » 在线推理框架 » 推理集群调度系统 » 计算集群密度设计 » 数据质量测试 » 多任务可视化proﬁling » 模型剪枝和蒸馏技术 » 多应用LoadBalance » 液冷设计 » 稠密稀疏混合架构 » 断点续训设计 » 模型INT量化 » API接口设计 » 多样化算力调度 » RLHF算法设计 » 算子融合调优 » 下游多任务效果测试 » 防攻击设计 » 集群稳定性设计 » RLHF数据集标注 » 多样化算力调度 » 微调算法优化 » 故障恢复和隔离 » …… » …… » 多任务权重融合 » 推理性能调优 » …… » …… » …… AI计算硬件混合云公有云 AI框架MindSpore、TensorFlow、PyTorch...... 异构计算架构芯片使能 AI平台 Standard Lite Edge ModelArts 边缘云专属云通用计算硬件昇腾AI云服务，大模型时代的最佳云化全栈算力服务昇腾AI云服务官网应用场景模型托管模型统一注册管理模型统一训练微调模型统一应用服务 AIGallery 百模千态社区解决方案案例应用示例数据模型昇腾AI云服务：包括云化算力、AI开发生产线ModelArts和AI开发者生态AIGallery。为支持大模型的“百模千态”创新，昇腾AI云服务提供触手可及的澎湃AI算力服务，独有的多级恢复机制和完备的工具链可实现千卡训练连续30天不中断，任务恢复时长小于30分钟，为大模型和AI应用的开发、运行、运维提供最佳算力云底座。 LLM AIGC 自动驾驶内容审核数字人 …… 澎湃算力高效易用集群训练打造百模千态的云网边端芯即开即用全栈平台能力故障自动恢复黑土地算力协同无需自建或改造数据中心无需投资通用AI技术无需担心运维和安全无需担心模型开发应用难无需担心端侧算力瓶颈增量训练大模型需要数百卡算力智能应用开发需要数十卡算力 offering »提供开箱即用的开源大模型，支持微调，快速上手 »提供端到端应用开发工具链、向量数据库等 »提供丰富的预制应用模板拥有较深的行业理解 offering »提供主流三方大模型 »提供完善的SFT训练框架 »提供参考案例 »提供易用的大模型应用开发工具链拥有较强行业背景和大量行业数据自研大模型需要数千卡算力 offering »提供大规模算力集群 »提供分布式加速库 »提供大模型适配和优化 »技术栈开放，高度自主可控拥有超级APP 满足多样化算力使用模式满足多样化算力管理模式 AI开发生产线ModelArts，是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。为满足客户多样化的算力管理模式，ModelArts提供Standard和Lite两种模式。ModelArtsStandard包含端到端的AI开发生产线+算力持续运维平台。ModelArtsLite仅包含算力持续运维平台。 ModelArtsStandard 一站式AI开发平台 TensorFlow/Pytroch 等第三方框架 ModelArtsLite ModelArtsStandard服务的介绍端到端生产工具链，一致性开发体验昇腾工具链 SDK|CLI IDE插件 Codelab »线上线下协同开发，开发训练一体化架构，支持大模型分布式部署及推理数据管理模型开发训练任务推理服务 AI工程化能力，支持AI全流程生命周期管理 »支持MLOps能力，提供数据诊断、模型监测等分析能力，训练智能日志分析与诊断 »提供端到端的AI开发生产线+算力持续运维平台容错能力强，故障恢复快 »故障检测覆盖度95%，故障30分钟内恢复，恢复成功率大于95%，保障千卡作业稳定训练数周以上，训练有效卡时大于95% ModelArtsLite 资源访问方式 Kubernetes/SSH/API AI加速资源调度 Kubernetes 专属集群 ElasticCluster(原生接口) 虚拟机/ElasticServer 裸金属(原生算力) 集群管理门户故障告警权限运营管理管理管理管理管理 AI算力数据加速训练加速推理加速 ModelArtsLite服务的介绍零改造迁移 »提供业界通用的k8s接口使用资源，业务跨云迁移无压力 »SSH直达节点和容器，一致体验多种资源形态 »集群模式，开箱即提供好Kubernetes集

点击免费查看完整报告