大规模智算集群的管理与性能调优实践 天翼云云网产品事业部研发专家黄坚 演讲嘉宾介绍 黄坚天翼云研发专家 研发方向:云原生、AI算力基础设施 重点关注: •AI智算平台研发工作 •大规模智算集群的性能诊断和调优 •国产算力生态适配 目录 •大规模智算集群的痛点问题 •运维及管理实战思路和方案 •云骁智算平台及落地实践 •智算平台未来展望 目录 •大规模智算集群的痛点问题 •运维及管理实战思路和方案 •云骁智算平台及落地实践 •智算平台未来展望 大模型分布式训练 模型并行 Ref:Megatron-LM:TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism 大模型分布式训练 流水线并行 •计算密度大 •显存要求高 •通信占比大 算力标准化程度非常高 模型并行 数据并行 智算集群工程化交付 1 LLD设计 2 安装与初始化 3 部署调测 4 集群验证 5 集群优化 6 验收整改 2.15压测报告解读 3.15OS配置项检查 需特别关注点 3.16线缆检查 关键节点 难点 大规模智算交付:6阶58步 1.1设计文档获取 2.1设备安装与上架 3.1管理交换机配置 4.1配置检查 5.1物理链路检查 6.1表格准备 1.2IP资源获取 2.2保压测试 3.2NPUOS安装 4.2单机综合测试 5.2性能瓶颈分析 6.2测试报告准备 1.3初始化要求获取 2.3设备上电 3.3网卡驱动安装 4.3综合测试项整改 5.3网络参数调整优化 6.3表格导入云调系统 1.4集成规范解读 2.4配置项梳理 3.4Raid卡驱动升级 4.4单机模型训练测试 6.4自动化预验收 1.5集成方案输出 2.5固件升级 3.5业务交换机配置 4.5集合通信测试 6.5自动验收项整改 1.6LLD输出 2.6BIOS配置 3.6ROCE交换机配置 4.6集群模型训练测试 6.6自动验收通过 2.7BMC配置 3.7交换机配置校验 6.7专业组验收 2.8BIOS配置项检查 3.8普通网卡配置 6.8专业组验收项整改 2.9BIOS密码配置 3.9NPU软件栈安装 6.9云调结单 2.10厂商名检查 3.10NPU网络配置 6.10软集验收组验收 2.11设备型号名检查 3.11DPUrshim安装 6.11软集问题整改 2.12序列号收集 3.12DPU网络配置 6.12软集完成 2.13压测环境搭建 3.13HPFSOS安装 2.14硬件压测 3.14磁盘阵列配置 大集群等于大算力? 智算中心 AI算力3000P+ MTBF 平均任务稳定运行时长低 MTTR 故障恢复时间相对长 根个 光纤光模块 张AI加速卡 台 AI服务器 台网络交换机 台存储服务器 最大程度发挥算力的挑战 •挑战1:智算业务与底层算力高耦合 •挑战2:故障发现及性能调优,无法依托单一指标 •挑战3:百万器件管理复杂度高 目录 •大规模智算集群的痛点问题 •运维及管理实战思路和方案 •云骁智算平台及落地实践 •智算平台未来展望 集群性能-单机配置正确性检查 •加速卡驱动 •网卡驱动 •nvidia-fabric-manager •nvidia_peermem •GPU拓扑 •GPU主频 •PM模式 •CUDA/CANN版本 •NCCL/HCCL版本 •pytorch版本 •transformer版本 •deepspeed版本 •megatron版本 集群性能-集群软硬件一致性 •加速卡驱动 •网卡驱动 •内核版本 •操作系统 •CPU配置 •内存配置 •RDMA网卡配置 •RDMA网卡命名 •业务面网卡 •服务器存储挂载点 •CUDA/CANN版本 集群性能-健康检查 解决硬件异常问题 •加速卡健康检查 •HBM健康检查 •加速卡残留进程 •RDMA端口状态 •RDMA网络连通性 •leaf-spine网络链路闪断 •根目录可用量 •容器空间容量 •防火墙状态 •CPU健康检查 •内存容量检测 •业务网口状态检查 集群稳定性-算力网络拓扑展示 训练任务的告警拓扑展示 随时了解训练任务的健康状态 服务器、交换机的告警染色的拓扑形态呈现随时随地了解智算集群健康状态 交换机 交换机 裸金属 训中观测-核心指标解析 •power_usage:GPU是否忙? •gpu_ulitization:有任务占用,粗粒度 •sm_active:GPU真正工作 •tensor_active:tensorcore工作情况 •fp64_active:fp64工作情况 •fp32_active:fp32工作情况 •fp16_active:fp16工作情况 多维度性能基线 •集合通讯基线 •RDMA网络吞吐基线 •加速卡算力 丈量开源大模型不同算力的性能表现 模型训练基线 加速卡-IB网卡-切分方式-集群规模 目录 •大规模智算集群的痛点问题 •运维及管理实战思路和方案 •云骁智算平台及落地实践 •智算平台未来展望 云骁智算平台 集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力一体的计算加速平台,提供高性 能算力底座、计算加速、故障诊断等服务 集群管理 算力加速 故障诊断 云骁-计算加速平台 异构计算 高性能存储 高性能网络 高性能算力底座 智算数据中心AIDC 云骁智算平台-集群稳定性保障 核心指标全覆盖软硬件故障全面分析诊断 多维度综合测速,丈量算力输出 可配置的集群级运维 国产化之路 覆盖算力、存储、网络、平台各层次,可支撑大模型训练推理的全国产智算基础设施平台,国内最早提供大模型训练用昇腾算力的云服务商 •自研TeleCloudOS完全替代openStack •具备一云多芯超大规模信创资源池管理和智能调度能力 •基于国产GPU实现智算训练、推理服务能力和超算能力 •自研RDMA网络和存储技术,打造高性能的信创算力底座 •性能深度优化,SPECCloud性能测试中多项指标测评分数全球领先 •自研分布式存储引擎LAVA,替代开源Ceph存储;推出新一代云硬盘XSSD,提供百万IOPS、小于100微秒时延 目录 •大规模智算集群的痛点问题 •运维及管理实战思路和方案 •云骁智算平台及落地实践 •智算平台未来展望 智算工程关注点 性能与稳定 数万卡集群的算力加速 百万级元器件的故障快速恢复 开箱即用 数百项的基础组件的自动化交付 降低训练、推理工具使用门槛 国产化 非CUDA生态的技术路线演进 大模型训推最佳实践 国云注智智算升级