行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

黄坚：大规模智算集群的管理与性能调优实践

信息技术 2024-09-30 中国电信娱乐而已

大规模智算集群的痛点问题与运维管理方案

大规模智算集群的痛点问题

大模型分布式训练特点：计算密度大、显存要求高、通信占比大。
算力标准化程度高。
智算集群工程化交付挑战：
- 挑战1：智算业务与底层算力高耦合。
- 挑战2：故障发现及性能调优无法依托单一指标。
- 挑战3：百万器件管理复杂度高。

运维及管理实战思路和方案

集群性能管理：
- 单机配置正确性检查：CUDA/CANN版本、NCCL/HCCL版本、pytorch版本、加速卡驱动、网卡驱动等。
- 集群软硬件一致性：加速卡驱动、网卡驱动、内核版本、操作系统、CPU配置、内存配置等。
- 健康检查：加速卡健康检查、HBM健康检查、RDMA端口状态、网络连通性等。
集群稳定性保障：
- 算力网络拓扑展示：训练任务告警拓扑、服务器/交换机告警染色。
- 训中观测-核心指标解析：power_usage、gpu_utilization、sm_active、tensor_active、fp64_active、fp32_active、fp16_active等。
- 多维度性能基线：集合通讯基线、模型训练基线、RDMA网络吞吐基线。
智算工程关注点：
- 数万卡集群的算力加速。
- 百万级元器件的故障快速恢复。

云骁智算平台及落地实践

云骁智算平台能力：集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力于一体，提供高性能算力底座、计算加速、故障诊断等服务。
集群稳定性保障：提供集群管理功能，确保稳定性。
国产化之路：覆盖算力、存储、网络、平台各层次，可支撑大模型训练推理的全国产智算基础设施平台，国内最早提供大模型训练用昇腾算力的云服务商。
智算工程关注点：数万卡集群的算力加速、百万级元器件的故障快速恢复。

智算平台未来展望

未在原文中详细展开，但可推测未来将进一步提升算力管理效率和故障恢复能力。

天翼云云网产品事业部研发专家黄坚演讲嘉宾介绍黄坚天翼云研发专家研发方向：云原生、AI算力基础设施重点关注：•AI智算平台研发工作 •大规模智算集群的性能诊断和调优•国产算力生态适配目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望大模型分布式训练模型并行大模型分布式训练 •计算密度大•显存要求高•通信占比大算力标准化程度非常高智算集群工程化交付大集群等于大算力？最大程度发挥算力的挑战 •挑战1：智算业务与底层算力高耦合•挑战2：故障发现及性能调优，无法依托单一指标•挑战3：百万器件管理复杂度高目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望集群性能-单机配置正确性检查 •CUDA/CANN版本•NCCL/HCCL版本•pytorch版本•transformer版本•deepspeed版本•megatron版本 •加速卡驱动•网卡驱动•nvidia-fabric-manager•nvidia_peermem•GPU拓扑•GPU主频•PM模式集群性能-集群软硬件一致性 •加速卡驱动•网卡驱动•内核版本•操作系统•CPU配置•内存配置 •RDMA网卡配置•RDMA网卡命名•业务面网卡•服务器存储挂载点•CUDA/CANN版本集群性能-健康检查 •加速卡健康检查•HBM健康检查•加速卡残留进程•RDMA端口状态•RDMA网络连通性•leaf-spine网络链路闪断 •根目录可用量•容器空间容量•防火墙状态•CPU健康检查•内存容量检测•业务网口状态检查集群稳定性-算力网络拓扑展示训练任务的告警拓扑展示随时了解训练任务的健康状态服务器、交换机的告警染色的拓扑形态呈现随时随地了解智算集群健康状态训中观测-核心指标解析 •power_usage：GPU是否忙？•gpu_ulitization：有任务占用，粗粒度•sm_active: GPU真正工作•tensor_active：tensor core工作情况•fp64_active：fp64工作情况•fp32_active：fp32工作情况•fp16_active：fp16工作情况多维度性能基线丈量开源大模型不同算力的性能表现 •集合通讯基线模型训练基线加速卡- IB网卡-切分方式-集群规模 •RDMA网络吞吐基线目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望云骁智算平台集“异构计算+高速存储+无损网络+算力加速+高效运营”五大能力一体的计算加速平台，提供高性能算力底座、计算加速、故障诊断等服务集群管理云骁智算平台-集群稳定性保障国产化之路覆盖算力、存储、网络、平台各层次，可支撑大模型训练推理的全国产智算基础设施平台，国内最早提供大模型训练用昇腾算力的云服务商目录 •大规模智算集群的痛点问题•运维及管理实战思路和方案•云骁智算平台及落地实践•智算平台未来展望智算工程关注点 数万卡集群的算力加速百万级元器件的故障快速恢复国云注智智算升级

点击免费查看完整报告

黄坚：大规模智算集群的管理与性能调优实践

大规模智算集群的痛点问题与运维管理方案

大规模智算集群的痛点问题

运维及管理实战思路和方案

云骁智算平台及落地实践

智算平台未来展望

你可能感兴趣

1-2 基于历史查询的 Impala 集群性能优化实践

大规模服务器集群的线上质量运营实践

美团大规模k8s集群的成本和服务质量优化——美团容器平台降本运营落地实践

面向大规模智算集群场景光互连技术白皮书（2025年）

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入

邓宇星-v2-SUSE-海量K8S集群的应用部署和管理实践

字节跳动基于KubeAdmiral的分布式云原生多云多集群管理技术实践

2023智算时代的容器技术演进与实践报告

大模型场景下智算平台的设计与优化实践

黄蕴思-广东移动 AIOps 的中台化探索与实践转型

黄坚：大规模智算集群的管理与性能调优实践

你可能感兴趣

1-2 基于历史查询的 Impala 集群性能优化实践

大规模服务器集群的线上质量运营实践

美团 大规模k8s集群的成本和服务质量优化——美团容器平台降本运营落地实践

面向大规模智算集群场景光互连技术白皮书（2025年）

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入

邓宇星-v2-SUSE-海量K8S集群的应用部署和管理实践

字节跳动基于KubeAdmiral的分布式云原生多云多集群管理技术实践

2023智算时代的容器技术演进与实践报告

大模型场景下智算平台的设计与优化实践

黄蕴思-广东移动 AIOps 的中台化探索与实践转型

美团大规模k8s集群的成本和服务质量优化——美团容器平台降本运营落地实践