万卡级超大规模智算集群网络运维挑战及实践 鲍中帅 科大讯飞·基础架构网络总监 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 鲍中帅 基础架构网络总监 12年从业经验,擅长大规模网络架构设计及运维 业内第一个超大规模国产万卡智算集群网络架构师 亚太地区领先的人工智能企业数据中心网络部门负责人 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 大模型发展及国产化集群介绍 目录 万卡智算集群运维关键痛点 万卡智算集群运维创新实践 01大模型发展及国产化集群介绍 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 认知大模型的“智能涌现”推动了通用人工智能的技术阶跃 2022年11月30日 ChatGPT正式发布上线2个月活跃用户过亿 2023年3月15日发布GPT-4 11月7日发布GPT-4Turbo当前用户量突破17亿 2023年10月 Gartner发布2024年十大战略技术趋势,到2026年将有超过80%企业使用通用人工智能 2023年4月28日 中共中央政治局会议提出要重视通用人工智能发展 2024年3月 《政府工作报告》:深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 2023年12月11-12日中央经济工作会议强调: 要大力推进新型工业化,发展数字经济,加快推动人工智能发展 国际大模型产业竞争目前呈现“激烈迅猛”之势 14日OpenAI发布多模态大模型GPT-4,综合能力远超ChatGPT OpenAI OpenAI7日凌晨发布GPT-4Turbo,六大升级,支持128k上下文输入,同时推出OpenAI应用商店GPTStore Google发布了新一代多模态大模型Gemini1.5Pro,最高支持1000万上下文长度,GSM8K评测全球第一 3月5日发布Claude3支持200k上下文,更强的推理、数学、编码能力 Anthropic 2023.05 2023.12 2024.2.16 2023.03 Meta 重磅发布LIMA65B并于7月19日发布免费商用开源模型LIama2 OpenAI 16日发布的文生视频模型,其效果显著超越了业界现有同类产品的水平 2023.112024.2.15 Google 首次发布Gemini1.0,多模态能力效果惊艳,MMLU测试中首次超过人类专家 2024.3.5 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 科大讯飞坚定投入和深度参与国产AI芯片软件生态建设 科大讯飞自2019年10月被美国纳入实体清单以来,与华为等国产优秀AI芯片合作伙伴深度协同攻关加速国产AI芯片软件生态建设,AI国产化取得重要进展,为突破美国大模型算力卡脖子奠定基础 模型试测 缺失算子补充 低效算子优化 深度学习框架 适配 算法工具包 联调优化 基础算子库和 工具链 语音输入等不定长算子 加速 异构国产算力调度 和框架适配 面向异构NPU的推理 加速 5款+国产GPU芯片适配 200个+底层算子优化 50个+模型国产化移植 建成5个国产化云服务集群 20亿次/日服务请求 47%全网请求占比 99.99%云端实时成功率 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 国际领先的星火图文识别大模型 复杂版面的高精度解析 覆盖31个场景、18类关键要素 融合篇章语义的文字识别 基于篇章上下文端到端建模 覆盖更多领域的专业符号识别 面向教育、医疗等专业领域深度优化 89% 84% 83% 83% FUNSD 星火图文识别大模型讯飞基线微软Google 94% 95% 91% 91% 93% 92% 91% 91% 88% 90% 88% 85% 科研 星火图文识别大模型 金融 讯飞基线 GPT-4V 产品文档 国内最优 英文公开测试集图文识别效果典型应用场景图文识别效果 测试结果来源:根据英文公开测试集FUNSD测试结果来源:根据图文识别实际应用场景构建测试集STDOCR-EVAL-V1.0 赋能“1+N”认知智能大模型业务产出 业务情况 集群算力资源利用率 业务价值 教办汽医… 育公车疗 算力资源利用率95.7% 1个通用认知智能大模型 5分钟完成千卡诊断 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02万卡智算集群运维关键痛点 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 万卡算力集群,系统复杂、规模大、层次多 万卡算力集群组网拓扑万卡算力集群设备概况 10000+张 计算加速卡 500+台 交换机设备 30+台 存储设备 30000+根 光纤 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 丢包率对于训练效率的影响 350.0080.00% 300.00 70.59% 68.67% 250.00 57.19% 200.00 150.00 100.00 50.00 30.00% 20.00% 21.5122.11 26.55 4.79% 0.00 10.00% 0.00% 1.00E-050.01%0.10%1% 训练时间(天) GPU利用率 15 30.00% 10 20.00% 5 10.00% 0 0.00% 超大规模集群故障原因分布 RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显 动态时延提升将导致GPU利用率明显下降,AI训练应用的优化、网络拓扑配置以及拥塞控制机制是关键因素 在超大规模集群中,34%的故障是由网络引起,其中光模块问题最为突出 不同动态时延对训练效率的影响 4080.00% 70.79%69.88% 66.09% 33.86 70.00% 61.90% 58.28% 26.082574.943% 60.00% 50.00% 21.4 4 21.73 22.97 24.53 44.84% 40.00% 101005001000150020004000 训练时间(天) GPU利用率 316.7670.00% 35 60.00% 30 50.00% 25 40.00% 20 不同于通算,大模型训练任务对于网络要求苛刻34%的训练中断是由网络引起 联合创新光模块故障预测及分析方法,任务影响环比下降约70% 1初筛 光模块数据 2时序异常特征检测 特征工程异常特征挖掘 情境场景 3故障模式识别 方案光模块指标 流程 全量过滤 阈值法初筛 亚健康监控 (小时级) 光模块指标信息到空域、谱域等特征空间提取滞后性 针对时间维度的故障时序特征进行检测与识别 信息: (1)两侧设备人为动作感知,如接口上下电|新插入模块 (2)接口syslog,如OpticalRemoveActivate等 日志信息 宏观时序动态特征 微观通道差异特征 故障模式识别 识别到功率到-40、不符合阈值故障模式特征 光功率恒定-40 识别结果 未达阈值 恒定-3dbm左右存在差异 算法识别到分布差异、但暂未判定为故障 1、千卡集群运维情况稳定,算法未上报光功率异常伴随的模块故障模式 2、光功率阈值法共初筛出两种类型时序异常特征:其一:恒定-40dbm的光模块持续down状态,不符合脏污松动特征: 其二:不同通道光功率存在明显差异,属于现网稳定态下需要关注的时序特征 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 10.254.11.193|400GE1/0/24 10.254.11.194|400GE4/0/28 03万卡集群运维创新实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 算力集群稳定运行,持续提升有效训练时长 能力要求 长稳训练 变更动网 故障处理 风险预防 需求 断点续训持续增强 黄金指标 升级效率提升 跨层跨域快速定界定位 故障快速恢复 NPU、光模块快速更换 训练集群性能抖动定位 光链路闪断问题检测 算力集群训前健康检查 深度巡检 光链路闪断 HBMECC问题 无故障预测能力 痛点 NPU更换复杂 升级部件多、时间长 自动化、工具化诊断能力弱 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 算力集群由“建好”到“用好”,结合指标定义,实现持续“提升可训练时长” 框架体系 故障因子 指标定义 体系标准 通过明确的指标和评价方法,从多个维度和角度来观察和分析算力领域的各个因素,全面了解和评估算力领域的运维状况。 通过业界的洞察,明确影响训练中断的故障因子,为持续提升训练任务时长做准确输入 围绕训练作业流,通过对各个节点进行量化,构建指标树和度量模型,为制定相应的措施提供依据。 通过建立一套算力度量指标体系标准,综合考虑训练平台、软件、算力集群、基础设施等因素,为算力规划和发展提供科学依据。 智算运维评价指标体系 基于全系统可靠性理论,制定智算集群可靠性保障指标体系 集群全系统可靠性理论算力集群可用率评估:高效长稳,千卡训练,?天训练不“中断” 系统可靠性指标 定义集群可靠性,形成服务可承诺指标 稳定 系统建模 科学建立网络-协议-调度-训练 的系统关系,指导定位分析 业务保活 基于目标,建立快速恢复保活 机制,业务影响为“0” •“故障注入”,软硬件故障注入,模拟测试网络内部各类训练任务的稳定性 •Fullmesh全链路探测,问题诊断与发现 •通信故障,快速路径选择与调整,避免二次拥塞等 •设备故障,最小冗余下业务保活 •Checkpoint断点重训 算力集群业务保活 算力集群隐患预估 •稳定网络结构设计,应对网络瘫痪、死锁、拥塞等问题 •消息聚合/网络流量优化,减少跨机箱传输,高效的带宽利用 重新定义,科学建立AI集群可靠性模型 网络拓扑、路由策略、流的调度等 单机多卡万卡集群,系统级可靠性“断崖式”降低 硬件/软件/算子/通信…,持续不断的集群稳定性问题 •通信异常导致任务中断,网卡故障,训练过程中网络超时报错 •npu异常告警,任务运行19小时后,节点故障,中断报错 •npu故障导致作业无法下发 单机多卡 千卡集群 •光模块端口故障,任务运行中断 假设单卡可靠性99.99%,10K+的集群,近10W+光模块,上千 万算子,上百套软件适配, •超算局点没有更新,发包更新后问题修复 𝟗𝟗.𝟗𝟗%𝟏𝟎#=𝟑𝟔.𝟕% •….. 模型训练中断=经济损失 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 当前运维痛点 智算集群运维痛点多样化,组织、流程和工具均须突破 AI训练要求故障快速恢复算力集群故障,会导致模型重训或断点续训,需要快速恢复故障 跨层跨产品问题难定位 大规模计算/存储/网络设备,集群组网,跨产品难以定位;海量光纤/模块问题难排查 运维技能和人力问题算力集群运维难度大,人员技能要求高,人力不足 指标体系和工具面临重构责任分工界面、指标体系需重新梳理,支撑全新AI训练需求和挑战 运维体系对智算的适配面向AI业务的服务SLA/KPI考核组织定位与分工协同 运维流程适配工具平台重构 运维体系建设举措 事前、事中、事后运维 故障定界定位问题管理变更管理 巡检与主动维护 能力建设 能力导入/技术培训具有技能的人力补充工具平台能力补齐运维基线构建 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 组织流程变革,构建符合智算特点的融合型团队 运维流程融合、问题工单直达原厂 原厂三线直达&VIPTAC增