您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[GOPS]:万卡级超大规模智算集群网络运维挑战及实战 - 发现报告
当前位置:首页/行业研究/报告详情/

万卡级超大规模智算集群网络运维挑战及实战

信息技术2024-09-20鲍中帅GOPS�***
AI智能总结
查看更多
万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实践 鲍中帅 科大讯飞·基础架构网络总监 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 鲍中帅 基础架构网络总监 12年从业经验,擅长大规模网络架构设计及运维 业内第一个超大规模国产万卡智算集群网络架构师 亚太地区领先的人工智能企业数据中心网络部门负责人 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 大模型发展及国产化集群介绍 目录 万卡智算集群运维关键痛点 万卡智算集群运维创新实践 01大模型发展及国产化集群介绍 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 认知大模型的“智能涌现”推动了通用人工智能的技术阶跃 2022年11月30日 ChatGPT正式发布上线2个月活跃用户过亿 2023年3月15日发布GPT-4 11月7日发布GPT-4Turbo当前用户量突破17亿 2023年10月 Gartner发布2024年十大战略技术趋势,到2026年将有超过80%企业使用通用人工智能 2023年4月28日 中共中央政治局会议提出要重视通用人工智能发展 2024年3月 《政府工作报告》:深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 2023年12月11-12日中央经济工作会议强调: 要大力推进新型工业化,发展数字经济,加快推动人工智能发展 国际大模型产业竞争目前呈现“激烈迅猛”之势 14日OpenAI发布多模态大模型GPT-4,综合能力远超ChatGPT OpenAI OpenAI7日凌晨发布GPT-4Turbo,六大升级,支持128k上下文输入,同时推出OpenAI应用商店GPTStore Google发布了新一代多模态大模型Gemini1.5Pro,最高支持1000万上下文长度,GSM8K评测全球第一 3月5日发布Claude3支持200k上下文,更强的推理、数学、编码能力 Anthropic 2023.05 2023.12 2024.2.16 2023.03 Meta 重磅发布LIMA65B并于7月19日发布免费商用开源模型LIama2 OpenAI 16日发布的文生视频模型,其效果显著超越了业界现有同类产品的水平 2023.112024.2.15 Google 首次发布Gemini1.0,多模态能力效果惊艳,MMLU测试中首次超过人类专家 2024.3.5 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 科大讯飞坚定投入和深度参与国产AI芯片软件生态建设 科大讯飞自2019年10月被美国纳入实体清单以来,与华为等国产优秀AI芯片合作伙伴深度协同攻关加速国产AI芯片软件生态建设,AI国产化取得重要进展,为突破美国大模型算力卡脖子奠定基础 模型试测 缺失算子补充 低效算子优化 深度学习框架 适配 算法工具包 联调优化 基础算子库和 工具链 语音输入等不定长算子 加速 异构国产算力调度 和框架适配 面向异构NPU的推理 加速 5款+国产GPU芯片适配 200个+底层算子优化 50个+模型国产化移植 建成5个国产化云服务集群 20亿次/日服务请求 47%全网请求占比 99.99%云端实时成功率 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 国际领先的星火图文识别大模型 复杂版面的高精度解析 覆盖31个场景、18类关键要素 融合篇章语义的文字识别 基于篇章上下文端到端建模 覆盖更多领域的专业符号识别 面向教育、医疗等专业领域深度优化 89% 84% 83% 83% FUNSD 星火图文识别大模型讯飞基线微软Google 94% 95% 91% 91% 93% 92% 91% 91% 88% 90% 88% 85% 科研 星火图文识别大模型 金融 讯飞基线 GPT-4V 产品文档 国内最优 英文公开测试集图文识别效果典型应用场景图文识别效果 测试结果来源:根据英文公开测试集FUNSD测试结果来源:根据图文识别实际应用场景构建测试集STDOCR-EVAL-V1.0 赋能“1+N”认知智能大模型业务产出 业务情况 集群算力资源利用率 业务价值 教办汽医… 育公车疗 算力资源利用率95.7% 1个通用认知智能大模型 5分钟完成千卡诊断 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02万卡智算集群运维关键痛点 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 万卡算力集群,系统复杂、规模大、层次多 万卡算力集群组网拓扑万卡算力集群设备概况 10000+张 计算加速卡 500+台 交换机设备 30+台 存储设备 30000+根 光纤 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 丢包率对于训练效率的影响 350.0080.00% 300.00 70.59% 68.67% 250.00 57.19% 200.00 150.00 100.00 50.00 30.00% 20.00% 21.5122.11 26.55 4.79% 0.00 10.00% 0.00% 1.00E-050.01%0.10%1% 训练时间(天) GPU利用率 15 30.00% 10 20.00% 5 10.00% 0 0.00% 超大规模集群故障原因分布 RDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显 动态时延提升将导致GPU利用率明显下降,AI训练应用的优化、网络拓扑配置以及拥塞控制机制是关键因素 在超大规模集群中,34%的故障是由网络引起,其中光模块问题最为突出 不同动态时延对训练效率的影响 4080.00% 70.79%69.88% 66.09% 33.86 70.00% 61.90% 58.28% 26.082574.943% 60.00% 50.00% 21.4 4 21.73 22.97 24.53 44.84% 40.00% 101005001000150020004000 训练时间(天) GPU利用率 316.7670.00% 35 60.00% 30 50.00% 25 40.00% 20 不同于通算,大模型训练任务对于网络要求苛刻34%的训练中断是由网络引起 联合创新光模块故障预测及分析方法,任务影响环比下降约70% 1初筛 光模块数据 2时序异常特征检测 特征工程异常特征挖掘 情境场景 3故障模式识别 方案光模块指标 流程 全量过滤 阈值法初筛 亚健康监控 (小时级) 光模块指标信息到空域、谱域等特征空间提取滞后性 针对时间维度的故障时序特征进行检测与识别 信息: (1)两侧设备人为动作感知,如接口上下电|新插入模块 (2)接口syslog,如OpticalRemoveActivate等 日志信息 宏观时序动态特征 微观通道差异特征 故障模式识别 识别到功率到-40、不符合阈值故障模式特征 光功率恒定-40 识别结果 未达阈值 恒定-3dbm左右存在差异 算法识别到分布差异、但暂未判定为故障 1、千卡集群运维情况稳定,算法未上报光功率异常伴随的模块故障模式 2、光功率阈值法共初筛出两种类型时序异常特征:其一:恒定-40dbm的光模块持续down状态,不符合脏污松动特征: 其二:不同通道光功率存在明显差异,属于现网稳定态下需要关注的时序特征 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 10.254.11.193|400GE1/0/24 10.254.11.194|400GE4/0/28 03万卡集群运维创新实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 算力集群稳定运行,持续提升有效训练时长 能力要求 长稳训练 变更动网 故障处理 风险预防 需求 断点续训持续增强 黄金指标 升级效率提升 跨层跨域快速定界定位 故障快速恢复 NPU、光模块快速更换 训练集群性能抖动定位 光链路闪断问题检测 算力集群训前健康检查 深度巡检 光链路闪断 HBMECC问题 无故障预测能力 痛点 NPU更换复杂 升级部件多、时间长 自动化、工具化诊断能力弱 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 算力集群由“建好”到“用好”,结合指标定义,实现持续“提升可训练时长” 框架体系 故障因子 指标定义 体系标准 通过明确的指标和评价方法,从多个维度和角度来观察和分析算力领域的各个因素,全面了解和评估算力领域的运维状况。 通过业界的洞察,明确影响训练中断的故障因子,为持续提升训练任务时长做准确输入 围绕训练作业流,通过对各个节点进行量化,构建指标树和度量模型,为制定相应的措施提供依据。 通过建立一套算力度量指标体系标准,综合考虑训练平台、软件、算力集群、基础设施等因素,为算力规划和发展提供科学依据。 智算运维评价指标体系 基于全系统可靠性理论,制定智算集群可靠性保障指标体系 集群全系统可靠性理论算力集群可用率评估:高效长稳,千卡训练,?天训练不“中断” 系统可靠性指标 定义集群可靠性,形成服务可承诺指标 稳定 系统建模 科学建立网络-协议-调度-训练 的系统关系,指导定位分析 业务保活 基于目标,建立快速恢复保活 机制,业务影响为“0” •“故障注入”,软硬件故障注入,模拟测试网络内部各类训练任务的稳定性 •Fullmesh全链路探测,问题诊断与发现 •通信故障,快速路径选择与调整,避免二次拥塞等 •设备故障,最小冗余下业务保活 •Checkpoint断点重训 算力集群业务保活 算力集群隐患预估 •稳定网络结构设计,应对网络瘫痪、死锁、拥塞等问题 •消息聚合/网络流量优化,减少跨机箱传输,高效的带宽利用 重新定义,科学建立AI集群可靠性模型 网络拓扑、路由策略、流的调度等 单机多卡万卡集群,系统级可靠性“断崖式”降低 硬件/软件/算子/通信…,持续不断的集群稳定性问题 •通信异常导致任务中断,网卡故障,训练过程中网络超时报错 •npu异常告警,任务运行19小时后,节点故障,中断报错 •npu故障导致作业无法下发 单机多卡 千卡集群 •光模块端口故障,任务运行中断 假设单卡可靠性99.99%,10K+的集群,近10W+光模块,上千 万算子,上百套软件适配, •超算局点没有更新,发包更新后问题修复 𝟗𝟗.𝟗𝟗%𝟏𝟎#=𝟑𝟔.𝟕% •….. 模型训练中断=经济损失 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 当前运维痛点 智算集群运维痛点多样化,组织、流程和工具均须突破 AI训练要求故障快速恢复算力集群故障,会导致模型重训或断点续训,需要快速恢复故障 跨层跨产品问题难定位 大规模计算/存储/网络设备,集群组网,跨产品难以定位;海量光纤/模块问题难排查 运维技能和人力问题算力集群运维难度大,人员技能要求高,人力不足 指标体系和工具面临重构责任分工界面、指标体系需重新梳理,支撑全新AI训练需求和挑战 运维体系对智算的适配面向AI业务的服务SLA/KPI考核组织定位与分工协同 运维流程适配工具平台重构 运维体系建设举措 事前、事中、事后运维 故障定界定位问题管理变更管理 巡检与主动维护 能力建设 能力导入/技术培训具有技能的人力补充工具平台能力补齐运维基线构建 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 组织流程变革,构建符合智算特点的融合型团队 运维流程融合、问题工单直达原厂 原厂三线直达&VIPTAC增