万卡级智算集群网络建设运维及演进 姓名:罗远 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 罗远 科大讯飞股份有限公司 数据中心首席架构师,负责科大讯飞自有数据中心网络设计和架构迭代工作,推动了讯飞数据中心从传统组网架构向云计算时代,再到如今智算网络时代的转型,去年负责并落地了全国产万卡智算集群的网络架构设计和实施运行 大模型基础说明 目录万卡智算集群建设运维分享更大规模智算集群的演进思考 01 大模型基础说明 大模型发展、讯飞星火大模型、大模型介绍、训练集群并行方式 认知智能大模型的技术阶跃 认知大模型的智能涌现,有望让机器真正掌握和运用人类语言和知识, 开启机器自然语言交互式学习的“类人”新范式,点亮通向通用人工智能的星星之火! ChatGPT发布 2个月,月活用户过亿 相比ChatGPTGPT-4进步显著且具备多模态能力 Sora发布,划时代的文本生成视频,深度模拟真实物理世界 2022年11月30日2023年3月15日2024年2月15日 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 讯飞星火大模型 V1.0 2023年5月6日首次发布 七大核心能力发布大模型评测体系发布 V1.5 2023年6月9日 突破开放式问答 多轮对话能力再升级数学能力再升级 V2.0 2023年8月15日 突破代码能力 多模态交互再升级 2023年10月24日 通用模型对标GPT-3.5 (中文超越,英文相当) 2024年1月30日 多项能力大幅提升接近GPT-4Turbo当前水平 V3.5 V4.0 2024年6月27日 全面对标GPT-4Turbo语音、图文识别能力再升级 2024年4月26日 春季上新 首发OCR大模型 长文本能力全新升级 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 人类智慧 多模态智能 运动智能 语言智能 ·语言智能是人类智慧的重要部分,是相互交流和深邃思考的媒介,也是全社会知识财富积累的载体! 认知智能大模型带来智能涌现的意义 认知大模型的智能涌现,有望让机器真正掌握和运用人类语言和知识, 开启机器自然语言交互式学习的“类人”新范式,点亮通向通用人工智能的星星之火! ·推动了机器智能实现范式的再次跃迁,可以“类人”地交流、学习和进步! 自然语言交互式学习 数据训练 专家知识 以语言智能涌现为核心的突破,将推动机器智能进入全新阶段 “大力出奇迹”下的“智能涌现” BeyondtheImitationGame:Quantifyingandextrapolatingthecapabilitiesoflanguagemodels 随着模型尺寸增长,任务效果不会线性增加,必须达到一定临界值时,才会突破。 这类任务通常是那些需要步骤推理、或者逻辑推理的任务。 (单词解读、重复指令、修辞分析等) 随着模型尺寸增长,任务效果线性增加。 这类任务通常是那些需要知识和简单文本操作的任务。 (日期理解、格式规整、单位转换等) 大模型的参数规模会越来越大 OpenAI的GPT系列快速进步 ✦更强的推理能力和更高的准确性 ✦幻觉问题得到显著缓解 ✦个性化和定制化功能方面实现重大更新 ✦更好的多模态模式,具备视频理解与生成能力 ✦能根据文本描述,生成长达60秒的视频 ✦更强大的上下文理解能力 ✦更多赋能开发者 ✦更强大的知识库 ✦增加了多模态语音和图像能力 GPT-4o GPT-4V GPT-4Turbo SORA GPT-3 ChatGPT GPT-4 ✦数据:约是GPT3的3~5倍 ✦模型参数:1750亿 ✦数据:约5000~7000BTokens ✦模型参数:约1.76万亿 ✦算力:至少3000P训练3~6个月 ✦数据:300BTokens ✦模型参数:1750亿 ✦算力:300P训练1个月(A100) ✦算力:约300P训练2个月 模型规模持续增大,模型越大智能化越高, 当前业内向着超大稠密和万亿/十万稀疏模型不断演进 02 万卡智算集群建设运维分享 万卡集群简介、集群光链路问题、集群负载均衡优化、平台工具与体系建设 基础设施的耦合 智算时代,基础设施的耦合度越来越高 算力需求 根据模型和任务估算算力需求机房能力限制算力规模 机房 根据所有设备估算机房承重、制冷、电力需求以 及桥架等机房设施 基础设施 计算、存储 根据算力需求,结合所采用的计算卡,推算计算和存储的规模 网络 综合算力、计算、存储相关需求制定网络架构 需求衔接层层相扣,一环变更,环环变更 万卡算力集群的关注点 10000+张 500+台 交换机设备 1.光连接稳定性2.负载均衡优化3.故障定位效率 30+台 存储设备 30000+根 光纤 广泛部署的胖树拓扑 模型预训练对延时不敏感 二层(盒>框)>三层(盒>框) Introducingdatacenterfabric,thenext-generationFacebookdatacenternetwork 二层三层 PP 200Gb/s -1Server-5Server-9Server-13 200Gb 400GB 400GB 预训练中的并行方式 400Gb 200Gb 200Gb PP 200Gb/s TP TP Server Server-1 Server-5 Server-9 Server-13 leaf leaf leaf leaf Spine Spine DP 三种并行通信模式中,两种依赖网络互联 并行方式 模型张量并行(TP) 模型流水线并行(PP) 数据并行 (DP) 特征 通信量巨大,通信时间不可掩盖 通信量较大(模型相关),通信时间不可掩盖/流水可掩盖 通信量大 通信时间计算可大部分掩盖 对通信的需求 节点内 allreduce 跨节点P2P 跨节点 allreduce 超高带宽 中带宽 高带宽 数据通道 总线400GB 网络 200Gb 网络 200Gb 单轨与多轨 张量并行流水线并行 数据并行 单轨方案对负载均衡要求更高; 采用单轨还是多轨,是由算力卡决定; 光连接稳定性 万卡集群故障分析Llama3故障根因 机房防尘等级 人员操作规范 万卡集群自交付起的163天的故障统计。算力平台相关问题多种类型,复杂多样。 光纤模块清洁硬件设备设计 Root-causecategorizationofunexpectedinterruptionsduringa54-dayperiodofLlama3405Bpre-training. 增单强击型此的处哈编希辑算标法题和03 ECMP 单击静此态处路编径辑绑标定题05 06单算击网此一处体编化辑调标度题 04单击信此元处交编换辑方标式题 多种负载均衡方式 数单据击此处编的辑按标包题01 负载方式 02单击自此适处应编路辑由标题 智算网络场景的流数量少但是流量通常都非常大,是典型的“大象流”,这意味着数据流的五元组呈现的熵值更低。传统的哈希算法仅根据流量五元组计算下一跳,算法因子不考虑流量大小,多路径下一跳负载情况,只和流量五元组有关,在智算网络这种流少带宽大的场景中容易负载不均衡,甚至发生负载均衡极化的现象。 负载均衡 讯飞万卡集群的负载均衡正在从1.0版本的静态路径绑定向算网一体化调度的2.0方案过度。 算网协同一体化调度 传统流转发 流级hash,负载分担不均 2、控制器获取AI任务信息 算网协同联合调度方案 网络控制器 3、控制器集中算路(核心算法) 0、控制器获取网络拓扑 4、控制器下发路径 AI调度平台 训练时间(天) 1、AI任务调度 千卡大模型测试结果 训练时间缩短6天,训练性能提升17% 40 34 28 0 关闭 开启NSLB •千卡大模型未开启NSLB训练时间:34天 •千卡大模型开启NSLB训练时间:28天 step1step2step3 1234567 8 智算集群项目运维难点 跨产品问题难定位 AI算力平台涉及大规模计算、存储、网络设备组网,跨产品难以定位 海量光纤/模块问题难排查 海量光纤、光模块组网复杂,大集群涉及上万根线缆 技术/人力不足 算力集群运维难度大,人员技能要求高 AI训练要求故障快速恢复备件及时到达 算力集群故障,会导致模型重训或断点续训,需要快速恢复故障 维保服务 7*10*ND备件(含介质保留),现场更换 软件升级授权,在线技术支持 统一运维平台 健康检查、跨层故障诊断 全栈光模块监控、参数面拓扑可视、基于任务/卡间故障分析 人员补充建设厂商支持 补充数通、计算运维人力不足 提供故障处理、日常配置变更、巡检等支持 技术经理7*24响应支持 免鉴权通道,专属VIPTAC团队 机房环境 跨专业域的任务级运维平台 算存网一体、任务级智算运维平台 作业信息 训练日志 跨域任务级运维平台 AI服务器 训练容器 带内 基础分析能力 带外 专家知识库 网络控制器分析器 BMC带外 日志 硬件监控 告警监控 运维Agent 日志采集 host主机 硬盘/RAID 日志 网卡日志 计算卡日志 系统/驱动日 志 日志清洗 框架日志 日志平台 跨层跨域诊断规则 故障首节点分析 软件栈故障诊断 硬件故障诊断 跨域故障诊断 集群智能故障诊断 南向接入层 任务调度平台 50+智算运维指标 训练任务 软件平台 健康检查覆 盖度 易用度 支持的算力 规模 并行诊断数 诊断时长 诊断覆盖率 诊断准确率 可用度 任务失败率 取消任务数 排队中任务 数 失败任务数 成功任务数 运行中任务 数 任务中断次 数 任务执行时 长 任务劣化感知、故障定位效率缩短至分钟级 任务范围界 定 日志一键收 集 服务器 端口当前利 用率 端口平均利 用率 端口利用率 峰值 异常服务器 数量 发送/接收带 宽TOP5 服务器功耗 TOP5 HBM多比特 隔离分页数 数据盘水位 系统盘水位 NPU显存利 用率 NPU总数.温 度/功耗 CPU总数/利 用率 网络 协议 时延 光模块监控 接口监控 存储 任务级别 IOPS 连接的客户 端总数 集群使用带 宽 元数据数量/ 文件数 已用/空闲/ 总容量 服务器数 集群读写 IOPS 监控 日志 交换机 硬件诊断规 则 软件诊断规 则 组织流程变革,构建符合智算特点的融合型团队 运维流程融合、问题工单直达原厂 原厂三线直达&VIPTAC增强 客户运维团队/驻场工程 师 技术服务请求发起 备件管理及更 换技术 服务请求关闭 故 专属障 专家通告及 提问题 CSM单 VIPTAC R&D 现场支撑 VIP受理 (优先接入,专属团队) 增强点 制定方案 资源协调WarRoom 协助支撑 跟踪或加速 增强点 支持实施 问题分析报告 确认解决 (高频、共性问题分析) 增强点 联合二线运维:与原厂驻场保障团队协同, 1包括故障、问题、变更、重客保障、技能传递,保障断点续训等业务问题快速解决 2 流程增强点 原厂三线直达接入:专属技术团队VIP受理&处理问题,并提供重点问题分析报告 备件管理服务:AI精准预测与补库,小时 3级派送<=4H,7*24响应,专业人员进行现场备件更换,保障备件快速响应 故障处理知识沉淀 涉及计算、网络和存储三个产品,共计398个故障场景指导 •内存故障 •硬盘故障 •电源故障 •NPU故障 •光模块故障 •性能降低 •分布式训练故障 •…… •丢包故障 •PFC死锁故障 •主控板故障 •接口板故障 •交换网板故障 •端口流量异常 •光模块故障 •…… •主存硬盘故常故障 •BBU模块故障 •风扇模块故障 •接口卡/光模块故障 •节点故障 •…… 建设运维知识库 46个深化设计文档、验收测试报告、维护指导、产品技术文档等; 赋能、建设及沉淀,提升团队面对智算领域的运维能力 培训赋能