AI智能总结
姓名:罗远 个人简介 罗 远 科 大 讯 飞 股 份 有 限 公 司 数据中心首席架构师,负责科大讯飞自有数据中心网络设计和架构迭代工作,推动了讯飞数据中心从传统组网架构向云计算时代,再到如今智算网络时代的转型,去年负责并落地了全国产万卡智算集群的网络架构设计和实施运行 大模型基础说明 目录 万卡智算集群建设运维分享 更大规模智算集群的演进思考 大模型基础说明 大模型发展、讯飞星火大模型、大模型介绍、训练集群并行方式 认知智能大模型的技术阶跃 认知大模型的智能涌现,有望让机器真正掌握和运用人类语言和知识,开启机器自然语言交互式学习的“类人”新范式,点亮通向通用人工智能的星星之火! Sora发布,划时代的文本生成视频,深度模拟真实物理世界 ChatGPT发布2个月,月活用户过亿 相比ChatGPTGPT-4进步显著且具备多模态能力2023年3月15日 讯飞星火大模型 2024年6月27日全面对标GPT-4 Turbo语音、图文识别能力再升级 2024年4月26日春季上新首发OCR大模型长文本能力全新升级 2024年1月30日多项能力大幅提升接近GPT-4 Turbo当前水平 2023年10月24日通用模型对标GPT-3.5(中文超越,英文相当) 2023年8月15日突破代码能力多模态交互再升级 2023年6月9日 突破开放式问答多轮对话能力再升级数学能力再升级 2023年5月6日首次发布 七大核心能力发布大模型评测体系发布 认知智能大模型带来智能涌现的意义 认知大模型的智能涌现,有望让机器真正掌握和运用人类语言和知识,开启机器自然语言交互式学习的“类人”新范式,点亮通向通用人工智能的星星之火! ·语言智能是人类智慧的重要部分,是相互交流和深邃思考的媒介,也是全社会知识财富积累的载体!·推动了机器智能实现范式的再次跃迁,可以“类人”地交流、学习和进步! 以语言智能涌现为核心的突破,将推动机器智能进入全新阶段 “大力出奇迹”下的“智能涌现” Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models 随着模型尺寸增长,任务效果不会线性增加,必须达到一定临界值时,才会突破。 随着模型尺寸增长,任务效果线性增加。这类任务通常是那些需要知识和简单文本操作的任务。(日期理解、格式规整、单位转换等) 这类任务通常是那些需要步骤推理、或者逻辑推理的任务。(单词解读、重复指令、修辞分析等) 大模型的参数规模会越来越大 万卡智算集群建设运维分享 万卡集群简介、集群光链路问题、集群负载均衡优化、平台工具与体系建设 基础设施的耦合 需求衔接层层相扣,一环变更,环环变更 万卡算力集群的关注点 广泛部署的胖树拓扑 模型预训练对延时不敏感二层(盒>框)>三层(盒>框) 二层 Introducing data center fabric, the next-generation Facebook data center network 预训练中的并行方式 单轨与多轨 Ø单轨方案对负载均衡要求更高; Ø采用单轨还是多轨,是由算力卡决定; 光连接稳定性 Llama3故障根因 机房防尘等级 人员操作规范 光纤模块清洁 Root-cause categorization ofunexpected interruptionsduring a 54-day period ofLlama 3 405B pre-training. 万卡集群自交付起的163天的故障统计。算力平台相关问题多种类型,复杂多样。 硬件设备设计 多种负载均衡方式 智算网络场景的流数量少但是流量通常都非常大,是典型的“大象流”,这意味着数据流的五元组呈现的熵值更低。传统的哈希算法仅根据流量五元组计算下一跳,算法因子不考虑流量大小,多路径下一跳负载情况,只和流量五元组有关,在智算网络这种流少带宽大的场景中容易负载不均衡,甚至发生负载均衡极化的现象。 讯飞万卡集群的负载均衡正在从1.0版本的静态路径绑定向算网一体化调度的2.0方案过度。 算网协同一体化调度 千卡大模型测试结果 传统流转发 •千卡大模型未开启NSLB训练时间:34天•千卡大模型开启NSLB训练时间:28天 智算集群项目运维难点 AI训练要求故障快速恢复备件及时到达 技术/人力不足 跨产品问题难定位 海量光纤/模块问题难排查 算力集群运维难度大,人员技能要求高 海量光纤、光模块组网复杂,大集群涉及上万根线缆 AI算力平台涉及大规模计算、存储、网络设备组网,跨产品难以定位 算力集群故障,会导致模型重训或断点续训,需要快速恢复故障 人员补充建设 维保服务 ü技术经理7*24响应支持ü免鉴权通道,专属VIP TAC团队 ü补充数通、计算运维人力不足ü提供故障处理、日常配置变更、巡检等支持 ü7*10*ND备件(含介质保留),现场更换ü软件升级授权,在线技术支持 ü健康检查、跨层故障诊断ü全栈光模块监控、参数面拓扑可视、基于任务/卡间故障分析 跨专业域的任务级运维平台 任务劣化感知、故障定位效率缩短至分钟级 组织流程变革,构建符合智算特点的融合型团队 联合二线运维:与原厂驻场保障团队协同,包括故障、问题、变更、重客保障、技能传递,保障断点续训等业务问题快速解决 原厂三线直达接入:专属技术团队VIP受理&处理问题,并提供重点问题分析报告 备件管理服务:AI精准预测与补库,小时级派送<=4H,7*24响应,专业人员进行现场备件更换,保障备件快速响应 赋能、建设及沉淀,提升团队面对智算领域的运维能力 故障处理知识沉淀 建设运维知识库 培训赋能 46个深化设计文档、验收测试报告、维护指导、产品技术文档等; 涉及计算、网络和存储三个产品,共计398个故障场景指导 跨领域、全人员多轮次培训赋能80+人次; •内存故障•硬盘故障•电源故障•NPU故障•光模块故障•性能降低•分布式训练故障•…… •丢包故障•PFC死锁故障•主控板故障•接口板故障•交换网板故障•端口流量异常•光模块故障•…… 方案培训实施方案培训 •主存硬盘故常故障•BBU模块故障•风扇模块故障•接口卡/光模块故障•节点故障•…… 网络产品培训CE交换机日常维护 存储产品培训OceanStor日常维护 保障大模型任务长时稳定运行 p模型算力利用率p任务算力使用率p任务算力可用度p算力可用度p任务有效训练时间p任务无故障运行时间p任务长稳训练时间p任务异常中断损失时间…… 更大规模智算集群的演进思考 训练集群网络演进、集群互联选择、网络拓扑优化、思考与探讨 技术演进 拥塞控制 网络拓扑 负载均衡 接入带宽:200G->400G->800G芯片容量:25.6T->51.2T->102.4TSerdes:56G->112G-224G网络拓扑:减少网络直径,盒式交换机,Rail-Optimize、Drgonfly、Torus 高性能可视化监控更精细全面的监控精度全域可视化监控故障的快速定位 网络侧:基于全局或逐跳的队列调度实现拥塞控制、精细的反压端侧:感知网络信息,如时延、网络队列等变化进行速率调整 RDMA传输模式:优化的QP机制(非连接的可靠传输or动态连接池资源共享)以太网在网计算重传机制:Go BackN—>选择性重传演进新型RDMA协议,长途RDMA 逐包(定长or非定长)负载分担、NSLB动态路径调整类信元模式负载:入网等长切分为等长数据包,终端重新组包保序 更大规模集群中的设备互联 LPO光模块互联方案 Linear-drive Pluggable Optics •在光模块中不再包含DSP/CDR,而将该功能集成到交换芯片中,只留下Driver和TIA•由交换芯片所含的收发DSP/Serdes功能来对高速信号进行补偿 优势 •低成本:800G光模块BOM成本约为600~700美金,去掉DSP,系统总体成本预计下降约8%左右•低功耗:功耗下降约50-70%•低延迟:由于不涉及对信号的复原,latency降低约75% 劣势 •系统误码率和传输距离有所折衷 更大规模集群的组网选择 三层Fat Tree 二层全互联结构,网络直径小,路由选路想必胖树更加复杂 clos组网方式,TOR、leaf、spine三层结构,智算场景下一般要求1:1收敛比 POD内采用胖树方式,POD间为全互联组网方式 不同拓扑下的组网规模对比 以51.2T芯片、128口400G设备为例,计算在不同的组网拓扑下,理论上能达到的最大集群规模和设备、线缆情况对比 十万卡集群不同拓扑的集群对比 以51.2T芯片、128口400G设备为例,组建约十万卡集群,计算在不同的组网拓扑下,集群的设备、线缆情况对比 以51.2T单芯片交换机组建十万卡集群为例,相比于三层胖树拓扑结构,dragonfly拓扑可以节省1/4交换机和1/3的互联链路数量 拓扑优化 跨POD的收敛比优化 伴随着芯片能力的提升,单POD接入能力越来越大,相同模型所需要的POD数会越少。 通过模型并行策略的调整,将大流量交互限制在单POD内部,跨POD流量会减小。 超节点的引入,scale up和scale out两张网,不仅跨POD流量会减少,对POD内流量也有影响。 通过OXC实现POD之间的按需连接 算网协同 通过网管平台和训练平台联动,通过分析训练任务来分析跨POD通信需求,网管平台结合OXC控制器来动态构建跨POD通道 Spine-free 网络拓扑上,POD之间通过OXC互联。模型训练时,结合OXC控制器实现POD之间的按需互联互通。组网无需Spine交换机,减少网络直径,交换机数量和互联线路数量,降低时延。 更高速率更大规模集群的挑战 更大部署地域 更高通道速率 万卡规模集群尚能局限在楼内部署,但是其光缆规模已突破万芯,对于机房走线和桥架设计都有要求。对于更大规模的集群,则可能需要跨楼栋甚至跨园区部署。一方面,大规模大容量跨楼栋和园区光缆互联需要更加合理的方案;另一方面,SR+FR的互联方案可能会演变为更加多样的SR+DR+FR+LR方式。 高速光模块的单通道速率已由56G迈向112G,并向着224G前进。智算集群机房当前普遍要求ISO14644-1中class8洁净度等级。随着通道速率的提升,为了保证稳定性和误码率,将对机房环境,人员操作等都有更高的要求。 思考与探讨 T h a n k s 荣誉出品