您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[字节跳动]:大规模服务器集群的线上质量运营实践 - 发现报告
当前位置:首页/行业研究/报告详情/

大规模服务器集群的线上质量运营实践

信息技术2024-06-28陈海超字节跳动惊***
大规模服务器集群的线上质量运营实践

大规模服务器集群的线上质量运营实践 陈海超 字节跳动 陈海超 服务器运营质量工程师 请替换 目前,专注于字节跳动的服务器线上质量建设与保障 多年服务器研发测试、技术支持与海量运营工作经验,曾任职华为、腾讯。负责解决过国内外互联网、运营商、金融等领域的服务器疑难问题;制定服务器集群的硬件监控标准与运营流程;主导CPU\网卡\硬盘\GPU等关键部件质量提升;深度参与A100/A800/H800等大模型训练集群的质量重保。 曾任TCCP讲师(服务器运维高级工程师课程)、获VMWare、Window、PMP等认证。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量的重要性 目录 线上质量体系的建立 线上质量的运营实践 展望 01线上质量的重要性 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 全球首家100W台 全球第5,国内首家100W台 服务器集群规模的快速增长 近十余年,随着互联网、云计算的蓬勃发展,全球陆续出现服务器保有量过100W+台的大规模集群 大规模服务器集群的运营模式演进 不依赖人 DevOps 硬A盘IO固ps件 平台运维 全人工运维 自动化运维 数十万台 数万台 数千台 工具化运维 依赖人 大规模服务器集群运营的质量挑战 随着服务器集群规模飞速扩张,机器型号层出不穷、硬件平台持续迭代、芯片集中度快速提升、业务应用场景多样化,稍有不慎,就会导致质量问题频繁发生,影响业务稳定性。 业务侧感受有: 软件无法运行、部件故障率高、频繁宕机、性能不达标等 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量问题的发现来源 交付 拦截 厂商 反馈 故障 告警 问题 来源 研发 反馈 业务 反馈 产线 拦截 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 硬盘固件 CPU微码 风扇 硬盘 硬件类 固件类 BMC固件 BIOS固件 主板 线缆 线上质量问题的根因分布 网卡固件 电源 GPU驱动 内存 02线上质量体系的建立 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 全生命周期的服务器质量管理 新品导入 生产质量 灰度质量 DOA质量 线上质量 跨团队的服务器质量工作协同 01研发/固件 01运营/交付 突显技术优势,负责服务器的产品规划、产品研发与测试、版本管理、产品质量。 质量协同 承担服务器的线上运营质量指标监控与批次质量问题治理,保障服务器高质量交付及交付后的稳定性运行。同时,提供面向业务的各类运维服务。 01供应链 看护整机和关键部件的质量指标,负责供应商工厂质量管理,处理影响交付进度事件,协助线上批次质量问题处理。 02平台建设 主要为运营和业务提供自动化、平台化的运维能力,包括数据采集、故障监控、数据分析展示等能力。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量之从源治理 新品导入 制定新品导入测试用例基线、 确定研发交付物、监控项评审、DVT评审 灰度质量灰度期间故障率监控、灰度质量问题处理、PVT评审 生产质量 源头治理 产测用例基线、PCN审核、LAR、LRR、RTY DOA质量 进场压测拦截、DOA故障 率分析 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 量产评估 灰度验证 故障发现能力故障率监控现场运维能力 质量问题发现 线上质量之从源治理-新品导入 产品规划 产品研发 产品运营 技术方案评估 产品形态架构方案平台影响 运维需求识别 产品易用性产品可维护性 运营基线维护整机运营基线部件运营基线固件运营基线运营交付物 内部需求管理装机定制资产管理运维管理数据采集 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量之从源治理-生产质量 关键质量KPI P级质量事故管理、GPU整机MFR 月度质量目标监控 质量KPI 关键部件质量改善 月度质量目标监控 交付、线上 交付、线上运营质量保障 DOA、批次问题SLA 重点OXM厂商质量管理 工厂质量 RTY、LRR、LAR、PCN 关键部件物料质量管理 物料质量 MFR、AFR GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量之从源治理-DOA质量 目标:提前将问题暴露并拦截在交付或更早阶段,减少挂树交付后再发生质量问题 定义: DOA(DeadOnArrival)=新到货设备一个月内故障数/自然月内交付机器数交付阶段DOA拦截率=交付阶段故障数/新到货设备一个月内故障数 线上质量之过程管控-线上质量 01 02 03 04 质量问题管理 对有共性的质量问题进行分析、 定级、和处理 重点质量专项 针对GPU、AOC链路、液冷、 DPU、固件等重点机型或子领 域开展专项优化 故障率监控 对整机和部件的故障率,以及故障 换件率进行日、月、年时间维度的监控,超出基线的进行深入分析 宕机率监控 对物理机造成hang死、重启等 宕机现象进行监控,分析宕机发生的根因并进行治理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量运营体系 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 03线上质量的运营实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 线上质量问题的处理流程与关键指标 线上质量问题的实时监控 (Demo,供参考) 线上质量-故障率分析 保有量:一段时间内机器或部件数量MFR:=∑日故障数/等效保有量*100% 线上质量-宕机率分析 宕机对单物理机业务的稳定性挑战最大,特别是大模型训练等业务,对宕机尤为敏感; 利用日志分析、图像识别、关键字提取等技术,自动对每一单宕机根因进行科学判断、统计、展示、及预警; 对宕机根因进行三级分类,一级:预期、非预期,二级:硬件宕机、软件宕机,三级:CPU、主板、内存等; 对少部分unknown宕机单深入分析,投入故障分析专家人工分析,持续改进,提取宕机分类特征值; 大模型训练集群宕机根因的三级分类 线上质量-重点专项 04展望 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 12nm 服务器关键部件的趋势 GPU快速迭代,监控和快速解决GPU相关质量问题,刻不容缓 打破摩尔定律,NVIDIA新的GPU架构将从两年一次迭代,加速到一年为周期推出 国内AI芯片厂商,陆续推出有竞争力产品,如华为昇腾910B\910CA100机型逻辑结构图 Turing T4 VoltaV100 Ampere A100/A800 7nm 4nm Bugreport Hopper H100/H800 Blackwell Rubin XID异常 A100主要故障现象与压测工具 GPU掉卡 Fieldiag DCGM GPU温度过高 2017201820192020202120222023202420252026 NcclTest RDMA网络异常 NVIDIAGPU的架构演进 服务器关键部件的趋势 除了GPU,更多“*PU”也在快速涌现,如:DPU、NPU、TPU、APU、IPU 其中,DPU与CPU、GPU并列称为“未来计算三大支柱”,行业预测5年后,每年新发货DPU服务器占比10% 系统管理 CPU GPU DPU 大模型训练、渲染 异构计算 DPU代表性厂商、产品及发布时间 厂商 代表产品 发布时间 NVIDIA BlueField-4 2023 BlueField-3 2021 BlueField-2 2020 Intel FPGAIPUC502X 2020 Xilinx AlveoU25 2020 Broadcom Stingray 2018 服务器形态与集群的发展趋势 液冷服务器 在高散热需求下,液冷已成为服务器温控技术的核心发展方向 未来5年后,预计每年新发货中液冷服务器占比10%,浸没式液冷占比逐步扩大 物理极限 芯片功率密度逐代升高,但电子器件的失效温度仍保持不变,散热挑战更大 政策要求 国家对数据中心PUE和能耗双 控的绿色达标要求越来越高, 传统风冷方案已无法解决 散热功耗变化 随着芯片散热功率提升,用于冷却的风扇功率呈指数级增高,总功耗上升 X-Cubic是字节自研的浸没式液冷TANK,一款内部集成热交换器的浸没液冷系统。 服务器形态与集群的发展趋势 业务集群三个趋势 线上质量管理的挑战 01 自维保模式下的线上质量管理 需要线上质量团队承载更多原来由OEM ⼚商负责的技术分析、资源协调等⼯作 精细化质量数据管理与分析,从PN到DC 02需要根据各部件特点,开展⽐PN更细颗粒度的分析,监控物料来源及其报错类型, ⽐如CPU的DateCode 定制化的监管控 03 不同业务,对同⼀故障的敏感度会不⼀ 样,需要根据业务特点去定制化服务器 监管控策略 拥抱AIOps,优化故障预测和自愈 04 和部件⼚商深度合作,利⽤⼤数据分析 能⼒,开展硬盘、内存的故障预测和⾃ 动修复 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.28