久病成医,终得良方—— 中国联通IT系统故障管理的道法术器 姓名:王子岩 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 王子岩 中国联通软件研究院副总架构师 联通数字化线10年工作经验,负责中国联通BMD域IT系统安全生产体系、尤其是故障的管理及运营,负责中国联通数字化监控平台故障管理系统的建设及运营 现场调研及听众收获 现场调研听众收获 所属行业? 通信、金融、互联网 工作角色? 架构、研发、测试、运维、安全 故障管理体系实践 故障的坑 安全生产左移体系实践后续可持续交流 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 背景与挑战 故障管理体系实践 目录安全生产左移体系实践 成果介绍 01 背景与挑战 IT系统安全生产面临的挑战 数字中国、数字化转型发展下,IT系统 业务复杂-业务场景多链路长 由于中台建设能力复用,存在业务场 景横跨多个系统 覆盖场景广 经济、政务、文化、 社会、生态文明 五位一体深度融合 承载用户多 10.9亿 中国互联网用户 系统复杂-大型分布式系统 云化架构下,建设和维护大型分布式 系统 因此IT系统出现故障时,有造成较大影响的风险(舆情、民生) 例如2024年7月19日微软蓝屏故障,影响国外航空、银行、医院、酒店、等多个行业 组织复杂-大型组织 由于业务及系统复杂,需要大型组织各 司其职,涉及不同部门、项目、角色 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 中国联通软件研究院情况 中国联通软件研究院负责全集团IT系统研发和生产运营 业务复杂 全国系统700+ 集约系统200+ 中台系统100+ 覆盖场景广 B/M/D全域 接入场景 承载用户多 4亿+ 全球电信行业最大规模cBSS系统 (业务支撑系统) 系统复杂 核心服务7000+ 容器数量60W+ 调用量40亿+ 无法通信无法上网 多扣费用少扣费用 无法办业务无法交费 组织复杂 分/子公司31/6 部门/分院11/6 项目团队500+ GOPS全球运维大会暨研运数智化技术峰会2024·上海站 02 故障管理体系实践 在摸爬滚打中,逐步形成了大型组织、大规模系统的故障管理体系 2.1故障事前:组织架构搭建 2故障管理的道法术器 2.2故障事前:业务分类分级 道 理念、价值观做正确的事 面向客户感知,以故障不再发生和快速恢复作为唯二目标 法 方法、流程把事做正确 故障全流程管理方法:共6个环节,见右侧 2.3故障事中:发现调度处置 术 战术、技巧正确的做事 器 工具、仪器高效的做事 安全生产四级团队、故障上报定级标准、复盘灵魂拷问、故障定责规则…… 2.6故障运营:定期总结通报 2.5故障事后:四不放过闭环 2.4故障事后:复盘分析改进 中国联通数字化监控平台-故障管理系统 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.1故障事前组织架构搭建(1/2) 联通集团公司 道 软件研究院故障管理组 面向客户感知的业务链路,端到端、全层级、各角色无遗漏的全部覆盖 XX中心 第 单实XX中心 一 位体部门经理 级 维组分管副总架 度织故障接口人 XX部 XX部 …… 部门经理分管副总架故障接口人 子公司1 子公司1 领导 故障接口人 子公司2 子公司2 …… 领导 故障接口人 北京 北京 领导 故障接口人 天津 天津 领导 故障接口人 新疆 新疆 领导 ……故障接口人 两级组织架构: 第一级为单位维度的实体组织; 第二级为系统维度的虚拟组织四级安 第 系虚系统层级 二 统拟 级 维组业务 度织应用平台组件 基础设施 中心/部门/分院 一级 总体统筹 软研院XX系统四级安全生产团队 二级 全栈调度 研发测试运维 所在部门经理 研发测试运维 所在副总架构师 研发测试运维 所在项目经理 相关子公司 四级 最小单元 … … 三级 核心业务 研发测试运维 所在模块负责人 系统层级业务 应用 平台组件基础设施 研发测试运维 所在部门经理 31省分 其他分/子公司XX系统四级安全生产团队 二级 全栈调度 一级 总体统筹 研发测试运维 所在总监 三级 核心业务 研发测试运维 所在项目经理 四级 最小单元 研发测试运维 所在模块负责人 法全生产团队,系统内各层级纵向到底,系统间调用关系端到端横向到边; 明确不同级别、角色、层级在故障前中后各环节的详细职责分工; 可根据实际场景提前配置人员套餐, 术例如针对事件配置第三、四级,针 对核心业务配置一二三四级 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.1故障事前组织架构搭建(2/2) 器联通数字化监控平台-故障管理系统-安全生产通讯录/责任矩阵/人员套餐 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.2故障事前业务分类分级(1/2) 技术全层级梳理 监控、应急、隐 患等覆盖排查 故障定级、业务监控等 某系统 业务清单梳理 业务SLO分级 系统分级 业务线:公众、客服、政企、管理、数据…… 业务场景:基础通信、查缴办、一线销售、后台决策…… 业务服务对象:外部客户、一线客户、内部客户…… 业务量级:千、万、十万、百万…… 核心业务500+ 核心系统60+ 遵循二八原则,将80%资源投入至20% 道的核心业务保障上,并对业务及系统级 别达成共识 法 根据业务场景、业务服务对象、业务量级(如出现问题造成的影响大小)将业务分为核心、重要、一般三个级别,并据此确定承载业务的系统级别 需提前梳理确定标准化的规则及标签, 术下拉选择代提手填,业务需以用户视角描述 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.2故障事前信息分类分级(2/2) 器联通数字化监控平台-故障管理系-系统全景图 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.3故障事中发现调度处置(1/2) ① 触发SLO自动拉会★ 总体调度负责人 ① 值班人手动拉会 道 先抢通、后抢修,在总调度人指挥下四级团队各司其职、并行处置 通告线 ⑤ ⑤ 自动事件上报★ 外部批量 故障上报 客服联动 业务线 业务负责人 ② ④ 业务验证 (业务SLO自动判断★) 故障恢复 执行业务预案 业务影响判断 (业务SLO自动判断★) 升级上报分管领导 外部影响判断 技术线 技术负责人 ③ 原因初判 (变更识别+一键诊断★) 执行技术预案 ④ 识别舆情 舆情联动 业务方判断 三线一屏:业务线向上进行业务影响评估,技术线向下进行故障初因分析,通告线向内向外进行信息通报,看板屏对 信息通报负责人 ⑤ 展示屏 信息记录负责人 事中指挥室投屏记录 ⑥ 信息共享: a.故障调度参会人员b.受影响系统、省分 法关键信息实时记录投屏 五类角色:总体调度人、业务负责人、 其中★的环节可自动执行 故障更新 上报业务部门主管方 技术负责人、信息通报人、信息记录人六项动作:一键拉会①,影响判断②,原因初判③,应急处置④,信息通报⑤,投屏记录⑥ 总体调度人由故障系统应用侧项目经理负责,需对系统架构图、上下游,关键 术干系人了然于心 注意会议开麦情况,有序调度发言,善 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 用会议讨论组 2.3故障事中发现调度处置(2/2) 器联通数字化监控平台-故障管理系统-事中指挥室 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 故障报告 统计量化业务影响:包括不限于影响 时间、范围、渠道、业务量、有具体 数据 回溯详实处理过程:涉及方在何时做 了何动作,取得何效果,识别“五个时间点“(发现时间,响应时间,上 报时间,定位时间,处理时间); 多层级原因分析:进行多层级原因分 析,列明故障发生或未快速恢复的原 因 根据“灵魂拷问”发现的问题按照五 定原则(定目标(可量化)、定标准 (可检查)、定负责人(谁牵头、谁 配合)、定计划完成时间、定里程碑) 2.4故障事后复盘分析改进(1/2) 举措>问题,现在>过去,以思考后续如 业务影响 道何避免发生和快速恢复为目标,追的是 整改的责,不是故障的责 处置过程 制定复盘标准动作灵魂拷问,涵盖6大类18 法小类共性及个性问题,对处理过程中的五个 环节,及各层级原因进行回答后,即完成了 原因分析 标准化复盘 整改举措 根据业务监控、指挥室、灵魂拷问、稽核点自动化提升报告效率及质量;主持人需控制 术会议主题、时长、观察人员情绪;举措需组 织严格验收,避免复盘成效功亏一篑 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.4故障事后复盘分析改进(2/2) 器联通数字化监控平台-故障管理系统-故障报告 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.5故障事后四不放过闭环(1/2) 影响类型 影响业务 用户影响or业务影响or服务影响 达到上报标准 其他故障 一般故障 较大故障 重大故障 特别重大故障 影响外部用户感知 核心 (通话、上网、缴费、10010) 20%或20%以上 1分钟 15分钟内 1小时内 2小时内 5小时内 5小时以上 20%以内 5分钟 30分钟内 2小时内 4小时内 非核心 - 10分钟 60分钟内 4小时内 影响一线用户使用 核心 (缴费、开户、变更) 20%或20%以上 1分钟 15分钟内 1小时内 2小时内 5小时内 5小时以上 20%以内 5分钟 30分钟内 2小时内 4小时内 非核心 - 10分钟 60分钟内 4小时内 影响内部用户使用 核心(公文、邮件) 20%或20%以上 1分钟 15分钟内 1小时内 2小时内 5小时内 5小时以上 20%以内 5分钟 30分钟内 2小时内 4小时内 以客户实际感知进行定级; 道定责是为了后续不定责,起到明示和预防作 故障定级 用 通用定级标准升级至系统级定级标准,根据业务场景、时长、程度各系统单独制定 非核心-10分钟60分钟内4小时内 故障定责 法 《故障定责标准》聚焦原因、职责、规则,并涵盖研发、测试、运维角色、应用、平台、基础设施层级,形成7大类,23个小类标准,并持续迭代优化 术 当未有规则对应时可请求领导指示,确定后形成标准,例如全链路超时不适配故障 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.5故障事后四不放过闭环(2/2) 器利联用通X数X字XX化X监控平台-故障管理系统-故障定级标准/故障处罚 在这里输入你的正文阐述与关键词标题在这里输入你的正文阐述在这里输入你的正文阐述与关键词标题在这里输入你的正文阐述 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.6故障运营定期总结通报(1/2) 故障运营 沉淀数据 提升成效 定期故障分析 数据打标 分析总结 通报及举一反三 督办闭环 积累故障数据标准化分析,以 故 道点带面、举一反三、抓住主要 故 矛盾进行督办闭环 故 建立统一的分析维度及指标标准,包括7大类23小类原因分类 故 法(对应不再发生)、4大类21小 类发生层级(对应快速恢复) 落制指 地度导 实优依 制度规范 施化据 压组运 实织营 职优对 2.1组织架构 责化象 需检功辅效 求验能助质 来成优实提 平台工具 数字化监控平台 源效化现升 按时间积累一定数量,并通过纵 术向与自己比(同比、环比),横 向与其他方比,可得出分析结论 按需故障闭环 2.2故障事前分级障事前准备 ……故障事前准备 2.3故障事中调度 障事中调度 ……故障事中调度 2.4故障事后复盘 障事后复盘 ……故障事后复盘 2.5故障事后闭环 障事后闭环 ……故障事后闭环 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 2.6故障运营定期总结通报(2/2) 器联通数字化监控平台-故障管理系统-故障看板/故障统计/隐患全面排查 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 03 安全生产左移实践 背景:故障管