基于数据驱动的 系统稳定性保障体系研究与实践 姓名:胡霞 国泰君安证券股份有限公司 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 胡霞 资深运维工程师 负责君巡智检平台建设,拥有丰富IT运维开发经验,专注运维自动化、系统监控、故障诊断与应急响应等技术领域,致力于通过技术创新提升系统稳定性和运维效率,全面推进系统稳定性保障体系规划建设和落地。 数字化基建背景下的运维左移 数据驱动的系统稳定性保障体系 目录稳保落地实践——君巡智检平台建设 总结与展望 01 数字化基建背景下的运维左移 韧性 可靠性可观测性持续稳定性成熟性 适应性 信息系统稳定性能力 来源:中国信息通信研究院,2022年 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 数字化基建背景下的运维左移 项目立项&需求评审 概要设计&应用架构评审 项目开发 SIT&UAT测试 上线发布&版本持续迭代 图1:信息系统故障根因占比统计 系统架构 应用设计 业务运行 应用部署 应急处置 交维材料 02 数据驱动的 系统稳定性保障体系 如何提高系统的稳定性? GoogleSRE中(SRE三部曲[1])有一个层级模型来描述系统可靠性基础和高层次需求(Dickerson'sHierarchyofServiceReliability),如下图: product 图2:稳定性标准金字塔模型 Development CapacotyPlanning Testing+Releaseprocedures Postmortem/RootCaueAnalysis IncidentResponse Monitoring 系统稳定性评估的问题与现状 背景:应用系统稳定性直接关系到金融机构的运营效率与客户满意度,目前稳定性治理存在以下问题: 1 指标碎片化 稳定性指标的收集与存储分散在不同的工具平台,无法全面反映系统的整体稳定性水平。 2 度量标准不统一 指标的度量方法缺乏一致性标准,这使得不同系统之间的稳定性难以进行比较和分析。 3 数据整合困难 数据异构性与信息孤岛,增加了稳定性指标整合与信息关联的难度。 4 存在部分人工依赖部分稳定性评估仍依赖于人工判断,这不仅效率低下,也增加了误判的风险。 针对上述问题,建立一套科学、高效的系统稳定性保障能力自动化评估办法,分解影响业务连续性因素节点,量化评估节点的有效性或运作质量,通过可量化指标及工作流程机制驱动组织能力、流程协同机制、工具的完善,提升业务连续性。 03 DevOps技术运营评估 部门阶段建设成果检验 优势发现与短板补齐行业特性匹配不足 规范引领,标准先行 02 公司数字化转型战略 01 DevOps技术运营标准 重要技术实践方法 能力项广度与深度技术运营水平评估指导 三个三年三步走数字金融SMART投行 三个三年三步走 SMART投行 科技投行 DevOps技术运营内部标准 DevOps技术运营标准 内部具体实践 技术运营落地实践 容量管理 容量平台 统一监控平台 应急管理 应急管理平台 压力测试 统一架构 流程管理 ITSM 合规风控平台 数据湖仓 智能化工具 指标/日志监测平台OA 知识库 低代码 系 平台统 稳定性 保 告警平台 管理平台CMDB 数据备 变更障 组件部署检测平台 数据库监控平台 份平台管控 监控告警 架构管理 数据管理其他 能力域 国泰君安证券数据中心技术运营标准 能力子域 软件交付12% 监控告警10% 事件管理15% 变更管理10% 配置管理10% 容量成本5% 高可用管理15% 业务连续性10% 合规风控5% 质效反馈10% 能力项 交维文档 数据采集 事前管理 变更流程 配置对象 性能容量 应用高可用 应急保障 合规管理 性能体验 交付质量 数据处理 事件处理 配置数据 成本合理性 缓存高可用 危机管理 风险管理 用户体验 版本部署 数据存储 事后管理 数据库高可用 组织机制 操作安全 运维质效 数据可视化数据服务告警管控健康巡检 运维数据治理基础 运维数据治理目标 “以质量为核心,以场景为导向,以体系为框架,以服务为价值” 提升运维数据质量 建立运维数据治理体系 促进运维数据服务供给 管理绩效考核 数据服务管理相关制度 数据服务目标 管理绩效考核 数据质量管理相关制度 数据质量目标 数据治理管控政策 顶层设计 管理层面 人员绩效考核 队伍建设 人员绩效考核 队伍建设 数据治理组织框架 组织人员层面 治理相关操作规范化 数据共享 数据服务自动化 数据服务标准化 数据服务建模 数据质量分析 数据维护规范 数据质量监控 数据标准管理 操作层面 数据治理技术指引 数据集成共享功能 数据服务自动化功能 数据服务建模功能 数据标准管理和规则下发功能 数据质量监控功能 数据质量分析功能 数据维护功能 技术数据服 层面务标准 化功能 IT运维管理基础 运维管理体系 组织建设 实现从运维向运营的转组 型。提升个人能力及个织 人价值的认同感。 流程 平 平台建设 质量有抓手 质 效 通过平台的建设,促进 运维质量和效能提升。 提 过分析质效数据,不断优化和善运维体系,升组织能力,对运维工作的 值认同感。 升 台监管控析通完 效能可掌握 流程建设 将标准化流程,融合到运维服务中,通过平台的建设和数据的分析,持续改善提高运维服务的效率和质量,控制操作风险。 •实现自动化运维,全面控制风险、提提高工作效率、释放人力;及 •建立运维数据分析平台,实现数字价 化运营,提供运维数据集中与治理、主动分析的能力; •通过对运维数据挖掘、学习,实现智能运维向更多的运维场景赋能; •以IT服务的方式将运维能力输出。 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 十大能力域 系统稳定性保障基础 数据驱动的系统稳定性保障体系 开发阶段稳定性保障(原生性) 技术运营阶段稳定性保障(维护性) 系统设计上线评审持续运营运行治理 软件交付监控告警 事件管理变更管理 配置管理 容量成本高可用管理 业务连续性合规风控 质效反馈 事前,全景观测,先知先觉 事中,快速响应,精准定界 事后,复盘优化,经验沉淀 健康巡检 实时拨测 全面监控 告警触达 应急协调 自动处置 复盘分析 预案完善 模型加强 监控平台 自动化管控 配置管理平台 数据开发平台 容量管理 混沌工程 智能运维AIOps系统与工具+FinOps平台工具能力 工具平台底座 三类场景能力 03 稳保落地实践 ——君巡智检平台建设 平台设计思路 平台数据流图 平台建设策略 数据治理体系 运维管理体系 体系基础 多元化数据整合 可量化运维指标 管理标准 行业规范 数据整合 数据接入 样本训练 业内范例 实践经验 数据总览 质量有抓手 配置管理 变更管理 即时调度编排 多模态评估模型 模型管理扫描报告 闭环跟踪 已完成 系统扫描报告 系统总览看板 效 邮件推送、统计报表展示 改进条目复扫 可 建设中能 全连接消息对接 ITSM工单对接 掌握 任务编排 即时计算 十大能力域 软件交付 监控告警 事件管理 容量成本 高可用管理 业务连续性 合规风控 质效反馈 配置数据 指标数据 告警数据 组织建设 流程建设 平台建设 稳定性量化指标数据治理 顶层方案规划 工具平台落地 评价体系设计 摸家底盘资产树目标理场景 分层管建体系 数据采集平台 建模型定标准 指标中心 多聚合算指标 捋痛点定职责 建流程提质量 运维数据治理 总体规划有标可循 逐步推进明确分工 数据整合 以监控告警能力子域为例,目标能力得分为3级的指标采集如下: 风险等级定义 系统名称 指标名称 预期值 实际值 风险标识 结果反馈 主机IP:10.xx.xx.xx与 XX系统 虚拟机分散部署分布 高危:0中危:<2 高危:2 10.xx.xx.xx在CMDB同属消息中间件分组,在2024/06/09检测同属宿主机test_001POD。建议在云平台中漂移虚拟机至其他宿主机。 目标值实际值 五级>=五级 风险等级 颜色 标识 定义 高风险项 红色 经检查发现的最高级别风险项,风险项级别基于问题严重性、时间紧迫性、影响范围等方面的判断,建议及时进行处理。 中风险项 橙色 经检查发现的中等级别风险项,一般为仍然处在发展变化过程中且尚未转化为高风险项的问题,建议关注问题发展趋势,结合实际情况进行处理。 低风险及正常项 绿色 包括经检查未发现问题的,或虽然存在问题但一般情况下影响可以忽略的评估项。此外,对于最佳实践方面的检查结果也归为此类。 四级>=四级 三级>=三级 二级>=二级 一级>=一级 高风险中风险低风险正常 评估模型 能力项 指标名称 级别当前/目标 结果值当前/目标 风险标识 结果反馈 数据来源 告警管控 告警处置率 1/3 0.94/1.0 -/告警处置率为0.94,指标计算规则:处理告警数/所有告警数 告警中心 应急保障 预案线上化率 3/3 1.0/1.0 本系统预案线上化率为1.0/- 应急管理平台 目标值实际值 五级>=五级 四级>=四级 1级 2级 3级 4级 5级 重保 ○ ○ √ ○ ○ 金牌 ○ ○ √ ○ ○ 银牌 ○ √ ○ ○ ○ 铜牌 ○ √ ○ ○ ○ 其他 ○ √ ○ ○ ○ 三级>=三级 二级>=二级 一级 满足不满足 >=一级 不满足 X级正向反馈 不满足 三级反向反馈 五级反向反馈 不满足 二级反向反馈 四级反向反馈 不满足 一级反向反馈 平台内部标准分级定义 05 充分智能化 04 精细化、部分智能化 03 系统化/平台化 以系统平台能力为重点,兼顾流程规范性与人员实践能力 02 自动化/脚本化 将PDCA的持续改进提升理念融入标准能力项,不断优化平台,规范流程、提升实践能力 01 部分自动化 平台大屏展示 04 总结与展望 事前 事后 总结 事中 故障预防 快速止血 复盘与改进 高可用 高性能 高质量 早感知快定位及止损 监控: •指标 •日志 •链路 人工反馈 指标关联链路拓扑告警收敛 预案命中容灾管控限流降级 故障分析隐患处置事后跟踪 … … 驱动持续完善 量化指 系统稳定性保障能力底座标 Thanks 高效运维社区DevOps时代 荣誉出品