国泰君安数智化运维服务平台可观测体系建设之路 黄豁资深工程师 负责基础运维工具平台建设,基于典型运维场景,以运维数据治理为基础、以人工智能算法为辅助,致力于建设有国泰君安特色的数智化智能运维服务平台,多次带领团队通过信通院DevOps技术运营2+级评估 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 01什么是可观测 02可观测建设背景 03可观测落地实践 04总结与展望 01 什么是可观测 什么是可观测 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 日志 指标 链路 应用2 应用1 应用N 可观测与监控的关系 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 监控 关注系统 主要关注系统是否有问题 面向过程 面对的是一条条具体的基础设施或应用程序相关的故障告警,核心目的是在于及时发现故障 被动响应 基于告警的触发去被动响应 可观测 关注业务 在此基础上更加关注与业务问题形成的具体上下文关联 面向结果 面对的是与业务密切相关的指标,能实时跟踪业务当前状态、快速诊断和解决问题 主动分析 驱动运维人员主动基于多种数据的关联分析,为业务优化提供数据支持 02 可观测建设背景 日益复杂的系统架构精准快速的排障要求 质量不高的指标数据 分布式、微服务、云计算等技术的发展,运维对象的数量急剧增长,运维对象之间的关系日益复杂,使得运维人员要处理的问题更加复杂 为确保良好的用户体验,对运维人员在系统发生故障时的排查速度和解决速度提出了更高的要求,尽管系统的复杂性导致故障排查难度随之增加 无法感知的单点算法 在复杂系统中,仅仅关注单点日志或者单个维度的指标,并不足以帮助我们掌握系统的整体运行状况。 指标数据存在数据源多、离散性高、数据结构不一致以及数据获取困难等问题,难以支撑智能运维算法的全面落地 遇到的问题 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 03 可观测落地实践 可观测体系设计思路 平台 推进数智化运维服务平台建设,完善数据集成、数据开发和数据服务等功能,为数据高速流动、实时共享和场景应用提供平台支持 算法 持续研究优化智能算法,赋能运维一线人员,提早发现风险隐患,快速定位故障根因 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 数据 以用户体验和业务为中心,落地建设多维度、多层次运维指标体系,同时针对指标数据进行专项治理,提升数据质量 运维指标体系构建 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 建立横纵结合、多层次、多维度的运维指标体系,涵盖基础环境、存储、网络、容器云、服务器硬件、操作系统、数据库、中间件九大主题域,共计626个标准监控项,并对指标进行标准化定义、分类和属性划分。 具有证券行业特性,可准确量化展现系统运行状态及业务价值,为数据分析、智能运维场景等提供数据基础。 指标数据治理 加工指标实例 运维数据开发平台 加工指标实例抽样同步校验 运维数据治理平台 加工后质量门禁算法接口 加工前质量门禁算法接口 加工指标实例质量主动报警 加工指标质量标准 数据资产目录及多维度管理和标记 数据质量告警 数据质量分析 数据服务分析 数据标签管理 数据血缘分析 数据服务目录 数据治理分析和数据服务管理 数据质量门禁服务 数据质量门禁服务 加工质量门禁算法接口 32 汇总指标实例 平台指标 第三方指标 汇总指标抽样同步校验 汇总指标质量标准 Influxdb 数据同步与下发 数据湖库表及kafka结构同步 数据校验结果汇总 日志实例校验任务 指标实例校验任务 告警实例校验任务 日志与指标实例映射任务 指标实例与CMDB、 指标模型映射任务 告警与指标、CMDB 映射任务 日志实例抽样同步任 务 指标实例抽样同步任 务 告警实例抽样同步任 务 数据标准下发任务 数据模型接口服务 各类日志结构、指标模型、告警结构、配置模型… 数据质量门禁服务 元数据管理 库管理 Schema管理 Kafka管理 数据质量规则管理 指标、日志、配置项… 完整性 唯一性 有效性 一致性 准确性 及时性 运维数据源 配置项、应用架构、日志、报文、指标、告警、知识、管理 数据质量门禁服务 数据质量门禁服务 11 原始日志报文 汇总指标质量主动报警 数据模型管理 最终数据 运维数据湖 汇总数据 指标模型 日志模型 告警模型 配置模型 报文模型 架构模型 知识模型 工单模型 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维指标体系与指标治理的关系 数据治理平台 运维数据湖 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维数智化运维服务平台建设 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 实现多源数据集成与算子化、可编排的数据实时计算,提供各类算子30余个,日均分析日志数据15T以上,覆盖100+重点系统。 纳管多样化运维数据,包含指标、日志、调用链、告警、CMDB、统一架构等共计6大类数据资产。 提供丰富的数据服务,目前已应用于智能运维算法、RPA、容量等多类数据分析场景。 2w条/分钟数据量 第1层维度组合 层次化剪枝 基于嫌疑程度的蒙特卡洛树搜索 第2层维度组合 第N层维度组合 异常维度集合 交易明细数据 .. . 异常检测 多维异常定位算法简介 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 基于“影响力”的异常检测算法 层次化剪枝蒙特卡洛树搜索算法 在上万种维度取值组合中快速定位最有嫌疑的维度 单指标异常检测监控到http_error事件的错误数有突增。 展示所有可疑维度组合 当前维度组合在告警前后 (红色背景为告警后)详细的指标变化情况 多维异常定位算法优化提升 010203 数据过载时算法性能瓶颈如何克服 利用基于Flink实时流处理技术,可自定义维度属性,完成前端错误明细数据的降维聚合。 *高峰时期的数据量能减少 2/3,极大提高计算效率。 *形成可复用的多维指标数据,可供更多下游场景使用。 总量变化不大时如何定位异常根因 根据业务逻辑对全量数据进行拆分,按业务类型进行异常检测及根因定位。 *既可以避免逐一监控带来的监控面板爆炸以及数据量不足的问题,又可以避免监控全量数据带来的漏告风险。 *先定位问题场景,再进行多维下钻,可以节约大量计算开销,提升计算速度。 降维导致的错误维度缺失如何避免 将原始数据按照N:1抽样,再接入多维算法。 *通过少量样本可以把握住整体特征; *一分钟内完成抽样明细数据的分析,能准确定位�错误明细维度的根因。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 多维异常定位算法效果 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 提升故障根因排查效率 充分利用前端错误明细数据,快速、准确地定位异常根因维度,相比传统人工逐个维度进行分析的方式,有效提升根因维度的分析效率和定位结果准确性。 打通前后端监控壁垒, 实现全面可观测 可观测成为开发与运维的桥梁,系统前端业务报错和后台系统的联动,使得原本在后台系统无法感知的异常也能被运维人员及时捕捉,对于系统的安全稳定运行有积极的意义。 2022年3月 ↓40% 2022年12月 算法准确率达80%以上 直观展示故障影响范围 当业务指标异常时,在大规模错误明细数据中明确故障事件的影响范围,为管理员提供关键排障线索,有效缩小故障排查范围。 基于CMDB和历史告警数据构建软硬件知识图谱及告警知识图谱,给出故障发生时的疑似根因路径,缩短运维人员的排障时间。在拓扑结构准确、组件关键告警未缺失的前提下,根因定位节点在TOP3的命中率可达70%以上。 构建软硬件知识图谱 去噪,多故障拆分 构建故障传播子图 构建软硬件知识图谱 根因链路推理 基于知识图谱的根因定位算法简介 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 基于知识图谱的根因定位算法效果 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 在拓扑结构准确、组件关键告警未缺失的前提下,根因定位节点在TOP3的命中率可达70%以上。 通用性强 基于图推理的根因 定位方法适用于分布式架构的多种类型的异常 可解释 可自动梳理告警风暴背后的逻辑关联,直观展示 异常传播链。 诊断。 本算法方案 只需要少量人工干预并且可以适应应用的动态变化。 自适应 复杂系统数字孪生模型的探索实践 采用数字孪生方法论将复杂IT系统抽象为灰盒模型,引入指标相关性分析,构建数字孪生外层,融合多种观测数据,构建数字孪生内核,基于模糊测度和马尔科夫链理论建立系统运行态模型,评估系统健康度、发现系统隐性故障、辅助故障根因定位。 数字孪生观测框架多指标分析体系设 计 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 复杂系统数字孪生模型的探索实践 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 小尺度测量:采用的是非线性相互作用建模算法,基于节点的输入和输出特征集构建节点的非线性影响权重量化模型,可准确量化不同输入特征对输出特征的非线性叠加影响。 02 大尺度建模:基于小尺度模型的基础上对小尺度测量模型进行量化、离散化,以离散马尔可夫链模型刻画节点在不同小尺度测量模型上的动态迁移过程,从而在较长时间尺度上构建节点的运动规律。 03 点的正常、异常状态比例,从而根据特 健康度打分:通过记录节点在状态迁移过程中的性能指标,则基于统计出节 定标准给节点健康度进行统计打分。 复杂系统数字孪生模型的探索实践 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 实时观测 通过将运维对象数字孪生化,可视化更直观 提前预测 比现有工具提前至少5分钟上报故障 发现异常后可以快 速给出异常根因,提升故障诊断效率 故障诊断 04 总结与展望 关键产出指标 标准监控项覆盖 600+ 推动前端报错减少量 实时采集数据量 多维异常定位准确率 10T+ 80% -40% 70% -5分钟 数字孪生算法告警较传统监控提前量 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 根因定位节点在TOP3的命中率 全面提升系统可观测性 02 •拓展数据治理范围,实现全域运维数据治理 •强化数据分析能力,优化数据使用体验 •融合安全治理 •拓展系统级数字孪生算法 •故障趋势预测算法 •运维排障树 01 03 •完善核心业务流程覆盖范围04 •持续推广应用,挖掘场景 . 加强平台赋能 •强化可视化能力,快速理解系统状态和趋势 •标准化故障处理流程 •建立算法研发流水线,提升算法研发效能 未来展望 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Thanks DevOps时代社区荣誉出品