全链路监控告警在嘉银科技的落地实践 分享人:黄泳 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 黄泳 上海嘉银科技SRE负责人 全面负责嘉银科技的SRE部门工作 •主导嘉银科技的AIOPS全链路可观测 •灰度发布CICD工具流程设计 •CMDB&ITSM产品架构设计 •智能运维平台开发建设 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 嘉银监控架构设计 目录嘉银告警管理 嘉银智能可观测实践 未来展望 01嘉银监控架构设计 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 嘉银科技基础设施概览 6000+ 虚拟机 3000+ Pod数量 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 1100+ 物理服务器 2000+ 微服务 嘉银复杂业务下的监控告警挑战 数据规模庞大告警风暴控制 多地域多环境 监控工具压力较大 先知,先决,先行 监控告警的滞后性 指标管理难度大容量增长无法预测 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 故障根因定位困难 低效告警太多故障处理时效长 嘉银智能监控发展历程 海量告警数据管理 大模型应用 积极探索大模型生态在智能化运维的实 引入CMDB数据仓,对监控告警资源识别 告警数据清洗、降噪 监控订阅,阈值调整研发自助式服务 践 提高智能化监控告警的场景覆盖率 进一步丰富知识库和优化故障诊断系统 2022 2024 2023 2021智能监控告警实践 监控告警平台建设 全面进入Prometheus时代 建设统一监控告警平台 接入skywalking,日志,公有云等数据源 指标中心建设 多场景的智能巡检建设 故障自愈部分场景落地 引入知识库和故障诊断系统,根因分析并给出解决方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 A机房 B机房 公有云 PrometheusNode1 PrometheusNode2 PrometheusNode3 Alertmanager Alertmanager Kylin API VictoriaMetrics VictoriaMetrics VictoriaMetrics Vmalert Prometheus 非洲 Prometheus 北美 Vmalert ConsulCluster ConsulCluster ConsulCluster LB Grafana Prometheus 东南亚 基于VictoriaMetrics的Prometheus集群架构 02嘉银告警管理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 嘉银监控告警流程 监控告警全生命周期管理 监控数据源 Kylin告警事件加工 二郎神告警策略 告警处理 CMDB告警丰富 监控工具 Prometheus 告警数据加工清洗 告警分派 故障 skywalking 公有云监控 对象识别 对象关联 日志监控 告警模板 知识库 分派策略 告警过滤 告警抑制 告警订阅 告警合并 阈值调整 事件关联 告警屏蔽 企业微信 告警渠道 故障UIOC 告警派发 电话 告警卡片 知识库沉淀 认领 屏蔽 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 安全态势感知 业务指标 告警事件处理引擎 工作流引擎 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 告警WEB平台告警发送告警数据处理数据来源 趋势预测 智能巡检 事件变更墙 CI/CD CMDB ITSM运维工单 统一监控告警平台——告警事件中心 嘉银统一监控告警平台建设 告警规则管理 告警展示 告警终端 告警规则增加,更新告警阈值按需设定告警WEB平台 告警统计分析告警生命周期告警屏蔽/认领/忽略告警停留时长SLA 告警处理流程告警模板管理 企业微信短信 电话 排班管理告警渠道管理告警分派策略告警认领 告警数据清洗告警聚合(合并)告警抑制告警静默(主动)告警降噪 Prometheus监控SkyWalking业务指标日志监控系统外部云平台 嘉银四层监控体系建设 业务异常定位 借款进件 客户信息 资金路由A 资金机构 交易节点A 风控资金路由B交易节点B 应用异常定位 依赖关系 资源异常定位 硬件异常定位 进件服务A 配置A K8S PodA 计算A存储A网络A 进件服务B 主机A 防火墙A 核心 交换机A 接入交换机A 风控服务A 主机B 防火墙B核心 交换机B 接入交换机B 风控服务B 配置B K8S PodB 计算B存储B网络B GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 告警过多的问题怎么解? 告警噪音 告警发散 阈值不当 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 联动CMDB识别告警资源 PostgreSQL k8s_cluster 名称空间 k8s实例 部署环境 主机 redis 网站域名 主机 redis 基础应用 apollo集群 主机 redis redis集群 主机 redis 主机 redis CMDB 元数据 告警卡片示例 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 告警降噪流程设计 告警降噪利器:过滤,抑制,关联,合并 告警痛点 低效事件干扰 告警风暴 噪音事件异动 配置智能降噪 事件相似聚类类 指标相似关联类 关联规则挖掘类 告警降噪流程设计 告警事件 告警关联 否 例行维护 否变更 否 发布 CICD 事件变更墙 ITSM工单 CMDB 资源识别 03 先知,先决,先行嘉银智能可观测实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 全面的数据决定智能化的起点 日志数据 链路数据 指标数据 剖析数据 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 优质的数据决定智能化的高度 日志trace 基础设施监控 一站式全栈覆盖 云服务监控容器监控 端到端可观测 持续剖析 异构可观测数据源 红警监控 应用监控 雍和业务监控 数据库监控网站监控 大数据埋点 Prometheus 全局拓扑 智能洞察 会话追踪数据探索 二郎神风控业务监控 蔷薇微隔离观测 听云移动端 观测 前端埋点数据 白泽 终端溯源观测 应用实时监控 嘉银 AIOPS 变更事件墙 可观测链路Skywalking 多告警源集成告警收敛 告警生命周期管理 人工智能协同 SQL ITSM天路CICD自动化运维 Battle变更事件墙 智能告警 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 注:部分内容源于阿里云AIOPS GOPS全球运维大会暨XOps技术创新峰会2024·北京站 生命 适配各数据源接入指标 对基础指标进行分类和 统一数据查询接口,对外 结合AI,对指标进行趋势 通过阈值管理,对指标 指标数据、告警数据 周期 中心 计算,生成衍生指标 提供数据 预测、异常分析 数据生成告警 可观测 模块 模块 模块 模块 模块 模块 功能 prometheusskywalking 指标衍生组合 DataAPI分类查询 趋势预测异常检测 阈值管理告警发送 数据分层数据下钻 数据清洗 维度扩展 实时计算 离线计算 多维度查询 时间粒度 大模型 离群分析 告警存储 告警分析 实时更新 驾驶舱 数据存储 数据清理 数据存储 冷热分离 关联查询 实时查询 组合分析 根因分析 阈值推荐 订阅推送 业务大屏 阈值推荐 建设统一监控指标数据底座,夯实多场景的数据支撑能力 数据接入 数据治理 数据查询 智能分析 指标告警 数据可观测 分类 指标 指标 实现 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 专家经验 诊断规则引擎 故障诊断 根因分析 运维知识库 告警关联 自愈规则引擎 故障自愈 智能化可观测场景落地三板斧 先知 先决 先行 智能阈值 智能分级 智能巡检 趋势预测 先知——洞察之眼 分析数智化 AI通过性能指标和告警数据根据评价算法对业务健康度进行智能分析 智能巡检 趋势预测 通过运维专家经验预设的基线巡检项+GPT大模型对于巡检过程中收集的日志进行业务健康度360°评分,准确感知业务系统的健康状态 现世之眼 未来之眼 基于智能巡检结果,通过历史性能数据,使用大模型能力与算法库结合分析未来发展趋势,更好的利用资源以及提前对容量预警. GOPS全球运维大会暨XOps技术创新峰会2024·北京站 先知——挑战:没有放之四海而皆准的检测算法 –同比:对比同一个周期的值或多个周期的值 •突增:𝑥j>过去同一周期时刻的值*max_threshold •突降:𝑥j<过去同一周期时刻的值*min_threshold >𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙�>count_num $%1𝑥j−𝑥j"$ –环比:对比值的变化率 •单点比较:𝑥j−𝑥j"1>threshold •多点比较:𝑐𝑜𝑢𝑛�∑� •统计算法:k-sigma、箱线图、天/周同比、环比等 •时序分析/解类算法:EWMA、STL、RobustSTL •预测类算法:Holt-winters、ARIMA、Prophet、LSTM等 •机器学习分类算法:孤立森林、One-ClassSVM、各类有监督模型 适用于周期性强&周期固定不变的场景 𝑥j>�+3�or𝑥j<�−3� $ (�−𝜇)+ $%1 ∑� 1 𝑛"1 � –异常检测 �=𝑥1)𝑥2)⋯)𝑥�,�= 图片来源:https://blog.csdn.net/weixin_35259908/article/details/112541970 当前值是否过大或者过小 –历史数据 [𝑥𝑡|�=1...𝑛] –计算样本均值和样本标准差 适合数据偏正态/均匀分布的场景 注:部分内容源于阿里云AIOPS GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 先知——趋势预测案例 CMDB+指标中心 智能巡检 趋势预测分析 定位异常实例 故障事先处理 趋势预测告警事件 趋势恢复正常 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 生成报告与GPTprompt 训练中心 数据集选择 算法模型选择 真实数据拟合 多种算法进行趋势预测投票 Linear ARIMA LSTM 对话窗口交互式解读报告给出相关自动化操作 自动化操作pipeline LLM 知识库 指标中心 指标定义 指标组合建模 数据集验证 数据处理 数据抽取 数据处理 周期识别 先知——智能巡检 先知——智能巡检系统案例 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 先决——挑战:如何快速实现根因分析? •CPU •Memory •Disk •IOUtil 机器节点 •OOM •Crash •QPS 服务节点 机器1 服务 1 服务 2 服务 3 服务 4 机器4 机器2 服务 5 服务 6 机器3 •Slow •TimeOut •RT 调用关系 云原生环境下,服务之间拓扑复杂,一个应用可能直接或间接地调用了几十上百个微服务需要快速、准确、低成本地定位根因 注:部分内容源于阿里云AIOPS GOPS全球运维大会暨XOps技术创新峰会2024·北京站