“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践 吴天昊 中国联通软件研究院副总架构师 “ 讲师简介 吴天昊 中国联通软件研究院副总架构师 www.top100summit.com 负责数字化生产运营保障体系建设与落地负责数字化监控平台整体架构设计及演进 致力于完善“平台+应用”生态体系,打造联通集团自动化生产和智慧化运营的生产运营平台 ” www.top100summit.com 目录 01数字化转型运维问题挑战 02数字化监控平台整体架构 03智能运维场景的应用实践 www.top100summit.com 一、数字化转型运维问题挑战 问题痛点 故障如何快速发现故障如何快速抢通 指标纷繁复杂看不全,看不清? 各层级数据不互通共享,铁路警察各管一段? 告警无人关注,处理缓慢?痛点 故障如何快速定位 系统调用关系复杂,故障排查困难? 云化架构下容器服务与主机关联关系不清? 只知道有问题,不知道问题出现在哪里,根因无法定位? 需24小时运维值守,无法故障自愈及自动化? 故障发现无法及时拉会,故障管理质量效率低下? 无应急方案,应急操作时候全是问题? 故障如何优化预防 故障反复出现,复盘改进没有效果? 全链路性能瓶颈点和容量水位上线不知道? 隐患无法察觉,没有提前治理优化? www.top100summit.com 云原生下一些常见的典型故障 故障根因在SaaS服务下的实例 故障根因在PaaS组件 www.top100summit.com 故障根因在IaaS主机故障根因在外部接口 www.top100summit.com 数字化转型运维面临的挑战 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继,如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 应用软件: 监控对象:几何级数增长,人力维护不能胜任 中间件: 硬件: 成千上万硬件 几十种中间件清单 可数小型机 几套Oracle 上千个微服务 几个Jar包 分布式架构挑战 维护对象:系统节点、微服务数量几何级数增加 调用关系:从简单对应到极其复杂,人力维护无法胜任 数据分片、异地存储,传统维护模式难以为继 运维生态挑战 工具重复:工具按烟囱式建设,能力分散 调用承载关系极其复杂,亟待引入运维工具 能力割裂:运维工具能力割裂不成体系 数据孤岛:应用、数据库、中间件、云平台、基础设施各管自身 业务连续性挑战 故障处理过多依赖专家经验,系统服务间调用链路复杂,故障分析定位困难 端到端的稳定性保障体系缺失,自动化、智能化故障应急处理能力不足 故障处于被动防御、救火,没有提前预防手段,运维大数据未被合理价值挖掘 www.top100summit.com 二、数字化监控平台整体架构 数字化监控平台功能架构 基于云原生下的生产运营支撑平台,以全局运营视角解读IT运维,提供端到端、全层级的运维工具支撑,依托大数据与人工智能技术,助力企业数字化业务高效、稳定运行,从传统运维向自动化生产、智慧化运营转变。 PC端(谷歌/火狐/360) 生产运营工作台 B/M/D域核心触点能力 钉钉端 cBSS联通公众智慧门户开放 核监控管理 心浏览器、APP监控日 配置管理 运行保障(自动化生产)自动化运维 变更管理 稳定性测试接收测试 业务连续性故障管理 软研院计费运维 运营生态 省公司 上海二级研发 服务台沃运营 运营响应(智慧化运营)知识管理 沃运营 问题管理沃运营 亚 中 应健全流程调用链监控志 用康智能监控告警平台心 开 统一架构微前端qiankun 发微服务 支联通云平台 服务能力管控 撑天梯持续集成 传统CMDB 云化CMDB 统一登录统一登录鉴权账号体系管理 接入便捷 灵活对接第三方登录 自动化作业 故障自愈 任务调度平台 变更追踪 服务注册 服务鉴权 自动化巡检压力测试 服务路由 自主接入 用户体验感知运营 流量控制 在线申请 天擎运维 天宫栈运维 新客服运维基础设施运 维 熔断 代理路由 广东二级研发山东二级研发 开发者中心API服务订购SaaS应用上架 数据API接口快速配置运营分析 一体化运营 开发手册前端框架样例UI组件样例 权限集成样例API接入样例 补天平台订单医生 能 力共享 APIAPI 权限中心用户管理 基菜单管理 础租户管理 能应用管理 管控平台 文件通道 数据通道 命令通道 力 数据采集浏览器 服务性能中间件主机资源 APP感知天擎服务云平台网络资源 监控告警告警通知告警处理 告警静默告警查询 作业能力作业编辑作业调度 作业执行作业查看 AI算法动态阀值能力指标异常检测 指标趋势预测日志异常检测 ITSM流程引擎 流程编排 流程调度流程执行流程查询 配置中心配置发现配置采集 配置拓扑配置查询 基础数据运维数据库管理数据查询 数据稽核任务调度 工单运营服务工单查询工单处理 工单评价工单分类 知识库服务知识存储知识管理 知识搜索知识推荐 及时通讯服务消息接收消息推送 多类型消息消息群组 第三方能力短信发送IVR语音推送 钉钉消息邮件发送 基亦庄IDC 主机设备 CCS 础设施 阿里飞天 CKE 网络设备 网络设备 网络设备 网络设备 阿里飞天 西咸IDC CCS 主机设备 阿里飞天 CKE 无锡IDC CCS 主机设备 阿里飞天 CKE 广州IDC CCS 主机设备 呼和IDC CCS 阿里飞天 CKE 主机设备 网络设备 www.top100summit.com … www.top100summit.com MysqlRedisClickHouseElasticSearch MongoDB 微前端 用户中心 权限中心 告警中心 … MarathonA(租户1) MarathonB(租户2) 联通云 Marathon kubernetes Mesos 数字化研发平台 配置中心 MarathonC(租户3) 数据采集 数据处理 数据存储 Flink Kafka PrometheusPinpoint SDKJSAgent 数字化监控平台技术架构 www.top100summit.com “平台+应用”体系——生产运营工作台 数字化监控平台的生产运营工作台采用“平台+应用”模式,借鉴苹果AppStore仓库模式,构建“企业运维生态”,提供PC/移动多终端处理能力,入驻应用100+。 统一规划 统一架构统一登录统一权限统一能力统一风格 www.top100summit.com 三、智能运维场景的应用实践 智能运维核心场景 智能运维核心场景要做到端到端的故障发现、故障定位、故障调度、故障处置、故障整改、故障预防。 智能隐患分析统一监控告警 及时发现 全层级实时监控,1分钟故障发现 智能定位 深度系统健康体检,全链路性能隐患分析,压降系统隐患 故障闭环整改 故障上报、报告编写、治理追踪全流程线上化闭环管理,确保故障经验有效沉淀,整改措施有效落地 涵盖业务层、前端触点层、服务层、组件层、资源层的全层级监控覆盖 数智一键智能诊断 运维 指标、链路、日志三位一体,实 现故障快速发现、根因准确定位 全链路深度追踪,5分钟故障根因定位 快速抢通 自动化应急预案,15分钟故障快速抢通 闭环治理 统一故障调度智能故障自愈 灵魂拷问,举一反三,100%故障闭环追踪 故障事中一键拉会,统一作战指挥室,有序调度故障处理,实现业务快速抢通 AI智能决策引擎有效识别系统裂化风险,自动完成实例查杀、重启等多种场景 有效预防 应急演练、健康检查、智能自愈,3重保障 www.top100summit.com www.top100summit.com 统一监控告警 统一全层级监控标准,纵向互联互通,打破分散割裂格局,实现全层级、全链路、端到端的性能监控和链路追踪 以系统、租户为维度纵向互通 对外能力接口成功率、超时率 业务成功率、发展量、工单积压等 PC:页面耗时、AJAX耗时、JS报错、弹窗APP:崩溃率、卡顿率 应用指标采集 服务/接口调用量、超时、异常等 ES、REDIS、MLB、NGINX等 联通云中间件 联通云 RDS、DRDS等中间件指标 容器 CPU、内存、流量等 主机 CPU、内存、硬盘、IO、流量等 基础设施 网络 负载均衡、交换机、防火墙的CPU、流量、连接数等 业务 接口 应用自建中间件 后端应用 前端触点 统一采用PROMETHUES 互传 全层级监控 APP端 前端触点感知 全 层级健康检查&日志 APP性能监控 APP崩溃率、卡顿率等 PC端 前端浏览器监控 页面加载时间、请求响应等 服务应用链路 全流程调用链 服务调用链路、调用量、成功率等 核心业务指标 中间件/数据库 智能监控告警平台 基础监控指标及闭环告警通用平台 基础资源/、 容器平台 智能监控告警平台 平台提供IaaS、PaaS、SaaS各层级监控能力,实现多层级运维数据互通,支持全流程可视化配置,多渠道告警通知,工单闭环管理,用户快速实现监控接入,为系统日常生产运行提供保障。 数据采集:采集组件管理、私有数据仓库接入、租户自定义采集监控配置:告警规则、收敛条件、告警内容 静默管理:多维静默管理(全量、监控点、监控实例)告警通知:告警工单推送、电话催办 告警处理:双终端工单处理、工单闭环管理 告警大屏:系统监控告警全景图、告警工单处理进度 制定全层级指标标准346项 www.top100summit.com 全流程调用链监控 通过探针非侵入式采集,实现调用链实时追踪、全层级故障根因定位。支持多租户、多系统接入、服务链路拓扑、多维根因定位分析、告警配置等功能。 服务调用关系、趋势图、报错分类(系统/业务) 调用拓扑服务趋势/报错异常 全流程调用链拓扑自动生成,分租户管理 实例/接口分析 调用链与云化CMDB做关联,关联到容器与主机 SaaS/PaaS/IaaS JVM/GC分析告警配置 PaaS层组件、平台容器资源情况,IAAS层主机资源 服务实例JVM与GC情况分析 调用量、超时、异常黄金指标多指标自由组合 www.top100summit.com www.top100summit.com 跨系统分布式追踪 支持跨系统、跨云平台(CKE/CCS/EDAS)、跨数据中心(亦庄、西咸、廊坊、无锡)链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,日均处理近千亿数据。 cBSS新架构 智慧客服 公众中台 政企中台 管理中台 西咸数据中心(联通云CCS4.0) sinker flink kakfa clickhouse collector-server 系统 agent 系统 agent 新客服 agent 亦庄数据中心(联通云CCS2.0) sinker flink kakfa clickhouse collector-server 系统 agent 天眼 agent cBSS agent 亦庄主资源池 创 新 点 : 跨 数 据 廊坊数据中心(阿里飞天EDAS) sinker flink kakfa clickhouse collector-server 天擎 agent 政企中台 agent 公众中台 agent flink clickhouse collector-server 天擎 agent 政企中台 agent 公众中台 agent 无锡数据中心(联通云CKE4.0)中 心 链 路 sinker clickhouse neo4j mysql kafka 装 组 kakfa 分布式计算、单元