上海银行数据中心Zabbix智能运维建设实践
运维监控现状与挑战
- 监控运维面临的时间覆盖性、告警有效性、处置及时性、使用便捷性等问题。
集中化实现
- 建立了指标体系、日志规范,通过数据治理将告警、链路以及拓扑形成有效关联。
- 实现全行告警总览,提供重要应用健康画像,展示关键运维数据。
- 引入AIOPS,利用大数据、机器学习等技术提升节点感知、异常发现和故障预测能力。
- 自动化运维服务治理,提升监控部署和故障处置效率。
Zabbix监控纳管情况
- 监控节点超过1万+,监控项超过200万+,触发器超过50万+,每秒处理超过2万+次请求。
监控覆盖度(广度)
- 通过CMDB为基准发现监控盲区,涵盖逻辑性、完整性、一致性和准确性四大类共1209项检查。
- 数据与其他特定上下文的相关性、逻辑性、一致性、准确性检查确保数据准确可靠。
监控覆盖度(深度)
- 监控范围包括基础软硬件、关键应用(交易)、操作系统、数据库、中间件、硬件、网络、动环等多个方面,总计监控项达800多个类别。
智能异常检测
- 采用智能异常检测算法,如交易量连续为0即告警,显著提升应用异常发现能力。
- 基于传统固定阈值告警进行优化,减少误报和漏报。
五分钟定位与十分钟恢复
- 利用数据治理和智能告警平台,实现自动开单率达到100%,动态压缩告警率高达50%。
- 借助调用链定位算法,实现故障定位时间在5分钟内,准确率超过80%。
- 故障恢复流程自动化,提高故障处置效率。
后续展望
- 推进数字孪生统一监控管理,实现可观测性、用户体验、业务指标、APM等方面的全面提升。
- Zabbix开源社区提供丰富的支持体系,包括社群交流、专家答疑、在线课程等,满足不同需求的用户。
通过上述措施,上海银行成功构建了一套高效、智能的运维监控体系,提升了整体运维水平和服务质量。