Zabbix监控系统实践总结
一、项目背景与需求
九江银行在数字化转型过程中,面临业务系统规模扩大、业务连续性要求提高、以及新技术应用带来的挑战。为了提高运维自动化和智能化水平,九江银行选择了开源监控平台Zabbix。
二、原有监控平台痛点
- 功能较弱:历史数据存储和分析困难,告警条件设置灵活性差。
- 缺乏自动化手段:监控项漏加,操作配置复杂,增加人工成本。
- 对新技术适应性差:难以监控开源组件和大数据。
- 厂商支持力度不足:更新缓慢,二次开发公司较少。
三、基础监控平台选型
通过对比Zabbix、Prometheus、OpenFalcon、Nagios等监控平台,最终选择了Zabbix,原因如下:
- 完全覆盖监控指标。
- 强大的扩展性和灵活性。
- 完善的服务支持和培训体系。
- 全开源解决方案,无社区版和收费版区别。
四、Zabbix监控平台建设历程
- 2019-2020:Zabbix基础监控平台上线。
- 2020-2021:统一事件管理平台和智能分析平台上线,迁移Nagios监控指标。
- 2021-2022:实现基础监控指标全覆盖,完善监控体系。
- 2022-调研阶段:基础监控平台调研,准备替换原有监控平台。
五、Zabbix监控平台架构设计
- 高可用:采用Keepalived实现Zabbix Server和数据库的高可用。
- 监控对象:涵盖操作系统、数据库、中间件、应用、硬件等多种类型。
- 监控规模:主机9500+,监控项58万,触发器36万,Proxy4,模板98,用户数64。
六、Zabbix实践经验
- 光纤交换机光链路监控:通过监控端口计数器信息,了解链路状态。
- 统一事件和智能分析:实现统一事件管理、性能查看、趋势预测和根因分析。
- 容量分析:定期分析并发送邮件提醒,提前进行清理或扩容。
- 文件系统和表空间自动扩容:支持文件系统和Oracle ASM表空间扩容,提升效率10倍。
- 统计报表:通过Grafana展示各类监控数据。
- 日常运维:监控Zabbix性能,排查无效监控,优化命名规范和数据库日志。
七、未来展望
- 运维走向运营:以业务为导向,实现监控的数字化转型。
- 运维工具平台化:完善和整合现有工具链,实现运维数据标准化。
- 可观测性监控体系:构建基于指标、日志、调用链的监控体系。
- 智能化监控:利用大数据技术实现告警根因分析和故障自愈。
八、开源社区支持
- 社区支持:每天社群交流,每周每月每年都有专家答疑和技术交流会。
- 学习资源:提供从入门到精通的支持体系,包括在线课程、认证培训和方案咨询。