北森Zabbix高可用方案实践
北森监控系统的历史演进
- 1.0版本:使用Zabbix 3.x,大量自定义采集脚本,Grafana 2.0
- 2.0版本:升级至Zabbix 4.x,引入多数据中心和垂直扩展,Grafana 2.0
- 3.0版本:采用Zabbix 6.2,减少自定义脚本,多数据中心和水平扩展,Grafana
- 4.0版本:未详细说明
当前架构存在的问题
- Zabbix Server单点:存在单点故障风险,维护成本高
- Zabbix Web Frontends单点:同样存在单点故障风险
- 低版本:依赖大量自定义脚本,性能较低
Zabbix单点遇到的问题
- 修改配置文件:重启时间长,导致监控数据中断,告警失效
- 升级与扩容:需要长时间停机,影响业务连续性
Zabbix高可用架构的优势
- 双节点:减少单点故障风险,提高维护便利性
- 负载均衡:Web前端可根据负载快速扩容
- 业务无感知:维护期间业务不受影响
Zabbix高可用架构设计和实施
- 设计需求:Server双节点,Web前端双或多节点
- 架构图:未展示具体架构图
- 升级流程:
- 数据库备份
- 搭建MySQL主从结构
- 断开主从同步并升级
- 确认从节点正常后切换
- 重新搭建主从结构
- 验证功能正常
新版本带来的优势
- 管理清晰:主机组和模板组分开
- 功能增强:问题页面和主机页面新增过滤器
- 采集效率:Agent全面升级,减少自定义脚本
- 指标丰富:基础模板更新,采集指标更丰富
Zabbix开源社区支持体系
- 社区交流:每日社群交流
- 资料支持:每周每月每年免费手册和图书
- 订阅服务:99元/年,2500元起,59,800元起
总结
通过Zabbix 6.0及以上的高可用架构设计,北森解决了单点故障风险和维护不便的问题,提升了系统的稳定性和维护效率。