太平洋保险基于Zabbix的智能监控体系
监控平台建设历程
- 2008-2018: 集中建设监控平台,逐步引入BMC等商业软件。
- 2017-2020: 探索BMC产品的替换方案,尝试使用开源监控产品,最终确定以Zabbix作为解决方案。
- 2014-至今: 逐步实现运维工具平台的智能化、前台化、自动化、脚本化、ITIL化及操作级标准化。
基于Zabbix的一体化监控平台
-
部署情况:
- 分布式部署:覆盖测试、灾备、生产三套环境。
- 纳管主机:60000+,网络设备:4600+。
- 适配209种网络设备型号。
- 监控指标数量:2200+。
-
主要特性:
- 特有的触发器功能:实现多个阈值组合触发告警。
- 阈值定义:设置监控项目的模板,减少配置工作量。
- Zabbix代理服务:实现快速的横向扩容。
- 数据导出功能:可实时导出监控数据,实现与数据平台对接。
- 自动发现功能:通过宏变量,实现告警信息丰富与填充。
遇到的问题及解决方案
- 单套Zabbix纳管数量有限:搭建多套运维难度提高。
- 网络设备监控易遗漏:自行研发指标翻译工具,形成监控管理知识库。
- 指标阈值配置复杂:结合CMDB的设备状态更新,实现状态联动。
- 监控对象生命周期管理:通过Zabbix Server导出功能生成数据文件,对接运维数据中台。
- 历史数据查询性能:适配信创,优化历史数据查询。
使用成效
- 降本增效:告别软件使用许可限制,软件采购费用下降。
- 减少监控盲点和无效告警:纳管配置工作量明显下降。
- 数据开放性:可灵活定制个性化场景。
融合监控数据,打造智能监控平台
- 运维数据治理:
- 公共维度层:建立数据资产清单,加工后的元数据进行生命周期管理。
- 元数据层:封装插件式的数据处理工具,实现按需获取。
- 智能告警与派单:
- 可配置化派单和收敛模型,有效抑制无用告警。
- 实现标准告警接入模块,快速对接开源监控工具。
- 运行基线预警:
- 应用关系拓扑:
- 提升关联准确度,基于图数据库特性,秒级绘制关系拓扑。
- 多维度健康诊断:
智能运维体系愿景
- 目标:实现“提前发现,立即处置”的目标。
- 未来课题:
- 容器化监控与故障分析。
- 数字孪生与实际数据融合。
- AI算法加持的预测与排障。
- 混沌工程推动工具发展。
Zabbix开源社区支持体系
- 社区交流:每天社群交流,每周每月每年的技术分享。
- 支持方式:LTS全程免费,99元/年/12节干货课程,专家答疑在线课技巧放送,峰会技术交流会。
- 学习资源:中文使用手册,中文图书,小额众筹支持。
通过以上总结,可以看到太平洋保险基于Zabbix构建了一套完整的智能监控体系,实现了高效、精准的监控和故障预警,显著提升了运维效率和数据管理能力。