总结
一、传统Zabbix监控的瓶颈
- 监控主机:监控指标量级达到10万,告警规则有上百条,数据粒度为1分钟。
- 扩展性问题:随着业务容器化,监控需求大幅增加,Zabbix无法应对万级别的监控需求和千万级别的服务调用。
- 多云部署:在混合多云和多机房场景下,Zabbix缺乏有效的跨机房集群方案。
二、引入Prometheus带来的改变
- 支持云原生:Prometheus原生支持Kubernetes,具备丰富的适配器,并在开源社区活跃。
- 解决时间线膨胀问题:通过结合大数据平台的流计算能力,实现时间线维度收缩,将明细数据写入CKafka。
- 边缘计算 vs 中心计算:边缘计算在成本上有优势,而中心计算适合全局视图。中心调度下的混合计算方案能够根据实际情况灵活调整。
三、以应用为中心重构观测视角
- 观测视图重构:围绕应用的SLI(Service Level Indicators)指标进行考量,将观测视角从应用转移到容器,再到主机。
- 信号展开与转换:通过信号展开和转换,实现观测内容从指标到链路,再到日志的转变。
四、未来的展望
- 接入AIOps能力:自动制定基线,自动识别故障点,自动拾取典型链路,实现无阈值告警。
- 基于eBPF的想象空间:提供基于eBPF的安全可观测性能力,实现深度的可观测性,无需更改应用程序即可实现网络、内存等层面的可观测性。
通过以上措施,趣丸科技成功解决了传统监控工具面临的扩展性和适用性问题,构建了更加高效、灵活的应用可观测平台。