混合云全景可观测技术架构探索与实践
技术挑战
- 全栈可观测:实现指标、链路、日志三位一体的全栈可观测。
- 全景可观测:涵盖业务、应用、云实例、云平台、基础设施五位一体的全景可观测。
- 全生命周期的可观测:从故障发现、定级、定界到处置的全过程联动。
关键技术架构
-
监控架构:
- Sunfire架构:集中式调度,消息驱动,高效基于消息的异步调度,分布式部署。
- 实时计算架构:Map-Reduce与Prometheus融合,提升Prometheus的高可用能力。
- 指标监控与链路监控:集成Prometheus与Skywalking,实现调用链信息与应用性能监控指标联动。
-
事件中心:
- 事件去重与丰富:支持有状态与无状态事件去重,丰富元数据与业务树。
- 事件聚合与处置:自定义聚合维度,智能聚合历史关联事件,事件认领与诊断。
-
云+应用一体化运维:
- 统一事件中心:提供丰富的南向与北向集成能力,支持各种场景下的容灾能力。
- 智能化框架:算法功能迭代,从智能基线到智能诊断,智能配置推荐。
实战案例
-
某大型能源企业:
- 监控体系:总部与省侧两级监控,实现SaaS、PaaS、IaaS层全面覆盖。
- 效果:原始消息报警事件通知2000+条/天,一周告警数据汇总,业务监控大屏展示。
-
某党建类项目:
- 监控体系:业务、应用、云资源三层全链路监控,快速发现故障并锁定问题。
- 效果:成功发现一次线上故障,快速锁定为SQL语句错误。
-
某省份政务钉、政务中台:
- 监控体系:业务、应用、资源全面监控,故障处理快速响应。
- 效果:监控发现率超90%,业务故障5分钟快速响应,重大故障15分钟快速恢复。
通过以上案例可以看出,混合云环境下的可观测能力在提升系统稳定性、故障处理效率方面具有显著优势。