传音移动互联可观测体系设计与落地
一、背景与现状
- 市场地位:传音控股在非洲智能手机市场的份额达到47.9%(IDC数据)。
- 广告平台:传音移动互联广告平台是非洲主流营销平台之一,助力广告主通过移动端媒体实现精准有效触达。
二、可观测挑战
- 观测对象多且杂
- 微服务多,调用链路复杂
- 新服务上线频繁,运维工作量大
三、可观测性整体设计思路
- 指标观测:分层设计,至上而下
- 告警驱动运维:通过IM完成事件闭环
- 问题定位:以链路为主,日志为辅,指标到链路必须打通
- 技术标准:优先采用开源标准和云服务标准
四、观测视图设计
- 资源层观测:包括内存、CPU、网络带宽等
- 容器层观测:包括Pod、Deployment、Node等
- 云服务层观测:包括SLB、Redis、MQ、RDS等
- 应用层观测:包括应用健康度、实例数、慢SQL等
五、全生命周期观测指标设计
- 资源层观测:监控内存、CPU、网络带宽等
- 容器层观测:监控Pod、Deployment、Node等
- 云服务层观测:监控SLB、Redis、MQ、RDS等
- 应用层观测:监控应用健康度、实例数、慢SQL等
六、观测视图
- 关键业务指标:全球全栈统一业务关键指标视图
- 应用性能技术观测大盘:全局多维度大盘
- 云监控:使用阿里云Grafana服务和Prometheus探针
七、告警平台
- 从告警盯人到基于群的ChatOps转变
- 事件处理:等级评估、分配处理人、状态追踪
- 智能告警平台:对接飞书群,内置告警数据分析
八、全链路追踪诊断系统
- 自动接入容器环境,提升运维效率
- 生成全局拓扑,展示微服务依赖关系
- 端到端追踪,快速定位慢调用和错误
九、可观测架构
- 覆盖资源层、容器层、PaaS层和Web层
- 全球多地域统一可观测架构,统一视图和告警目标
- 基于Prometheus统一指标,通过ARMS应用监控构建全链路追踪系统
十、可观测价值
- 运维第一界面:建设告警体系
- 问题排查定位:引入应用性能观测
- 提效用户侧定位:加入用户体验观测
- 可观测左移:前置到开发测试态
以上是对传音移动互联可观测体系设计与落地的总结,涵盖了主要的内容和关键数据。