智能运维可观测平台建设 演讲人:微博高鹏 1.基础设施研发 2.监控产品演进 3.AIOps应用 4.数据科学应用 5.未来展望 1.基础设施研发 2.监控产品演进 3.AIOps应用 4.数据科学应用 5.未来展望 LB K8s CD CI 运维基础设施 服务日志 成本优化 服务拓扑 SLA 服务端 小程序 H5 PC APP 客户端 APP JS 垂类监控 根因 无阈值 智能报警 Trace 点查 链路追踪 可观测平台 大数据引擎 ClickHouse 链路监控 内部全链路协议 OpenTelemetry 智能报警 全局Tracing StreamlitSuperset 自研分析工具 PlotlyDash RShiny Grafana 数据分析 Prometheus (VictoriaMetrics) Loki Hadoop: 技术栈复杂,“航母拉面包”即席查询几乎不可能 ES: 资源占用高查询不友好 Flink/Spark:繁琐 Prometheus: 不具备数据分析能力 高性能低成本SQL语法社区活跃 30台服务器,每秒写入量500w每天写入量3K亿条,P99响应时间500ms 基础设施架构 目录 1.基础设施研发 2.监控产品演进 3.AIOps应用 4.数据科学应用 5.未来展望 从产品侧监控到全路径监控 客户端APM监控 产品可用性的最后一公里 客户端APM监控 多维度质量监控与分析 客户端APM监控 用户侧异常回捞与分析 后端链路监控 目录 1.基础设施研发 2.监控产品演进 3.AIOps应用 4.数据科学应用 5.未来展望 传统监控的困境: 1.业务多样性:同一场景,不同业务,差异巨大,导致添加报警繁琐无比 2.周期差异性:不同时间范围,波动巨大,导致无法固定阈值“一刀切” 3.数据多维度:维度众多,出了问题不知道是什么导致的,导致报警只能是“吹哨” 无阈值报警 同一资源,不同链路,各自训练模型 报警根因分析 根据“关联规则”,给出占比最高的组合 多级服务日志关联 定位问题产生位置 目录 1.基础设施研发 2.监控产品演进 3.AIOps应用 4.数据科学应用 5.未来展望 Log分析 智能报警 故障排查闭环 调用链路分析 Metric分析 故障排查 压测 运维生命周期 性能优化 上线 静态资源分配,造成资源浪费 动态资源分配,减少低峰期浪费 数据会撒谎 点估计vs区间估计 面积图、小提琴图 反应数据真实分布情况 时间序列热力图 多维度动态数据展示: 1.时间 2.颜色 3.大小 4.X轴 5.Y轴 快速构建前端工具 用户查询工具 用户查询工具 ChatGPT生成查询SQL 目录 1.基础设施研发 2.监控产品演进 3.AIOps应用 4.数据科学应用 5.未来展望 引入存算分离架构数据仓库 ChatGPT数据分析 DB 后端 LB 客户端 宏观可观测 内核 虚拟化 网络 微观可观测 实现全路径观测 盲区可观测、真根因分析 THANKYOU!