监控运维新业态,赋能企业构建统一观测能力 主讲人: alvinyan(闫鹏) 传统监控无法满足云原生时代的运维需求 迭代速度更快 Waterfall Agile DevOps Plan 开发模式 Monitor Code Operate Build Deploy Test Release 数据中心时代 分布式时代 云原生时代 随着DevOps模式的普及,开发、测试、部署、交付的周期都有明显的缩短,迭代速度大幅提升 架构更复杂 从单体架构,到分层架构,再到微服务架构,系统架构并没有趋向 于简单,反而变得更复杂 Monolithic N-Tier Microservices 系统架构 PhysicalServer VirtualServers Containers 部署模式 部署更动态性化 更短,系统规模更实时的匹配业务负载 随着容器化普及和弹性伸缩能力的提升,每个应用实例的生命周期 DataCenter Hosted Cloud 基础设施 成本更难控制 更多的异构云资源引入到系统中,不合理的云资源配比会导致严重的资源浪费,对成本控制提出了更高的要求 APM 点、线、面逐步升级:构建统一观测的立体视角 监控(Monitoring)绘制了系统的点状快照,APM(应用性能管理)串联了这些点成为性能流转的线,而可观测性( 统一可观 测性 监控 点 线 面 基础设施监控 指标0/1监控 告警 异常监测 分布式追踪 全景视图 用户体验 可视化和警报 事件关联 指标、链路及日志 Observability)则将这些线条扩展为全面的面,提供了系统的全景视图。 Request-scopedmetrics Aggregatable Metricsevents Aggregatabl e Traces Requestscoped Request-scopedevents Logs Events Requested-scoped aggregatable events 应用运行产生的离散的事件记录,可以通过 文本、结构化数据、二进制数据的方式表达,带有时间戳信息和额外的上下文信息 高效运维 根因定位 全局观测 日志 在分布式系统中,一个请求从接收到处理完毕整个生命周期跟踪路径,体现不同服务之间的依赖关系,以及每一个环节的执行情况 链路 ⼀段时间内测量到的数据,以数值的形式表达,带有时间戳信息,并通过标签添加额外的维度信息,相同维度之间的指标可以聚合计算(分组、累加、平均等) 指标 IDC 真实PC端 20万+拨测点,2000+城市 真实手机端 基础设施 …… …… 网络质量 业务应用 用户体验 AndroidiOS小程序Web PaaSIaaS 腾讯云可观测平台(TCOP):构建云原生一体化可观测能力 1可观测数据源 2可观测数据源 3运维场景释放可观测产品价值 应用性能监控APM 应用性能优化 应用故障定位 持续剖析 系统瓶颈定位 调用链追踪 慢SQL分析 Prometheus监控服务 Grafana服务 多云监控 业务指标监控 云产品监控大屏 基础服务监控 TKE容器监控 自定义监控 终端性能监控RUM-APP APP网络治理 APP卡顿优化 APP崩溃分析 前端性能监控RUM-Web 访问日志查询 前端故障定位 前端性能优化 云压测PTS 迁云性能评估 大促活动备战 业务上线压测 业务性能评估 云拨测CAT 可用性监测 劫持监测 CDN质量优化 网络质量优化 四、分钟级故障定位 1.端到端全链路打通,前后端无缝对接 2.打破运维沟通壁垒,提升运维效率 3.实现业务至基础组件的深度关联 三、系统稳定性保障 1.全链路混合压测解决方案 2.线程剖析提前解决系统瓶颈 3.应用及网络可用性巡检,提前发现系统问题 二、用户满意度提升 1.页面性能及异常持续优化 2.重点VIP用户体验保障及故障溯源 3.外部网络质量保障 一、系统全局观测 1.全面系统健康量化 2.全局资源使用率监控,实现资源降本 全局业务表现 全局统一观测 用户满意度提升 系统稳定性保障 分钟级故障定位 用户体验分析 全局统一观测能力,驱动业务质量提升 URL 用户视角排障 用户ID 基础设施监控 容器性能检测 traceI D 全链路追踪 容器 标签 全局统一观测 用户满意度提升 系统稳定性保障 分钟级故障定位 页面 URL PVUV 捕捉真实用户访问行为,提升用户满意度 腾讯云RUM实时捕捉用户在不同设备和网络条件下的交互行为,从页面加载时间、响应速度到交互流畅度,提供详尽的性能指标。利用这些数据,企业能够深入洞察用户行为模式,从而提升用户满意度和业务转化率。 指标量化 JS错误 21,979个 对比昨日 32.52% Promise错误 31,213个 对比昨日 54.20% Ajax请求异 38,常176个 对比昨日 49.92% JS加载异常 186个 对比昨日 12.68% 图片加载异常 11,660个 对比昨日 28.93% css加载异常 0个 对比昨日持平 音视频资源异常 0个 对比昨日持平 接口返回码异常 0个 对比昨日持平 aegis.report 32,687个 对比昨日 31.14% 用户体验 设备类型 分类统计 不同区域 多维分析 案例 用户小王 网站打不开呀?! 我试试!网站打不开呀?! 开发者小马 原因:存在信息断层 全局统一观测 用户满意度提升 系统稳定性保障 分钟级故障定位 1 梳理压测方案 2 对环境进行混合压测 3 凸显环境性能瓶颈 4 故障举证或修复 5 环境版本对比及复盘 性能可观测 全方位可观测能力 瓶颈可优化 混合压测发现系统瓶颈 效率可提升 快速修复,提升发版效率 效果可呈现 多版本对比,快速验证 多场景压测 前端性能表现 链路性能表现 基础性能表现 混合压测一体化方案,为系统稳定性保驾护航 全局统一观测 用户满意度提升 系统稳定性保障 分钟级故障定位 日志Logging(CLS) 容器Metrics 服务端Tracing Profiling 端到端全链路追踪,实现分钟级故障定位 通过端到端链路整合,实现了全方位性能监控与问题排查。从前端页面到应用程序、日志以及容器基础设施等各个环节,能够进行细致的性能监测。这样的全面监控不仅有助于提升系统整体性能,还可确保高可用性,进而为用户带来卓越体验。 前端页面性能 腾讯云可观测平台TCOP 零门槛接入,开箱即用 功能和交互体验体验优于开源,无需要定制开发 按需使用,成本更低 自动弹性伸缩,高可用,无性能上限 构建端到端全栈一体化可观测方案 腾讯云可观测平台(TCOP)对比开源优势 开源方案 接入门槛较高,学习成本高,文档缺失 功能和交互体验无法满足要求,依赖二次开发 运维和资源投入成本高 需要自行解决高可用性和性能问题 开源系统之间联动性差 云拨测CAT 云压测PTS 前端性能监控RUM-Web 终端性能监控RUM-APP 应用性能监控APM Grafana服务 Prometheus监控服务 云监控CM 帮助企业实现降本增效,日常运维效率提升 30% 按需使用,成本优化 60% 自动化巡检,提升效率 70% 排障效率提升 腾讯云可观测平台(TCOP)的演进路径 CLB负载均衡 云原生API网关 全链路追踪 应用诊断 GC分析 统一资源 资源聚合 资源分级 资源定义 数据类型 事件 日志 链路 指标 一体化能力建设 统一数据源 一体化可观测平台 云产品集成 多语言 能力 云拨测 应用生命周期 TSF微服务平台 容器服务 云压测 前端性能监控 应用性能监控 统一呈现 下钻关联分析 全景视图 Dashboard 基础 数据关联 事件 日志 链路 指标 统一管理 API 数据分析 数据存储 数据接入 监控 Grafana 服务 阶 观 测 能 力 应用安全 攻击阻断 安全漏洞扫描 安全攻击检测 根因定位 线程分析 内存快照 高 Prometheus监控 可观测增强 云服务解析 EdgeOne 场景应用 统一资源可观测视图 系统资源占用巡检 前后端链路打通 全生命周期性能测试 网络质量优化 用户体验护航 腾讯云可观测平台(TCOP)公众号可观测平台技术交流群