热门搜索：

何碧宏-全链路监控在根因分析和业务监控中的应用

信息技术2024-07-05ArchSummit深圳2024|全球架构师峰会话***

AI智能总结

全链路监控在根因分析和业务监控中的应用

1. 全链路系统监控

背景：针对大型微服务系统的问题，构建了一个全链路系统监控系统。
关键技术：
- 调用链与图数据库：通过实时记录和解析调用链数据，构建服务之间的调用关系图。
- 全球化架构：支持跨区域多机房多集群的基础设施及应用关系的实时拓扑图构建。
- 功能：
  - 警报风暴根因分析：通过警报拓扑图快速定位故障原因。
  - 全链路优化：基于调用链图分析优化全链路。
  - 变更影响分析：评估代码变更对全链路的影响。

2. 全链路业务监控

背景：为了更好地发现和定位业务故障，构建了一个全链路业务监控系统。
关键技术：
- Clickhouse存储：用于提高数据处理效率。
- 原文埋点系统：精细化用户行为回溯，支持业务异常数据发现。
- 全链路系统串联：前端异常到后端的全链路分析。
功能：
- 业务链路故障定位：自动推送业务链路拓扑图，可视化故障发现及前后端串联定位。
- 警报风暴评估：识别受影响业务并自动识别开发负责人，针对性功能验证。
- 跨多集群海外业务：支持复杂跨集群海外业务故障定位。

3. 魔方语言自动化根因分析

背景：为了进一步提高故障定位的准确性和效率，引入了魔方语言自动化根因分析系统。
关键技术：
- 魔方语言：融合各数据源，自底向上逐级分析，支持多种故障分析规则。
- 系统架构：可访问公司内部所有数据，融合数据进行重新组合、融合分析。
- 效果：
  - 定位服务准确率：90%以上。
  - 故障定位时间：从几分钟缩短至几秒钟。
  - 版本迭代：从V1版本的40%准确率到V3版本的90%以上准确率。

4. 效果

2021-2024年：全链路系统监控和魔方语言自动化根因分析系统的实施显著提高了系统的稳定性和故障处理效率。
具体效果：
- 故障数减少：2024年相比2023年上半年同期，故障数显著下降。
- MTTR缩短：多数故障可在1分钟内定位，大幅减少了应急响应时间和次数。
- 业务影响评估：精准识别受影响业务并快速定位根因，提高了业务恢复效率。

通过上述系统和技术的应用，大大提升了系统的稳定性和故障处理效率，为企业带来了显著的效益。

全链路监控在根因分析和业务监控中的应用群核科技（酷家乐）云原生观测与SRE技术专家/何碧宏讲师介绍何碧宏目前为群核科技（酷家乐）云原生观测与SRE团队负责人、技术专家，稳定性委员会成员，参与SRE、公司SaaS系统稳定性保障工作。此前在诺基亚工作十年，参与过诺基亚DevOps平台的架构和搭建。演讲提纲 •群核科技（酷家乐）SaaS系统及云原生观测系统（Tetris）简介 •全链路系统监控 •Why-大型微服务系统遇到的问题 •How-基于调用链与图数据库构建实时全链路系统监控 •全链路系统监控在警报风暴根因分析、全链路优化、变更影响分析中的应用 •全链路业务监控 •Why-系统监控vs业务监控 •How-全链路业务监控系统的建设历程 •How-业务监控几大重点工程的突破 •全链路业务监控系统在前后端串联、业务影响分析、多集群海外业务监控中的应用 •定位时长缩短90%-基于全链路监控系统的自动化根因分析实践 •全链路监控系统及魔方语言自动化根因分析系统应用后效果家居家装商业空间地产建筑设计渲染营销展示生产对接施工落地Coohom 全空间云设计软件平台服务覆盖200多个国家和地区 2B为主系统大型微服务架构服务分布式部署在腾讯云、各渲染、内网、自建机房、海外等八个机房以及公有云典型客户 AIOps 异常检测故障预测根因分析流量预测时序指标预测大模型前端监控系统前端异常监控前端性能监控前端监控SDK 前端埋点前端日志埋点系统 Tetris云原生观测系统根因分析魔方语言告警拓扑图图数据库全链路监控警报切面图鲲鹏诊断私有云监控应用监控主机监控硬件监控公有云监控中间件监控专线监控网络监控告警系统告警计算引擎告警处理系统告警规则管理企信通知 Alertmanager 告警发送系统告警事件管理短信电话通知业务监控业务埋点业务链路故障定义故障与工单统一查询层调用链系统日志系统指标系统 hunterSDK 日志SDK 埋点系统farosSDK f ilebeat 天级指标秒级指标 kafka 分钟级指标 esdruid flink clickhouse thanosprometheus 对象存储故障定位难业务异常时，下游可能多个服务有异常，但下游服务的异常并不一定跟当前业务异常有关；底层服务或基础设施故障时，往往引发大规模警报风暴，应急手忙脚乱，定位难全链路优化难一个业务或功能，下游调用链路非常复杂漫长，下游服务也被多个上游和业务调用，如何找到准确的优化点、以及全链路的核心依赖，进行全链路优化，难度高变更影响评估难精准测试难一个API被多个上游和业务使用，一次变更，如何评估影响到了哪些服务、哪些功能和业务，进而进行端到端、全链路精准测试，不是一件容易的事需要构建一个系统，帮助全链路故障根因定位、优化、变更评估一个典型的API复杂调用链路一个API的下游调用依赖拓扑图几十个下游服务，十几个不同类型中间件一个典型的警报风暴故障一个API的故障十几个下游服务都有异常，告警异常数数百个基于调用链技术，实时写入，近实时的调用拓扑关系微服务写入缓存根因分析微服务微服务调用链Span kafka Flink 图数据库拓扑图关系查询 API分析变更影响分析实时调用链数据流实时解析写入图数据库微服务 AIOps API及应用全链路拓扑图的构建：基于调用链与图数据库构建 A invoke B 实现技术要点： Span1：服务A API=POST/A 调用服务B API=GET/B Span2： •APOST:/A •BGET/B A invoke B invoke C •APOST:/A Span3：服务A API=POST/B 调用服务D API=POST/D A invoke BD •DPOST/D C 1.图的构成：节点与关系 2.节点包含前端页面、前端微服务、网关、后端微服务、中间件、基础设施等多种类型，使用标签区分，每种类型的节点有不同的标签 3.服务节点有type、name、cmdb、环境名、 stage、集群信息等标签 4.对于API拓扑图，节点是API 5.每个节点有唯一的hash，用于判断是否需要新建新节点，hash由上面标签生成服务B API=POST/B 调用服务C API=POST/C •BGET/B •CPOST/C 3个Span随机顺序写入，完成后，即构成了完整的API调用拓扑图 6.调用链数据量非常大，采用采样机制，以整条调用链为单位采样解析写入图数据库 7.在写入图数据库的客户端，需要使用缓存，避免短时间内相同的节点重复写入，减少图数据库的压力 8.每个节点都记录更新时间，设置超期时间，定期清理过期的关系，太久没有更新，可能是微服务代码变更失效了全球化架构：跨区域多机房多集群基础设施及应用关系实时拓扑图的构建腾讯云集群 AWS集群（全球多个Region）实例1 主机1 实例1 服务实例2 主机服务主机2 实例2 实例3 跨集群专线国内自建渲染集群百度云主机 GPU1 GPU2 主机 4080 4080 其它公有云线下集群实例1 主机 GPU1 GPU2 主机 4090 4090 服务主机实例2 构建服务、实例、主机与集群、网络、专线间的实时关系，用于基础设施类故障的根因分析图数据库拓扑图能力基于图数据库构建的拓扑图获得的能力 A invoke H invoke D invoke invoke F invoke B invoke 我 J E invoke invoke 属于 G invoke 主机 invoke C 属于 K 集群属于机房连接专线查询上游查询下游查询关系 • • • 查询直接上游查询所有上游查询指定类型、标签上游广泛用于变更影响分析上 • • • 查询直接下游查询所有下游查询指定类型、标签下游广泛用于应用与业务故障的根因分析与定位 • • • 服务与主机主机与集群集群与专线、网络广泛用于基础设施问题的根因分析与定位、变更影响评估根因分析中的应用：警报拓扑图案例：定位Hbase引发的故障 1.按依赖拓扑图展示所有上下游，当某个节点有故障时，特别标记，在警报风暴时，能很快速识别底层应用的故障 2.拓扑图中可查看任意结点的所有相关指标、日志、调用链、警报、上下游服务、中间件、存储、宿主机等数据，故障时，快速定位根因节点根因分析中的应用：基于警报切面图与警报拓扑图的排查路径点击进入警报拓扑图，分析根因 1 警报切面图看全局 2 重点警报警报拓扑图分析警报切面图分级查看故障的业务影响、关键服务、组件、基础设施是否有异常选择可疑警报，进入警报拓扑图，进一步分析链路上的问题基于全链路API调用拓扑图实现API全链路分析、优化高耗时、错误API治理 API架构、复杂调用链路优化基于API调用拓扑图分析： • • • • • • 强弱依赖的梳理降级、限流、熔断配置的梳理调用放大（上游一次调用调用下游多次）、错误重试、循环依赖的治理简化、缩短、合并调用链路依赖的中间件的梳理、依赖的中间件的必要性跨机房、跨集群、跨专线调用的服务，尤其对于涉及海外业务的服务基于耗时、错误率查询出待优化API： •网关API •各服务重点API •前端业务卡顿、报错依赖的API 进入该API的全链路拓扑图逐个分析拓扑图中各依赖节点的指标，分析主要问题点基于全链路API调用拓扑图实现变更影响分析代码变更-->API变更-->所有上游 API-->所有网关API-->所有前端页面扩缩容、隔离、实例挂掉实例-->服务-->所有上游变更影响分析配置变更-->所属服务-->所有上游主机、网络设备、网络、专线变更，基于图数据库的所属关系评估变更是故障的主要根因之一，故障的变更根因分析与变更分析类似系统监控业务监控系统监控有成熟的开源监控体系系统监控有成熟的指标采集体系，各种exporter+prometheus，部署后也有现成的看板直接查看故障发现主要基于系统指标，有业界标准比如CPU、内存、线程数等指标，都有业界标准的异常识别标准保障对象主要为系统主要保障服务、主机、网络、系统等业务监控数据更多样，需定制配置，更复杂业务埋点需要基于业务情况进行设计，需识别出业务数据、业务流程、业务链路的异常，不少需定制化设计算法主要靠业务埋点、以及业务异常数据发现系统有异常，并不一定业务表现有异常；业务有异常，不一定系统指标有异常，业务逻辑类故障难发现难调查，MTTR高以客户、业务为中心，重点保障重点客户、核心链路SaaS系统对于重点客户的保障，往往级别很高，需要对重点客户重点保障，提升重点客户的业务故障定位能力和效率很重要；同样核心业务链路也是重点保障内容之一构建一个全链路业务监控系统，帮助全链路发现、定位业务故障使用Clickhouse存储提效，开发原文埋点系统，改造调用链实现全保留，精细用户行为回溯系统建设等 1 业务监控基础工程大改造升级对核心业务、故障定义进行埋点、指标监控定义核心业务、故障定义指标，进行埋点3 对业务链路、业务指标创建告警规则，实现告警业务链路告警、监控5 对业务链路、业务功能进行梳理，并对业务链路和功能进行分级，区分核心、重点链路，对核心链路进行故障定义梳理，重点保障 2梳理业务链路、核心业务、故障定义建设全链路业务监控系统，将梳理的核心业务链路、业务功能、故障定义、埋点的指标录入系统，并实现前端、业务埋点、后端全链路系统的串联 4 建设业务链路系统，串联前后端及业务基于全链路业务监控系统，在业务发生故障时，基于链路进行分析定位 6业务链路的全链路分析、故障定位业务监控几大基础工程重点突破用户行为精细回溯业务监控基础工程重点攻关 •成为前端老大难问题的分析定位利器，回溯故障发生前的所有操作和指标数据 •尤其是大对象、大设计方案、特殊参数类故障，定位能力大大提升，定位时长缩短 •记录与分析用户的每一个操作及操作链路，以及相关的日志、指标、调用链，尤其是前端卡顿、OOM、崩溃等重要事件 •解决了Prometheus高基数指标问题 •复杂计算公式的支持，大大提升了对业务数据、业务流程、业务逻辑类异常的发现 •对重点用户实现用户级、方案级精细指标埋点和故障定位 •调查问题不再缺调用链 •基于调用链，可以查看故障时的每一个请求的参数、各链路耗时、错误信息、请求次数等 •串联前后端，从前端异常到后端的全链路分析调用链全采样保留 •采用Flink实时分析，Clickhouse存储了所有调用链，并对重要链路分级存储原文埋点系统 •基于Clickhouse的原文埋点系统，既支持原始记录数据查询，又支持秒级、分钟级、天级复杂计算公式的聚合指标查询，实现指标-原始记录的联合下钻分析 Clickhouse替代ES改造 •单位存储成本降低60%，性能提升50%以上 •节省出来的机器，支持更多的业务和数据 •改造原有系统，大范围使用Clickhouse替代es 业务故障的发现及前后端串联定位自动推送业务链路拓扑图截图，可视化前端业务故障，拓扑图串联前后端，并标识可能的后端根因节点大型警报风暴中，业务受损情况发现与评估大型警报风暴中，识别哪些业务可能受到了影响，并自动识别对应的开发负责人，业务恢复时，有针对性的进行功能验证复杂跨多集群海外业务故障定位前端业务网络 A集群后端服务 B集群后端服务 •海外业务的调用链路非常复杂，跨越多个集群和专线，有些集群的流量又同时包含海外与国内流量，故障定位一直是难点 •接入全链路业务系统后，很多故障已经能够可视化的快速定位自动学习积累专家定

点击免费查看完整报告