基于海量应用日志交易故障的快速定位实践 项目建设背景 AIops智能运维 智能运维发展趋势及政策导向 •国家政策导向: •2021年以来,我国对智能运维及其相关领域保持着高度重视,在《2021年政府工作报告》与《2022年政府工作报告》中指出各企业需推动产业数字化智能化改造,促进数字经济发展。 •同时,各行业也紧跟国家政策出台了相关的指导政策。在金融领域,陆续出台了《“十四五”数字经济发展规划》、《金融科技发展规划(2022-2025)》、 《关于银行业保险业数字化转型的指导意见》等一系列文件政策,表明在未来一段时间内,数智化转型将是金融行业高质量发展的重要基础和重点方向。 数据来源:中国IT智能运维行业发展趋势分析与投资前景研究报告(2023-2030年) 运维大数据平台建设 运维大数据平台于2021年正式上线运行至今,“上”有应用场景为业务赋能的目标逐层实现;“中”对于算法进行了全面的优化与适配,通过智能时序算法判断运维指标异常故障,提升告警效率;“下”以海量运维数据做支撑,规范日志标准,交易流水等基础数据,以全局视角观测核心IT业务系统的健康状态,以业务形态对象生成链路拓扑,对业务指标实时监控,动态展现,快速定位链路中故障,辅助汇总链路错误信息,定位根因业务系统告警。 各类消费场景 告警 自动抑制 优 先级排序 告警 历史分析 异 故障常 场景检 挖掘测 多指 标根因定位 异常 模式检测 拟 合度分析 全 链路监控 指 标化提取 实时消费 历史查询 系统画像 数据处理层(基于数据治理规则对原始数据进行清洗加工) 统一采集 统一监控采集 三方监控采集 流程管理数据 配置管理数据 先进技术 hadoop大数据技术FLINK流处理 Kafka消息处理 Agent日志抓取 智能运维规划思路 平台场景支撑 业务日志数据治理可视化数据分析 业务日志串联分析 场景化事件监控 运维提效目标 缩减运维人力投入提高事件处理时效 提高数据准确性 提高人工产效 项目创新方案 运维大数据平台 数据采集分析 数据支撑 场景1 业务交易指标 机器学习 故障主动发现 场景2 推荐根因告警 交易日志串联 链路自动生成 辅助快速排障 项目创新方案 打造智能运维场景,开展智能运维体系建设,提升运维效率,为金融行业高质量发展和数字化转型增效赋能。 建设目标 指标性能监控面临的6大突破 存在误告 依赖固定阈值或 规则,误告率高 01 维护困难 系统、策略、交易繁多,阈值维 护起来负担重 02 潜在风险 会忽视一些潜在 问题,被动监控 03 管理困难 缺乏指标体系, 管理混乱 04 数据壁垒 不同的监控工具指标难以关联分 析 05 处理困难 指标数量多,来源复杂,实时性 要求高 06 灵活智能 •多种异常检测算法 •根据节假日自动调整检测模式 稳定可靠 •实现百万级指标实例的检测 •实时更新算法模型及参数 动静结合 •动态阈值结合固定阈值红线 •多种窗口检测模式 日志交易串联的三大难题 格式不规范 200余套业务系统,大部分存在着日志格式不规范的问题:无交易唯一标识,全局流水号不唯一等 交易太复杂 我行存在着2-3万余种交易链路,且例如手机银行转账这种热点交易存在着十多种系统反复互联,梳理难度大 人工维护难 在日志串联使用初期,只有网联等链路简单、交易重要的链路在应用,随着系统推广,对链路的维护愈发困难 全链路交易串联的初步建设 解决方案 科技部每月发布“应用系统交易链路清单“,了解内容后确定建设方案 功能投产 通过一个月的开发建设后,在生产环境进行了应用部署,正式导入链 路清单,配置生产数据 问题发现 通过在生产环境的实际应用后,发现链路数据的准确性差,同时导致根因推荐不准,且后期维护不便 捷 6月7月8月 全链路交易串联的落地方案 01 推动改造 02 自动生成 03 根因推荐 应用服务网关系统作为承载我行约99%以上的交易总线,通过推进网关系统对交易码注册表改造,新增详细调用信息供大数据消费分析 通过定时批量获取网关系统交易调用关系表,和基于日志智能拓朴系统间直连交易链路,自动化生成全行业务交易链路,实现全链路交易串联 联动告警平台产生的实时告警数据,通过定时任务消费全链路关系数据,智能判断、定位问题系统,生成推荐告警,并将并发的干扰告警归类 项目建设成效 实现各类业务运行指标监控:交易量、失败率、交易耗时等,协助生产运维事前发现风险隐患 **网银交易异常报错 发现了在夜间低峰时段,**网银“查询明细”类交易码失败率增高,交易量增长,反馈业 务人员,定位用户风险操作 **网银交易异常增长 在1-2月内,**网银转账类交易码交易量翻至之前的3倍,异常捕获后,通过排查,发现有部分客户进行洗钱操作 以全局视角观测业务系统的健康状态,以业务对象生成链路拓扑,对业务指标实时监控,动态展现。对发现异常的业务系统,通过对交易日志分析,下钻调用链路,查询故障日志,快速定位链路中故障。通过查询故障日志快速完成问题的分析及处理。实现了应用交易全链路自动生成,解决了运维人员难以梳理、维护交易链路的问题,在快速配 置后,可在平台快速查看单笔交易在我行系统的走向、交易日志及各系 统指标状态。 统一监控告警平台之前每月有千余条运维大数据产生交易告警,在某个系统发生故障时,会同时触发10余受影响系统的连锁告警,这些告警同时出现时,一线值班人员在处理排障需花费大量时间进行分析。在链路自动生成的基础上,通过自研算法,生成业务系统的推荐跟因告警,系统根据已经生成的上万条链路,自动查询检、判断每条告警的原始告警,快速定位到具体系统,对故障系统单独生成推荐告警,同时将已经生成的多条告警进行归类,为一线排查人员排除干扰项,加快了事件的快速定位、分析及解决的进度,提升了运维效率。 链路详情展示 链路交互概览 事件根因定位 串联查询 一键搜索查询单笔交易在多个系统的交易日志 可视化联动 事件发生后,可大屏快速展示交易联动,专家快速决策 报表输出 提供链路数据、交易指标一键导出,供二线分析 告警联动 查询交易链路,快速概览节点相关系统告警指标 根因推荐 告警风暴时生成推荐告警,协助快速定位问题系统 愿景:智能运维体系化建设 1 交易路径判断耗时 96198/业务报障 统一监控告警 ECC值班一线 开发/业务人员 交易指标繁多复杂系统之间层级混乱 2 3 1 2 3 服务器查看日志慢开发协作沟通低效 传统运维的故障处理耗时在30-40分钟 日志分析 过度依赖传统经验 可视化大屏展示 可视化展示业务链路,快速预览决策 指标智能告警 触发应急场景快速恢复业务 AI根因推荐 ECC值班一线 开发/业务人员 根据推荐告警,通过日志平台快速分析 日志平台同步在线分析,多项指标快速预览 案例 定位到密管系统3台服务器无服务 自动触发应急场景, F5隔离故障设备 事件处理时间3分钟以往类似事件20分钟 时效提升显著 为其他系统提供能力 混沌工程和演练 流量切换 限流熔断 故障隔离 故障自愈 自动化平台操作 设备存储指标告警 设备 网络线路、流量指标、日志告警 网络 系统指标、日志告警 系统 APM工具可定位问题代码 联动知识库和历史数据可给出问题建议 南北向结合 数据定位故障组件 东西向全链路交易串联定位故障应用 CMDB IT 建设方案 应用交易故障 应用日志、状态告警 应用性能告警 应用交易告警 应用 故障发现 各类告警 故障定位 故障恢复 联,消费应用交易链路关系 数据,可定位故障应用系统。 给出问题原因,APM工具甚至 定位到Java应用的问题代码。 告警数据结合全链路交易串 联动知识库和历史数据可进一步 告警数据结合CMDB数据,根据应用系统内部南北向技术栈调用关系,可定位发生问题的IT组件。 提高运维建设效率 运维从被动到主动 各运维场景自动化及智能化的建设与实施,使得操作执行效率大大提升,操作完成时间得到保证。一键升级发布,大幅减少操作时间,降低手工升级误操作风险;灾备切换场景探索有效提高应用系统RTO和RPO水平;应急处置场景探索提高了应急效率,管控操作风险。 通过智能预警,运维人员对生产系统的运维模式由被动式故障抢修转变为主动式故障预判。对通过运维大数据平台发现的生产异常预警指标或者系统,相关运维人员可以提前介入进行重点监控、问题定位和故障排查,主动应对可能发生的生产事件,提高可生产系统的可用性。 运维的场景化体系化 运维多领域深化赋能 建设统一的运维入口,避免工具割裂化的竖井管理,形成面向各位运维群体的标准化、可视化、服务化的操作平台,实现运维工具的流转和共享,让运维工作持续的模板化、服务化,将长期积累的经验和知识落地,形成运维生态化的发展体系,从而利于智能化场景的进一步扩大,提升数据中心服务质量和服务效率。 将运维人力从低水平、重复性劳动中释放出来,将其知识和技能应用于更有价值的工作和任务上,沉淀运维经验,形成知识库,提升系统可靠性,提高运维人员工作价值,打造智慧型运维专家团队;除了传统的质量、效率类场景,为运维管理、安全管控等领域进行赋能也同样是智能化运维发展的重要方向;