背景 目录 探索与实践 背景 一体化运维体系(e海智维) 事件统计 事件统计 从海通证券的历史事件统计来看,目前的主要痛点是由程序质量问题产生且首次发生的生产事件。早期证券行业的IT投入较少,系统大多以外购为主,这导致一些遗留的应用系统无法对日志进行结构化修改,程序一旦产生问题,需要大量人力和时间去排查和处理。另外,证券行业应用系统的日志也具有鲜明的行业特点,如夜间期间跑批、节假日休市等等。 日志监控方案 日志是运维中最常用的数据之一,是表达系统运行状态的重要载体。 行业研究和现状 落地应用 算法研究 在格式规范的日志上,很多聚类算法效果良好。 已落地该场景应用的用户体验效果欠佳。 主要瓶颈和挑战: 主要瓶颈和挑战: ①算法适配性,难以保证稳定的告警准确性;②在业务流量高峰时存在明显监控延迟。 ①没有利用日志模式的语义特征;②缺少针对券商行业日志复杂性和多样性的算法;③分析性能难以支撑券商行业大流量日志。 行业研究和现状 探索与实践 整体方案 提出一种能够适应于券商业务的语义级日志异常检测模型,在不依赖关键字规则的情况下,准确感知系统故障。 异常检测包括基于自然语言处理的语义理解技术、基于无监督算法的模式解析技术与时序数据异常检测技术,异常检测流程为:日志输入–》语义识别—》模式解析–》异常检测–》结果输出。 1、基于语义特征的异常检测模型 第 一 阶 段 检 测 日 志 语 义 中 是 否 包 含 异 常 信 息 ,第 二 阶 段 检 测 日 志 中 包 含 的 异 常 类 型 。 •针对第一阶段日志语义中是否包含异常信息的问题,采用机器学习与深度学习中的二分类算法(如SVM、RandomForest、Bert等),训练模型,将日志分为正常日志与错误日志。 •针对第二阶段日志异常语义中包含哪种类型异常的问题,依据智能运维业务场景中语义类别进行梳理,将日志中包含的异常类型分为网络异常、数据库异常等类型。然后采用 机 器 学 习 与 深 度 学 习 中 的 多 分 类 算 法(如RandomForest、BERT等),训练模型,判断日志语义中包含的异常类型。同时,利用日志来源检测模型对日志、异常的来源进行理解,扩展异常检测模型对日志的感知能力。 2、基于依赖度的日志模式识别算法 本 方 案 提 出 一 种 基 于 词 频 依 赖 度 的 特 征 计 算方 式,计 算 每 个 单 词 相 对 同 一 条 日 志 中 其 他单 词 的 依 赖 度,提 高 被 依 赖 度 低 的 单 词 识 别为 变 量 的 概 率,综 合 词 频、位 置、结 构、单词 组 成 等 特 征,融 合 多 种 机 器 学 习 算 法,有效 解 决 准 确 判 定 同 一 单 词 在 不 同 日 志 模 式 同时 属 于 变 量 和 非 变 量 这 一 难 题。经 实 际 验 证,在 公 开 数 据 集 和 海 通 数 据 集 上,F1-s c o r e均超 出S O T A算 法。 3、基于行业特点的时序异常检测 本 方 案 提 出 了 一 种 融 合 滑 动 窗 口 与 层 次权 重 模 式 的 多 场 景 日 志 异 常 检 测 方 法(D W _ L o A D s)。首 先 经 过 同 比 日 期 选择 器,输 入 模 式 参 数,获 得 待 检 测 点 的同 比 日 期 序 列 ; 然 后 经 过 滑 动 窗 口 选 择器,自 定 义 窗 口 大 小 获 得 待 检 测 点 的 同比 时 间 点 矩 阵 与 对 应 的 取 值 矩 阵 ; 再 利用 层 次 权 重 模 式 对 待 检 测 点 的 同 比 取 值序 列 进 行 加 权 平 均,得 到 最 终 的 历 史 同比 取 值 序 列 ; 最 后 利 用n-s i g m a进 行 异常 检 测。 3、基于行业特点的时序异常检测 ①增加日历管理功能。含节假日和非节假日。节假日与非节假日的数据模式存在明显差异,因此将节假日的数据与节假日的数据对比,非节假日的数据与非节假日的数据进行对比,可以提高异常检测的准确率,减少误报。 ②丰富的场景异常识别。在时序异常检测算法的基础上融合了在场景领域的丰富的故障检测经验,包含了历史新增、时段新增、时段突增、时段突降等特别的异常检测算法。③异常自适应功能。某些异常在第一次发生时会给予特别的关注,但随着时间的推移,自适应的方法可以对重复出现的异常进行抑制。采用动态权重的方法对历史的数值进行修正,包括:a.增加滑动窗口,当前点的数据对和历史数据点前后5分钟数据进行计算(交易日对比交易日,非交易日对比非交易日),并且根据距离对应时间点的远近,设置动态的权重,以减轻单一时间点异常造成的影响。b.加权平均计算同时间段的历史数据,距离当前时间点越近的日期赋予更高的权重,该策略会使相同模式的日志随着训练时长增加,异常点逐渐消失,增加了异常检测算法的学习能力。 应用情况——智能日志异常检测 09:23:10 [ERROR] user 9A1登录失败,原因...09:23:13 [INFO ] user 9A9登陆成功09:23:16 [ERROR] can not connect DB 10.0.0.254:330809:23:18 [INFO ] user 9A5登陆成功09:23:22 [ERROR] user 9A3登录失败,原因...09:23:25 [ERROR]交易失败,交易类型AS_ITP_TRANSFER09:23:25 [ERROR] user 9A6 login fail09:23:26 [ERROR]交易失败,交易类型AS_CDS_QUERY09:23:32 [ERROR] user 9A8 login fail09:23:35 [ERROR] can not connect DB 10.0.0.254:3306 [ERROR] user ***登录失败,原因...[INFO ] user ***登陆成功[ERROR] can not connect DB 10.0.0.254:***[ERROR]交易失败,交易类型AS_*** 应用情况——智能日志异常检测 典型场景一 报错平时也有出现,但是数量较少,在故障时刻数量明显突增。 典型场景二 日志模式历史首次新增。 应用情况——智能日志异常检测 与现有监控体系融合 思考与展望 智能日志异常检测应用方向 持续探索创新技术应用前景,验证并落地有监督日志告警 增加落地覆盖率,实现所有重要系统日志全分析 拟验证并落地智能日志告警的深层场景,通过实时学习用户反馈,实现有监督日志告警,自动适应不同业务对异常判定的偏好需求,突破在异常检测场景难以统一适配不同业务场景需求的瓶颈,进一步提高故障发现率和准确率。 大幅提高落地覆盖度,同时继续对海通日志格式进行适配和调优,并在告警内容中增加定制化功能,补充关键排障信息,缩短用户使用路径,优化用户体验。 智能运维场景应用方向 ①故障快速定位/故障自愈;②变更风险评估;③GPT知识库(告警、事件);④性能容量预测。 AI赋能 T h a n k s 荣誉出品