您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会]:张鹤-券商核心交易系统 AIOps 探索实践 - 发现报告
当前位置:首页/行业研究/报告详情/

张鹤-券商核心交易系统 AIOps 探索实践

AI智能总结
查看更多
张鹤-券商核心交易系统 AIOps 探索实践

券商核心交易系统AIOps探索实践 张鹤资深运维平台专家 11年研发经验,长期从事运维平台建设工作,目前负责一体化智能运维体系建设工作,擅长应用CMDB、AIOps等领域的平台能力建设,及一体化智能运维场景的建设。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 01核心交易系统特点分析 02AIOps落地与实践 03AIOps建设问题探讨 01 核心交易系统特点分析 运行特点与运维痛点分析 重要性高 交易、结算等核心业务,实时性要求高 属于关键信息基础设施,要求安全等保三级 复杂度高 部署复杂:共部署700+台服务器 业务复杂:1000+类交易场景,10000+个服务 影响面广 与核心交易系统存在上下游交互的系统共70+个 访问量大 日均订单量:1500万+交易日峰值TPS:11万+ 变更频繁 每周进行一次常态化版本升级,每月进行一次大版本升级 核心交易系统运行特点 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 版本质量 版本质量 •核心交易系统的外购模块,�现偶发的版本质量问题 •变更频繁加之版本质量不高,导致版本升级后容易�现生产问题 可观测性 运维专业性 可观测性 •由于缺少traceId,核心交易系统难以实现业务的全链路故障分析 •日志量巨大,平均每天产生3000万+日志,导致难以发现问题 核心交易系统运维痛点 运维专业性 •核心交易系统对运维人员的专业水平、业务知识的能力要求较高 •发生故障时,需要以最短时间进行应急,并控制操作风险 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 02 AIOps落地与实践 核心交易系统AIOps场景 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 AIOps体系架构 场景一:毛刺风险分析 场景背景 AIOps分析与计算 核心功能号实时性要求高,整 体耗时要求在10ms左右,且不能�现频繁波动 固定/动态阈值告警,无法感知耗时指标的瞬时突变,而瞬时 突变可能是系统异常导致 基于镜像 流量的请求RTT计算 核心功能号 场景意义 提升核心功能号的监控保障能 力 帮助SRE发现系统的潜在风险 核心接口大屏 早开盘盯 毛刺工单运营 SRE 跟踪运营 运营人员 毛刺工单反馈 毛刺分析 毛刺风险工单 屏一线运维 指标时序库 RTT指标数据训练 3-sigma算法 生成动态阈值区间 实时偏离度计算 异常毛刺 毛刺聚合 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 场景一:毛刺风险分析 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 360毛刺巡检大屏 通过毛刺风险工单,跟踪SRE对于毛刺风险的分析与反馈情况,推动SRE进行毛刺风险分析 核心接口保障大屏 支撑早开盘期间,核心接口服务状况的跟踪 AIOps平台 模型匹配 实时检测 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 合理区间匹配 起始时间趋势分析 场景二:内存清算耗时异常检测 AIOps业务场景 异常分析 清算大屏 开始时间渐变 执行时长渐变 开始时间突变 执行时长突变 模型训练 孤立森林算法 动态基线 步骤相似度分析 趋势分析 提升内存清算过程的异常感知能力 提早发现清算步骤执行时长的突变与渐变,节省SRE的处置时间 场景意义 内存清算过程�现问题的概率虽小,但影响巨大,属于核心业务,需要重点保障,�现异常时,需要第一时间介入处理 清算步骤执行结果监控未全面覆盖,部分步骤的执行结果无法自动感知 业务原因可能导致部分清算步骤的执行时长日渐增长,进而触发超时异常 场景背景 清算步骤执行时长起始时间 场景二:内存清算耗时异常检测 清算全过程集中管理 目前已纳管内存清算的所有步骤节点,可展示清算步骤的执行过程与顺序。 清算过程实时展现 结合清算节点本身的业务监控能力、清算节点耗时AIOps异常检测能力,实时呈现清算全过程的成功、失败、异常情况。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 场景三:集中交易日志异常检测 场景意义 快速发现基于人工经验无法识别的日志异常 有效感知因变更或业务变化导致的系统异常 场景背景 每日核心交易系统中间件日志量3000万+,关键字匹配告警仅1000余条,日志利用率、发现异常率低 仅对已知故障日志配置告警,但频繁变更带来新的故障类型,无法感知 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 错误日志 运行日志 其它类型日志 AIOps平台 AIOps业务场景 故障 研判 异常标注 突变异常点 告警反馈 历史异常查询 新日志异常点 时序检测 3-sigma算法 Drain算法 关键字匹配 errorInfo/Message 聚类模板 模板引擎 通过文本相似度,流式计算相似文本、聚合计算、异常检测等能力,为用户提取日志异常(新类型日志、日志量突变日志类型等) 日志异常检测数量 87 45 14 9 12 12 6 5 42 2 1 1 4 6 2 10 0 4 0 2 0 0 2 0 3 1 10 4月第1周4月第2周4月第3周4月第4周5月第1周5月第2周5月第3周5月第4周 错误日志新类型 运行日志新类型 错误日志突变 运行日志突变 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 场景三:集中交易日志异常检测 通过告警工单,发送给SRE进行反馈确认 通过3周时间收敛异常数量,3周后趋于稳定 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 场景四:磁盘占用率预警 将告警升级为预警,提早发现风险 减少市中因磁盘打满而必须执行的应急操作,推动SRE配置自动清理日志任务 场景意义 市中交易期间与重保期间,磁盘占用率触发告警时,清理文件操作属于应急操作 磁盘占用率低级别告警线为85%,高级别告警线为95%,一旦触发高级别告警,一线运维介入处理,影响较大 场景背景 AIOps业务场景 低级别告警触发高级别告警预测 批量扫描磁盘占用率预警 AIOps平台 单指标拟合计算 prophet算法 磁盘占用率 场景四:磁盘占用率预警 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 纳管生产环境2万+机器,平均每月发现24次磁盘占用率预警。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 场景五:全业务运行画像 场景背景 前期只关注应用层、计算资源层告警,对业务的运行情况感知不足 对业务的异常感知,主要关注高频、新上等业务的首单时间、废单情况 场景意义 自动生成全量业务,可有针对性地进行业务监控能力提升及业务场景测试 提升业务监控感知能力 场景五:全业务运行画像 业务应急调度 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 实时检测当日新上业务,在新业务版块进行重点关注 新业务提醒 根据T-1日订单量进行业务排序,动态调整业务墙布局,高频业务前置 业务量排序 结合业务监控告警、首单检测、新废单类型检测,分颜色展示异常原因 业务健康检测 快速拉人入会,进行应急指挥调度 03 AIOps建设问题探讨 如何提升AIOps建设成效 AIOps建设达不到预期 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 在在原原有告有警 基础上,增 加告额警外告基警 工作担造成负 对SRE日常 担 AIOps发现的异常不准确 投入成本大,成效慢 AIOps建设没出效果 领导与SRE对AIOps逐渐失去信心! AIOps建设的关键点 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 夯实数据底座 AIOps平台依赖于日志监控、指标监控、 CMDB拓扑等底层数据,只有充分完善系统的监控成熟度及CMDB数据,才能 确保模型训练的结果更为准确 业务场景定制 各系统的业务关注点、日志格式、监控 告警等均有差异,很难实现通用的 AIOps业务场景,只有结合系统的业务 场景实际,进行定制化分析,才能保证分析效果 加强联合运营 AIOps分析是基于历史数据训练,并结 合实时数据匹配的结果,必然存在匹配错的情况,必须通过运营人员,组织 SRE与开发人员,不断进行结果的反馈 与修正,不断提升结果的准确性 AIOps运营体系 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 •组织需求讨论与方案评审 •组织平台使用培训 •推动工单反馈 •工单反馈SLA审计 •产品规划设计 •需求承接与分析 •提供运营支撑数据 •提供技术方案 •需求反馈 •问题反馈 •组织需求讨论与方案评审 •准确率SLA审计 •技术支持 •平台使用 •工单反馈 •需求分解与方案设计 •平台能力建设 •问题反馈 •需求反馈 自顶向下推动 纳入KPI考核 指标牵引、数据驱动、运营组织、流程闭环 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Thanks DevOps时代社区荣誉出品

你可能感兴趣

hot

黄蕴思-广东移动 AIOps 的中台化探索与实践转型

信息技术
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08
hot

AIOPS语义级日志异常检测在证券行业的探索与实践 - 李进武

金融
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

张尧 AI Agents在On-call助手场景中的探索与实践

信息技术
DataFunSummit2024:数据产品在线峰会2024-12-06
hot

信创核心交易系统于多家券商稳步推进

信息技术
国金证券2024-08-27