千万级商家服务保障场景下应急效能和体验提升实践 张春春支付宝高级监控架构师 张春春 支付宝(中国)网络技术有限公司高级监控架构师 2016开始,一直从事监控处置领域的技术研发和架构设计工作, 2019年加入支付宝 目前重点负责服务保障体系建设,包括影响面计算,降噪,找证据,路径复现,恢复计算等核心分析模块 请替换您的照片 01服务保障体系的演进历史 目02服务保障体系架构 contents 录03核心模块介绍 04未来展望 PART01 服务保障体系的演进历史 服务保障体系的诞生背景 2012-2014年:线下支付拓展的痛! 好不容易拓展的商家,支付宝经常不能用了。常常不能用好几天才解决! 2014年首届支付宝线下双十二,火爆! 部分商家系统出现宕机。如果处理不好,会严重影响用户使用体验! 1.只保障支付宝系统稳定远远不够,商家不稳定用户照 思考:样不能用。 2.广大商家的监控能力严重不足,大多没有资源投入。 规划:构建千万级商家服务保障体系!更好地支撑支 付宝生态的良性发展。 服务保障体系的演进历史 •开始构建商家可用性监控体系 2014年起步 解决:在上千万的异常数据,上万的异常告警背景下,全方位构建处置能力。 2015-2017 •头部商户监控:固定阈值告警。50家重点商户。 •智能算法:监控商户量扩大到千万级 •业务覆盖:监控覆盖支付类、应用类几十个重点业务 •监控室:人工覆盖重大故障&重点商户。上线:影响面分析、恢复监控等。 •云监控(质量监控中心):监控开放、异常自动化触达。覆盖全量商户。 解决:千差万别的数据形态下的异常识别 2016-2019全面处置 •自动化管控:监控联动市民中心、小程序等实现自动化管控 2020年 业务异动 •业务异动:支撑各行业,监控并联合解决由于业务原因导致不可用。 •离线监控:上线离线监控平台(覆盖天级、小时级监控) •现象监控:建立基于异常现象监控的方法论和监控能力落地。 •长期问题监控:建立长期不可用问题、用户级不可用问题的监控能力。增 2021-2023 用户体感异常监控 强了监控准确率技术、证据&复现等技术。 •内部故障监控:监控能力整合复用到域内。 •服务保障策略运营中心:聚焦制定支付宝的生态服务问题处理策略,并确保所有问题得到最快发现与处置,进而最快速度解决和最小化用户影响。 解决:帮助商户更有效, 更快速的排查解决问题 解决:监控告警无法识别大量用户体感不可用问题。 2023-至今 快速恢复 •大模型应用探索:通过大模型技术手段,构建保障域全业务生命周期智能体,助力业务发展。 服务保障体系的现状 监控 建设400+监控规则 覆盖20+现象异常,如弹窗,白屏,错误页,卡顿等 85+% 监控发现率: 处置 定义400+处置策略 建设30+策略因子,如影响面,商户等级,问题类型等 :60+% 1小时恢复率 小程序 H5 Native 技术形态 线下支付 医疗 民生 政企 蚂蚁集团 互联网支付 大出行 酒旅 物流 发现率=各渠道反馈Case中监控发现数量/各渠道反馈不可用Case总量,(渠道:舆情,内部群等)1小时恢复率=1小时内恢复的有效故障数/有效故障数 覆盖全量业务 自动故障等级识别 告警 自动分析定位 告警案例-突发故障 影响面分析 故障进展 相关操作 联动产品止血 告警案例-长期治理类问题 钉钉群同步案例 •问题特征:长期存在,通常为分支链路问题。 •监控方式:离线监控为主; •处置策略:治理策略——问题池; •监控侧重:异常现象监控为主,技术异常为辅。 •处置要求:复现、定位要求高。 PART02 服务保障体系架构 整体架构 使用者 商户、ISV、机构 监控室、监控、处置、保障小二 BD、运营 PD 产品层 工作台 专项保障 能力管理 开放 自保障 云监控 应用管控 其他 服务库 BD工作台 BD任务 专项保障 活动保障 保障对象管理 监控布防 处置策略管理 监控规则管理 保障任务 压测 联系人管理 自定义监控 监控开放 异常处置 值班工作台 排查工具 烽火台 自保障处置 问题与录入 值班考核 保障工具 压测平台 压测报告 压测 压测创建 服务保障策略中心 通知文案 告警文案 处置渠道 监控室|云监控 |钉群 处置任务 通知触达|应用管控|等 处置策略 策略因子|条件 |处置动作 工单 任务流|任务节点|提醒 服务保障核心(诊断分析等) 异常排查 路径|uid|根因 |直播排查 数据服务 数据封装|数据查询 置信度 实时|离线 解决方案 异常解决方案 复现 复现路径|真机复现 证据 舆情|真机复现 降噪 短异常|恢复态势|风控等 定位 定责|节点定位|根因|用户下钻|主成分 指标恢复计算 实时|离线 影响面 实时|离线 告警合并 告警事件合并| 异常事件合并 告警接收 监控中心 离线监控 规则管理|算法|告警 巡检 http巡检|证书巡检|域名巡检 其他监控 直播监控|真机巡检|扫一扫 风险识别到期类|性能类|变更类 大盘监控大盘 数据服务数据查询 核心系统 监控保障 数据中心 保障对象库 档案库 异常数据 度量数据 知识库 异常识别知识 定位知识 解决方案知识 处置策略知识 数据层 通用模型服务研发平台 编程服务大模型 大模型研发平台 ODPS 实时计算平台 时序数据库 关系型数据库 基础依赖 核心流程 流程 异常识别异常检测诊断定位派发恢复 数据集 工单(异常事件) 埋点日志 告警 实体 日志切分 能力 N:1 监控规则 故障现场 故障对象故障现象 故障原因 异常指标 故障等级 故障置信度 故障影响面 找主体关联舆情路径复现 协作方 触达渠道 协作方管理 恢复时间 故障范围 复 自动排查定位 主成因分析 检测算法 恢复计算盘 离线监控 实时监控 指标聚合 影响面计算 置信度计算 颜色事件计算 钉钉服务群机 故障定责 自动创建制 上线 监控方案7*24小时值班室处置策略 发布评审 系统自动化+人工,提升对外信息完整性,准确性,提升商家体验 多元用工,降低正式员工成本 开发 域内域外双向协同,提升处置效率 方案设计 工单数据标准化,作为度量和算法应用基础 监控方案-基于原因监控VS基于现象监控 问题:把所有核心链路都覆盖了,为什么还是有大量发现不了的Case? 核心链路监控案例:小程序 白屏异常弹窗卡顿 基于现象监控 错误页 页面访问受限 页面不存在 … 请求 创建 支付 退款 核心链路监控案例:交易 思考:如果要监控全量异常是否意味着所有代码分支链路逻辑都要覆盖?监控发现率提升是否遇到了天花板? 破局:提出“基于现象监控”。 优势:(1)告警和用户不可用现象直接挂钩,高准确率;(2)异常现象关键大类可以穷举。 客户端运行失败数据 商家客户 端 客户端接口失败数据 商家服务 端 服务端接口失败数据 支付宝 对比内容 核心链路监控 现象监控 可解释性 略差 好 突发故障监控效果 好于现象监控,更敏感 好 长期问题监控效果 好 好于核心链路监控,准确率更高 准确率 低 高 灵敏度 高 低 异常覆盖面 小,覆盖重大问题 更广,覆盖各类原因导致的问题 基于原因监控VS基于现象监控 • • • • • • 专职团队:专职专班的运营团队 &7X24小时值班响应 完备策略:确保每一个问题发生时,最快处理且井然有序 场景监控:面向场景的不同颗粒度的监控 商家档案:获取商家处理的关键人员信息 风险摸排 应急预案与演练 服务保障策略运营 定义态运行态 事前:事中: 确保每一类case都定义有效策略确保每一条策略执行到位 一、发起应急组织 -运营同学发起钉群组织,并推进各角色各环节进展 二、故障处置 止血:第一时间执行应急止血预案 同步:关键信息通报、汇总同步。确保问题发生分钟级 同步进行 事后 内部各职能角色同步到位。包括但不限业务、公关、客 资(如涉及); 找人:最短时间找到最有效问题解决者,并周期性协同,确保问题被有效解决;内部(业务->负责人->管理层)、外部(技术->负责人->CXO) 评估:根据最新用户影响,更新事件颜色等级 三、衍生风险评估与应对 -快速联动内部(合成作战、客权、PR等)、外部(网信办、公安等)等资源 (以上针对于严重影响的故障;对于非关键影响的故障,将按相应的策略执行,重点聚焦找到有效驱动者并周期性跟进) 处置策略运营 商户事件等级处置:结合商户等级 S A B C 红色事件 黄色事件 蓝色事件 X 关注事件 普通观察事件 持续观察 •事件定责追责 •改进action落地保证 •长期优化跟进 •反哺策略运营 结合⾏业中商户等级与异常处置资源投⼊权衡定义问题处置优先级 GOPS全球运维大会2024·深圳站 复盘机制 全局统一视图 关键目标达成(发现率,恢复率)|口径定义|趋势变化|SLA达成|监控布防一览|度量大盘 数据分析每周 •异常波动 监控未发现case 处置不符合预期case …….. 复盘机制每周 • • • 优化Action •新增问题定义 •监控能力新增 •布防阈值优化 •…….. + •异常流失分析效果 链路合理性分析 •……驱动 监控上线演练 异常回放|能力验收 运行 告警数据|工单数据【全量异常】 监控执行 统一处置应急 监控方案&处置策略 GOPS全球运维大会2024·深圳站 PART03 核心模块介绍 影响面-背景 颜色事件定义 颜色事件处置分层 影响面 异常上升类案例 从故障开始时间到当前时间或恢复时间,按uid精确去重计算UV 量级下跌类案例 从故障开始时间到当前时间或恢复时间,每分钟的点的基线 数值减去实际数值,进行累加 降噪-背景 学校放假导致商户交易下跌 公交停运导致商户交易下跌策略配置,产品化能力 降噪 监控告警 智能降噪 专家经验规则 规则+模型协同判断规则为主,模型为辅 降噪算法模型 监控治理 切号原因 交易账号 切换特征识别 学校放假 判断异常商家是否在围栏范围内 公交停运 关键信息识别停运公告 疫情 区域匹配,疫情等级,疫情热点查询 小程序告警 降噪模型 服务告警降噪模型 Xgboost模型训练 降噪接入规则下线升级机 阈值优化指标优化制 同店资产 同店模型识别 教育机构围栏 围栏商家圈定 情报中心知识图谱 情报搜集图谱构建 监控数据特征库 1.多维基础报错指标 2.行业/产品特性 3.流量波动 准确率提升治理任务 门店特征库教育机构名称特征 门店交易围栏 外部爬虫数据 数据分析 专家经验沉淀 特征工程 监控告警库 低准确率规则巡检 域内数据依赖 值班室打标 找证据-背景 商户或者商户通过BD转达的问题排查信息诉求告警中带的复现路径提供的视频证据 找证据 PART04 未来展望 监控方案-基于原因监控->基于现象监控->基于? 点击无响应功能与预期不符 基于用户行为特征监控 商户以及内部同学更多的诉求 日志分析辅助排查信息提供 大模型应用探索 Thanks 高效运维社区DevOps时代 荣誉出品 THANKS 感谢大家观看