您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:支付宝全生态可用性监控保障实践 - 唐亮 - 发现报告
当前位置:首页/行业研究/报告详情/

支付宝全生态可用性监控保障实践 - 唐亮

AI智能总结
查看更多
支付宝全生态可用性监控保障实践 - 唐亮

支付宝全生态可用性监控保障实践 姓名:唐亮 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 唐亮 支付宝高级解决方案架构师 现担任支付宝生态保障负责人 在2014~2016年构建了支付宝售后技术支持体系在2016~2020年担任商业线业务监控保障负责人在2020~2024年担任支付宝生态保障负责人 重点牵头项目包括大促活动生态保障项目、IoT售后维保项目、疫情期间的健康码保障等 支付宝全生态可用性监控保障背景与挑战 支付宝全生态可用性保障的体系 目录支付宝全生态前置风险保障实践 支付宝全生态监控建设与实践 支付宝全生态可用性保障的诞生背景 会员卡 券 小程序 搜索 营销 线下支付&大促,商家类合作伙伴 小程序全面开放,生态类合作伙伴 出行&医疗,民生类合作伙伴 线下支付的场景生态开放的场景生态共建场景 支付宝生态合作伙伴的系统稳定性是我们发展的基石 支付宝全生态可用性挑战 生态合作伙伴繁多(百万级) 医疗 智能售卖 运营商 聚合支付 政务 快消 公交/地铁 餐饮 生态模式复杂 商家开放模式 ISV代开发模式 多ISV模式 自研模式 生态不可控,风险敞口大 生态技术参差不齐 维护变更不可控 链路多,单ISV无法解决 ISV重视程度不同 目标:构建一套支付宝生态全生命周期的监控保障体系 02 支付宝全生态可用性保障的体系 保障方案 应急止血能力 限流熔断黄条 根因定位 容器埋点监控 发现能力 用户行对比检 为 测 真机、 AIC巡检 档案信息 行业商风险稳定性 家档案信息信息 前置的风险保障方案 监控部署 监控应急保障方案 监控应急 治理优化 风险消除 风险识别 风险定义 日常风险管控 项目验收 项目风险优化 项目风险评估 项目(活动)保障 复盘根治 保障平台化流程 保障场景选择 保障对象圈选 保障等级定义 保障策略选择 保障任务生成 保障运行 故障预防 性能评 估优化 风险巡检 限流能力 SAAS化服务群 行业监控&处置中心 压测平台 商家自助保障平台(外) 缴费季保障场景 生态开放大会保障场景 节假日重保场景 大促保障场景 (如:新春五福) 端内投放大流量保障场景 上线交付保障场景 业务场景 政务医疗出行民生零售餐饮文旅酒店售卖间连电商游戏…… 全生命周期的监控保障体系 问题定义 指标埋点 监控配置 故障监控 故障排查 故障应急 保障平台 03 支付宝全生态前置风险保障实践 活动准备时间短 周级别 商家大促活动前的保障最佳实践 新春五福 背景 618大促 11.11 大促活动 “日常化” 12.12 营造持续氛围 活动持续久 88大促 支付宝会员日年货节 开放日 开门红 生活周 打造新主题活动 一年多场 春促 保障能力工具化,降低商家保障门槛 保障方案自动生成,可灵活编排,应对复杂性 商户分层,复用保障,降低商家成本 …………. 挑战 思路 玩法多样 多种玩法,复杂度 时间短 短时间,成百上千商家,矛盾突出 商户保障疲劳 多数商家持续参与 商家大促活动前保障的最佳实践 大促活动前 监控 商户监控部署:建设每个商家告警与整体监控大盘 告警快反铺设:铺设活动商家服务群及快反联动机器人 舆情监控部署:建设商户服务舆情反馈监控 风险 商户上线验收:制定商户上线验收准入CheckList 系统风险识别:通过工具快速识别系统风险与调优 风险跟进:系统和业务风险录入风险管控并跟进 应急响应流程:制定故障流转/升级等响应流程 应急处置预案:制定故障提前预防、活动降级预案 应急演练:对各类故障进行演练以检测预案有效性 链路容量要求:摸清活动形式/交互链路/招商范围, 制定面向不同会场的差异化商户性能标准要求 商户性能压测:基于行业压测工具实现商户性能压测 基于保障方案摸排商家风险,预案先行 容量 应急 监控事前部署,做到心中有数 基于历史数据,商家分层降成本 监控触达:24小时链路监控并自动触达 商户服务端容量:服务端扩容 小程序端/投放端:小程序等限流 能数据监控数据 分层 应急数据 稳定性 低 中 高 监控 √ √ √ 应急人 √ √ √ 限流 √ √ √ 证书巡检 √ √ √ 压测 √ √ 架构分析 √ 阿里云巡检 √ …… √ 稳定性好:流量倾斜,保 性 风险更新与跟进:新增风险至行业风险管 控;风险跟进与完结 实时应急响应:快速召集人员应急 应急流转与升级:基于应急流程的流转与升级 障要求降级 日常保障中稳定性风险识别 件 插 小程序 H5 到期(证书/域名),2-3% 框架/容器网络 灰度 支付宝开放能力 商家服务端 变更,6% •90%+故障原因是服务端异常 •架构/变更/性能TOP3问题占54% 性能,6% GOPS全球运维大会暨研运数智化技术峰会2024·上海站 风险前置介入保障时机 无用户影响影响少量用户影响大量用户:N故障等级 潜伏 期 风险消除 灰度流量/性能类 服务失效(页面不存在),问题存在暂无影响 变更类(页面受限/JSAPIRequest无权限/服务失效)/营销活动/热点事件 到期类(证书、域名等)/安全类风险(DDOS) 爆发期 增长期 沉默期 触发时机 (变更等) 指导原则:悲观意识为核心,快人一步(尽早识别、尽快处置) 目标:将潜在诱发故障的问题或问题已发生但还未造成影响的风险降对最低。 04 支付宝全生态监控体系建设与实践 生态监控的两大核心 监控问题定义 监控 体系化建设 定义监控发现问题是监控能力提升的风向标广度与深度 体系化建设是支撑任何被新定义的监控长远发展与更多创新 定义监控发现的问题 基于原因维度的监控基于用户现象维度的监控 原则:持续扩充异常原因,不断提升原因类的发现能力 请求 创建 支付 退款 核心链路监控案例:交易 白屏异常弹窗卡顿 错误页 页面访问受限 页面不存在 … 客户端运行失败数据 商家客户端 客户端接口失败数据 商家服务端 服务端接口失败数据 支付宝 核心链路监控案例:小程序 思考:如果监控了全量异常是否意味着所有问题和逻辑我们都已经覆盖了?监控发现率提升是否遇到了天花板? 破局:站在技术指标角度发现问题到站在用户角度发现问题。 技术角度对比:基于原因监控VS基于现象监控业务的认可度提升: 对比维度 原因监控 现象监控 可解释性 差 好 突发故障监控效果 好于现象监控,更敏感 好 准确率 低 高 灵敏度 高 低 异常覆盖面 小,覆盖重大问题 更广,覆盖各类影响用户的问题 1)用户视角问题,和业务强绑定,形成了业务战役。 2)因为战役且非常易理解业务能够有更多的监控维度的输入。 3)技术发现这些问题和业务关联度非常强,技术的积极度被大幅提升。 监控体系化建设 监控发现 工单 批量不可用舆情 故障判断/定位 真机自动一化核验 -仿真用户操作 -遍历/业务链路 商家触达 分层监控值班 -行业/生态分层 -独立应急规则 AntEye 行业监控中心 用户现场脱敏还原 钉钉服务群 应急止血 小程序私域应急 -限流 -挂维护 -挂黄条 支付宝公域应急 故障恢复 真机模拟器巡检 异常指标恢复 实时监控 准实时监控 日志监控 -用户操作还原渲染 -突破账号/链路限制 排查工具 -PID/APPID绑定 -用户现象指标 -技术异常指标 -舆情突增 真机/AIC巡检 -400+专属资源 -不可用识别标准 -OCR异常识别 精准电话外呼 -O站活跃成员&服务群入群成员 -首页推荐 -搜索 -会场进行降级 用户召回 -抓包采集 -功能不可用舆情 -恢复后召回反馈 告警触达 云监控通知中心 1+N触达渠道 智能服务群 短信/开放平台/… 触达规则 其他通知渠道 多渠道自然引流 PC 钉钉端限流/挂维护/挂黄条 商家自保障平台 + 群保障助手 自助应急 监控保障数据中心 保障对象库 档案库 异常数据 度量数据 知识库异常识别知识 定位知识 解决方案知识 处置策略知识 数据层 时序数据库 编程服务模型 研发平台 ODPS 实时计算平台 端智能 数据模型 基础依赖 商家监控技术 一、基于异常痕迹监控——常用:埋点监 二、主动探测——巡检 •条件:有使用量&使用有异常 •三个阶段: 1.数据采集(对象刻画、对象数据采集) 2.告警(数据+算法) 3.监控大盘 控 案例:门店级监控 告警案例 智能告警自动计算恢复 算法案例-多维智能算法 真机巡检-机房&模拟器 其他:http巡检、基础资源巡检、接口巡检等 三、舆情监控 某小程序负面集中舆情监控 一店多码 一码多店 门店级监控方案 1.C端交易位置聚合门店地理位置; 2.实例化成虚拟门店; 3.交易实时关联门店; 4.门店实时监控。 门店 门店 门店 门 店 “智能规则+普通规则”多条件组合的监控策略 监控算法库 现象级监控案例-小程序白屏 纯白纯色 局部白大部分白 骨架白屏 •页面打开时检测是否有节点加载,无加载则判定白屏。 •用户退出时页面截图,使用Palette算法提取主色。主色百分比大于99%。 •将图片切割为M*N区域 •识别纯色区域 •纯色区域占页面百分比超过50% •检测页面文件体 积 •是否远小于正常页面体积 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 完全无内容加载,纯色部分模块空白,纯色局部结构加载,无有效内容 真机巡检 访问路径 手动复现 故障复现 自动复现 故障应急 监控平台 业务线:公交地铁、航旅、商业支付、城市服务、餐饮、教育。。。。产品:小程序、服务、支付、一卡通、会员卡、直播、插件。。。。监控指标:接口、js接口、页面错误、异步通知、交易成功率。。。。 快速组织故障应急快速恢复 指标判断 异常内容分析 冲高回落 同环比判断 基线对比 监控&处理规则过滤 10% 90% 恢复计算 50% 10% BD保障 L110% 40% 100% 5% 7*24小时值班 60% 90% 50% 90% 预警判断 服务挂维 降级熔断 是故障 应急预案 定位排查|触达跟进|应急协同 协同 关闭协同 结束预案 人工/系统复现 异常恢复 异常同步/通告 排查信息问题答疑 ISV 保障能力开放 开放阵地 商家自助保障平台技术服务群云监控平台 前置保障 项目/活动上线 1 商家告警触达 主动防护 商家自助应急 23 故障应急 风险治理 咨询/检索 4 故障应急 方案知识库 技术咨询服务 商家反馈 应急 防护 违规风险 风险自助评估 变更/活动提报 自助应急 服务访问限流 商家处罚整改 性能评测 质量评测 云监控 1 自助排查/应急 2 商家自助排查 应急预案推荐 自助应急 服务维护提醒 服务黄条提示 风险治理任务 技术风险预警 指标告警/舆情 故障判定 风险识别 3 关键依赖 开放平台 账号认证 售后支付 售后技术服务 平台治理 舆情平台 服务粒度舆情 质量平台 限流/挂维护/黄条 质量平台 全息检测 保障能力开放-给用户更好体验 特征用户场景 挂小黄条能力(引导性提示)挂维护能力(确定性提示) 怪兽充电 我们致力于让所有人在任何场景下都可以续电 针对受影响用户 特定功能场景 用户使用的特定功能 内容 挽回 基于场景的给用户提示恢复后对用户进行挽回 体系复用直播保障 阶段直播前置保障 直播问题发现&定位&触达 直播应急 直播分层(报备机制) 监控发现定位 直播应急 -S+级:两会、亚运级别等 -S级:大KA、区域大会 -A级:行业KA -B级:中长尾商家(默认级别) 头部(S+/S)-重保 直播-直播全链路可靠性评估(高可用) 保障-直播风险的识别,跟进,验收 -主备流的提前演练准备 通用-自助

你可能感兴趣

hot

1-左兴宇-万级实例规模下的数据库可用性保障实践

信息技术
2022 Gdevops全球敏捷运维峰会2022-06-20
hot

联通研究院-吴天昊-“1-5-15”原则:数字化监控平台可观测稳定性保障实践

信息技术
2023第十二届全球TOP100软件案例研究峰会2024-08-21
hot

全链路监控在嘉银科技的落地实践

GOPS 全球运维大会2024-10-16
hot

4-3 货拉拉全链路监控体系的落地与实践 - 曹伟

商贸零售
DataFunSummit2022:数据治理在线峰会2022-09-15
hot

8-4 货拉拉大数据治理实践之稳定性保障 - 黎仁全

信息技术
DataFunSummit2022:数据治理在线峰会2022-09-15