您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:蚂蚁集团大规模互联网系统SRE稳定性实践 - 发现报告
当前位置:首页/行业研究/报告详情/

蚂蚁集团大规模互联网系统SRE稳定性实践

信息技术2024-11-04张达-�***
AI智能总结
查看更多
蚂蚁集团大规模互联网系统SRE稳定性实践

蚂蚁集团大规模互联网系统SRE稳定性实践 姓名:张达 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 张达(晓达) 公司职位 支付宝-数字互联SRE团队负责人 负责解决支付宝-数字互联业务发展阶段下稳定性问题,长期在应急、容量、大促等领域进行沉淀,迭代技术风险应急、大促架构,助力业务目标达成。 业务SRE定义 蚂蚁应急专题介绍 目录 蚂蚁大促专题介绍 01 业务SRE定义 什么是SRE? 来自ChatGPT来自通义千问 •站点可靠性工程师(SiteReliabilityEngineering) •确保大规模复杂分布式系统的高可靠性,帮助企业在不断变化的环境中保持竞争力和高效运营 VSSLO、SLA 自动化工具 故障排查和恢复 监控告警 预算管理 … 那什么是“业务”SRE? 传统SRE关注整个基础设施 业务SRE更侧重于特定业务系统的可靠性和效率 (1)懂业务、懂可靠性、懂运维 (2)识别业务痛点、优化性能、提升用户体验 (3)故障响应、针对业务背景下的问题快速解决 (4)大协同模式:研发、质量、PD、BD、平台SRE 业务SRE工作目标:解决业务可靠性和效率痛点,助力业务发展 业务SRE稳定性大图 支付业务 互联网业务 财富业务 保险业务 AI业务 … 战线 业务 业务 稳定 怎么理解业务稳定?针对业务背景下的问题定义、快速解决,保证可用率SLA,提升用户体验,且成本可控。 成本管控 体验受阻治理 大/新型活动保障 故障应急-快速恢复 业务专项-对齐业务发展目标 技术 专题 GOC故障体系 故障应急技术 容灾技术 资金安全技术 大促保障技术 性能容量技术 SREAgent 围绕GOC场景构建风险能力 故障30mins快速恢复 无准备容灾 流入/流出资金安全 秒杀峰值/复杂玩法丝般顺滑 资源最大化合理调度 AISRE尝试 平台产品 故障管理平台、PaaS、监控平台、定位中台、容量平台、切流平台、资金核对平台、大促平台、预案平台、压测平台、容量平台、AI平台… 业务专项-对齐业务发展目标 业务专项-实践路径 性能优化 应急提升 资源容量 资金核对 可观测 用户动线 活动保障 可用率提升 架构治理 业务分类 用户体验类 经营效率类 成功率类 商业转化类 … 问题分析与问题定义 商业转化类-专项定义路径 业务核心逻辑梳理 流失分析阻塞分析 问题提炼 解决方案 问题定义 落地执行效果度量 主要链路分析(举例) 关键问题梳理 解决方案 流量来源:首页/场域/搜索/消息/线下/外 人群问题 人群优化 投等 DUMP延时 延时优化 营销介质:商品/权益/服务/积分/红包/广 浓度问题 资源优化 告等 打散问题 耗时优化 关键业务链路:投放-首跳-首启-浏览-转 截断问题 性能优化 化/留存,复访/主访/召回 队列长度问题 中间件优化 关键技术链路: 排序耗时问题 …… •端内投放:场域投放入口-承接客户端-承 空结果(兜底)问题 接服务端-推荐工程链路-数据引擎链路-离 特征数据回流问题 线链路 咨询异常问题 •外投链路:外头链路-端内承接链路 …… 可用工具箱(选择性应用) 个性化解决方案 02 蚂蚁应急介绍 蚂蚁应急要求 10分钟恢复 故障发生10分钟,完成故障恢复,除10mins、也重点观测30mins恢复 难点:定位难、止血慢、应急协同/决策难 1-5–10 1分钟发现 在触达故障等级时,1分钟之内有主动告警 难点:主动发现能力很关键 5分钟响应 在故障发生5分钟中,响应应急 难点:应急告警繁多,及时性难 指标要求下,驱动应急体系持续演进 蚂蚁应急发展历史 海豹突击队 “0号”应急项目应急值班长体系 应急体系升级 应急发展历史 2017 20202024 古早期 依赖应急专家 服务台应急中手动计算故障等级,手动建群、拉人 各BU聚焦系统级告警(性能 /Error) 凭借运维专家和系统Owner经验进行排障/定位 机房容灾能力建设 工具发展期 沉淀平台能力 支付业务中心化应急流程,自动计算影响等级进行GOC故障快反 热线/在线客诉故障打通 按BU维度各自建立稳定性小组,各自构建应急体系 定位/恢复、自愈能力初步构建 无准备容灾建设 体系成熟期 统一应急体系 应急值班长体系构建 跨系统联动应急产品,形成全站统一的1-5-10应急技术体系 客诉舆情能力建设 tracer、根因标定定位能力建设 智能快恢能力建设 迭代升级期 适配环境变化 应急调度能力演进 端智能应急能力建设 客户动线/端到端定位能力建设 基础应急benchmark 蚂蚁应急值班长机制 蚂蚁全局稳定性⼩组成⽴ 2019 2020 2021 2024 值班⻓制度更新 建⽴考试制度,持证上岗 ⾸次发布应急值班⻓制度 背景 应急⽌⾎ 应急组织 为了⿎励和培养蚂蚁技术同学具备全⾯的应急⽌⾎、组织能⼒,蚂蚁全局稳定性⼩组特设⽴应急值班⻓机制。由⼩组成员挑选出对业务有⼀定了解,有组织⼒、决策⼒,且已经过3次以上符合预期的应急处置(包括线上的真实问题和演练问题)的同学,授予蚂蚁应急值班⻓称号。 选拔机制 •全站应急值班⻓ •由全局稳定性⼩组组⻓、副组⻓选拔组建⽽成 •⼀年为⼀个任期 •⼈数控制在4-6名 •BU应急值班⻓ •由研发、质量或SRE同学担任,由全局稳定性⼩组组⻓、副组⻓通过邮件审批通过为主; •⼀年为⼀个任期,⼀次替换不能超过现有50%的⼈员,保证⼀定的新⽼交替; •每个BU应急值班⻓⼈数约占本BU⼈数的1%,技术⼈员⽐较多的BU可以设置两级值班⻓结构; 激励机制 •授权上岗:蚂蚁集团CTO签名授牌 •内外头衔:内⽹增加“蚂蚁应急值班⻓”头衔 •公开表彰:在实际应急过程中发挥重要作⽤的同学进⾏公开表彰 蚂蚁应急值班⻓ 专业度 认同感 责任⼼ 蚂蚁应急一张图 阶段 <2mins<5mins<20mins<30mins 告警 响应 定位 止血 端智能异常告警 时效性、召回率5分钟响应率、完结率根因定位采纳率止血时长 业务预案快恢 L17*24GOC 用户体验异常检测 业务层 通用根因定位 L2 SRE GOC告警 - L3:自动异常识别 兜底防抖 GOC监控 L2:场景定义 GOC监控 L1:客诉兜底 基础运维层(集群) 随时可容灾 基础应急SLA 变更定位 前端客户端服务端运营变更 基础设施自愈 基础设施层(单机) 客诉类告警 用户业务异常定位 L3 BU应急值班长 应急攻防验收 蚂蚁应急产品 蓝军攻防1218 527 风险预 故障体系故障警升 级 电话724Oncall 预警应急人员& 客诉舆 用户反馈外媒情声 量 BU值班长 聚合推送 专群处置 定位排障 工具推荐 应急恢复 端到端 资金核对智能核 对 BU应急群 (一级应急群) 风险事件升级风险事件升级 故障应急群 流量染色/ app1 业务根因 SDK 根因定位 技术阻断 app 变更定位 辅助决策 app 自动关单 智能应急工具箱 自愈 部门应急群 (二级应急群) 业务告警群 监控染色 MOSN app2 SDK MOSN 根因错误码/耗时异常点 影响涉资关联范围金额人群 app3 sidecar sidecar trace 缓存存储 自适应限流 自适应降级 配置生效 无感容灾 SDK 模型 智能容量 manage dump 资金止损 服务打标 一线研发&运维运营&商业 SDK 代码分析 MOSN 客诉舆情应急产品 发现阶段响应阶段处置阶段复盘阶段 定位 [.......] 热线 *服务口径 在线 发现感 知端舆情事件 能 08点~24点 7x24 客诉事件 触达提升 预警+分发 技术止血 ①即时服务 复盘 P级故障风险事件 非风险 客诉故障收敛 应急服务部署 ②提前服务 提 升 客户标问 舆情事件 业务专线舆情事件 力 舆情风险 日常服务部署 产品优化 定*体验提升需求 位提升 集中投诉时间 系统版本 客户端版本 客户动线 停留时长 点击行为 浏览行为 架构部署分片 地理位置 设备型号 投放内容 前端弹窗 意外退出 端智能应急产品 刻画用户体验异常,创立端上主动监控体系,强化技术风险主动发现能力 蚂蚁应急技术 应急产品矩阵 极光聆听AnteyeTRM … 定位中台贪狼 mobileha bizops… 预案.限流PaaS切流自愈 白屏 快速发现 端 智 行为异常 快速定 位 监控/UID/ 弹窗 定位中台 快速止血 应急预案-演练保鲜 业 挂黄条等 务 能 规则下发 客户端SDK智能分析 描述/SPM层 GOC场智能/人 监控 景定义工规则 极光告警 告警 触发 卡片 失败Trace定位 用户异常定位 变更定位 极光定位 卡片 P1P2 容灾切流 数据支撑 用户行为/万求数据 行为动线聚集 APPID聚集 地域聚集 用户快排营销/会员/财富/收单快排 降噪 Mng系统切面 机房切流 链路切流 演练应用切流集 群 分词分桶 客诉 热线小 情感周期 判断降噪 单位T内聚合 数据流 724盯屏 服务异常 error错误码 中间件异常物理机异常网络异常 拦截请求 变更核心信息 批量召回疑似变更 变更推荐 基础应急规 变更回滚 重启 扩容 模 Benchmark回归&SLA 自愈执行扩容/重启/隔离等 自愈触发 N种场景 单 机 二记录 端舆情标问规 自愈覆盖(L1~L5) 决策出唯一根因 模 03 蚂蚁大促稳定性 此处添加详细文本描述,建议与标题相关并符合整体语言风格此处添加详细文本此处添加详细文本描述 大促分级 匹配大促SOP 分级保障 大促分级及SOP 必选 预案&限流 全链路压测 资源评估&交付 评估因素 因素分级 用户人群DAU 亿 千万百万十万及以下 BG 跨公司集团内多BG>5 2<=集团内多BG<=5 集团内单BG涉及BU>50% 预算 十亿 亿 千万百万 敏感性 国际&国家级重大赛事/会议省级重大赛事品牌特殊节日&国际节假日&活动节点 活动发起人 一级域业务/产品/技术负责人二级域业务/产品/技术负责人三级域业务/产品/技术负责人 业务形态 战略秒杀 信息提报门禁 容量交付门禁 全链路压测门禁 活动上线前3天门禁 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 S+级 (可选) 封网&变更管控 二三方保障 客户端保障 资金安全保障 活动信息 时间/玩法/峰值 16项保障动作、10+个角色参与 S级 14项保障动作、8+个角色参与 A级 11项保障动作、6+个角色参与 B级 8项保障动作、3个角色参与 线上值班 C级及以下 2项保障动作、1个角色参与 常态化大促SaaS化服务 活动主办业务方 下发业务指标 活动承办方—业务保障&技术保障 业务相关方业务相关方 业务相关方… 业务保障 顶层技术指标拆解 圈定产品服务 +技术指标 本BU产品范围技术保障 预案、容量、业务风险等 确认产品范围技术目标 补充本BU相关业务+链路 本BU产品范围技术保障 预案、容量、业务风险等 承担技术指标强相关的机器成本 下发产品范围+子技术指标 服务化支撑 风险治理服务:各服务模块发现风险 配置风险/资金服务 •活动配置风险分析服务 •活动需求资金辅助核对服务 常态化变更分析服务 •大促相关迭代变更分析服务 活动容量规划服务 •全年资源供给方案,预算方案/机房部署方案 •大促主链路资源预估服务(承担对应故障责任) •常态性能下降发现/跟踪治理服务 •大促成本利用率提升/账单看清服务 常态化演练服务 •主链路双周压测回归服务 •常态技术指标保持服务 •压测问题发现/跟踪治理服务 (风险定义输入输出标准化:包括不限于链路性能下降风险、资源不足风险、烂sql、预案/限流人工