您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 Gdevops全球敏捷运维峰会]:2-4 武安闯-SRE实践:从SLO工程到GOC体系建设 - 发现报告
当前位置:首页/行业研究/报告详情/

2-4 武安闯-SRE实践:从SLO工程到GOC体系建设

AI智能总结
查看更多
2-4 武安闯-SRE实践:从SLO工程到GOC体系建设

Gdevops 全球敏Global捷DevOpsSumm运it 维峰会 SRE实践:从SLO工程到GOC体系✁设 哔哩哗哩SRE负责人/武安闯 SRE实践: 从SLO工程到GOC体系✁设 武安闯哔哩哔哩/SRE负责人 对SRE高可用架构、技术风险体系✁设、质量运营和组织转型有 刻的✁设实践和思考 主导B站SRE转型、高可用架构、故障快恢、SLO工程、容量管理 体系、多活容灾等专项 从0到1带领B站运维向SRE转型,✁设站可靠性体系当前专注SRE可靠性体系规划✁设和落地实践 Gdevops全球敏捷运维峰会北京站 01SLO工程方法论 目录 SLO实践整体框架 载 03SLO度量实践与运营 SLO度量、告警治理、风险发现与协同、安全变更 04SLO价值之再升级:GOC✁设 故障定义、发现、协同、定位、快恢、风险跟进 Gdevops全球敏捷运维峰会北京站 lus Aiops 业用途 01SLO工程方法论 仅供学习不得转载, Gdevops全球敏捷运维峰会北京站 SLO工程方法论 量化抢标 可用性、证退、等 可用性>99.99%可用性】30分位RT1c0ms(8) SLA-5LO+后果 或范 ServiceLevelIndicatorServiceLevelobjectServiceLevelAgreement 商教务基服务质量的具体务的革个SU的月标值达到或设有送SLO之后的 后果,一设毛于高业登落 务质量体乐✁设SLO风腔事件运营 SL:限务等级指标 SLO:服务等级目标 SLA:服务等设转设 乱密报务一切不可用 SLO出课预算运营 告普因果关系治理分级支有智设更 SLO:指定了服务可靠性的目标水平,是做出可靠性决策的关键数据,是SRE实践+Volume冒湿 的核心 工程缺,时间投入到重要服务的核心问题上 SLO品做出工作优先级非宇和可靠性相关工作的关划 工作按照SLO来开展,确保SLO是合理的没有SLO,就没有SRE Gdevops全球敏捷运维峰会北京站 SLI:服务质量指标 总体思路SLI规范SLI实现 好的事件数量除以总事件数量对用户重要的服务能力的评估,与其测SLI具体的测量方法 成动的请求数/总请求数(成功率)量方式无关例:可用性 接方结果数/接忘结果总数,包括邮正带C移动端埋点上报 陆级的慢结果 SLB,APIGWMetrics 请求延退小于100ms的成功请求数/总请服务Metrics 求数服务日志 良好分钟数/总分钟数 单个SLI规范可具有多个SLI实现 质量(能否捕获用户体验) 漂盖范由(能否捕获所有用户体验) 实现成本 单个SLI规范一般有多个SLI实现,出于对故障召回的目标,✁议组合实现 Gdevops全球敏捷运维峰会北京站 SLO:服务质量目标 SLO错误预算错误预算策略 SLO定义原则:错误预算:100%-SLO错误预算策略:服务在给定时间段内消耗全 保持简单易理解在SLO日标内,某个时间留口所允许的错误部的错误预算时必须采取的具体操作 ,避免绝对的目标,如100%请求数量或不可用时间开发团以专注于可靠性需求,直到系统处于SLO ,SLO精简,3-5个即可:SLO:99.9%,每时刻允许0.1%的请求错范国内 ·不追求完美,逐渐优化误/每月充许x个错误功能选代推退,可靠性bug放在首位 SLO:99.9%,每个月允许43分钟服务完:冻结生产的变更,直到有预算来恢豆变更 SLO类型目的全不可用 可用性97%错误预算对风险识别、可靠性决策至关重要 延遇90%的请求450ms 99%的请求<900ms 51.0允许失股数 97%的可用性 109,897 既可由错误预算策略驱动也可由问题/故障驱动 SLO商口:年.半年,季度、月90%的请求快于450m5386,325效果优先,不拘泥于形式 滚动商口与用户体验更接近99%的请求快于90Crs35,632 口历窗口与业务计划和项目T行更加照意世结合在一起 获得所有利益相关者同意 Gdevops全球敏捷运维峰会北京站 SLO告警 错误预算多窗口消耗速率多消耗率告警(长短窗口) %666:01S相对于SLO,服务消耗错误预算的速度短窗口发现严重问题 年留口的错误预算是:526min基准错误率=1-SLO长窗口发现低速流血问题 月窗口的错误预算是:43.8min·消耗速率=错误率/基准错误率1小时消耗月度2%的预算消耗:紧急报誉 ,526分钟平刚到年,每时每刻充许0.1%的错30g*2%=14.4h:14.4小时的客口 误率案例:99.9%可用率的SLO.30d离口的错误预14.4h/h=14.4:14.4倍消耗速率 1个月持续0.1%错误率正好可以消托完该月 窗口内的所有错误预算 基准错误率:0.1%,比时消耗迪率为1 6小时消耗月度5%的预算消耗:紧急报警 C6V9E49E=%5+POE 预算耗民时间:36h/6h=6:6倍的耗速率 1% 10 PE=OLLPOE 3天内消耗月度10%的预 3.6% 36 ·30d*10%=3d;3天的离口 0.1%1POEL/POE 100030d/1000=43.2m 3d/3d=:1倍率 算消耗:故障工单 Gdevops全球敏捷运维峰会北京站 总结:SLO实施流程 SLO定义 避免艳对,保持简单,逐渐优化,3-5错误预算与策略 个SLO即可基于SLO,得出时间窗口内的允 全年可用性>=99.99%许错误预算 99%的请求=200m5,90的请求时问内错误预算消耗殆尽,制定 100m5错误预算执行策略 可以在不同的时间商口上定文SLO如:开发团以专注于可靠性问题,比如一个月或一个季度冻结生产系统的变更 获得关键的利益相关者认可和批准 持续改进SLO目标与质量 ·接正SLO:严格Or放宽 ·优化SLI实现:精准度、覆盖率 SLI规范与实现SLO报务仪表盘和报表 请求驱动型服务:可用性(成功可用性报警准确率最高SLO达成情况 . 响虚的请求比例)、延迟,质量多消耗率(错误率/SLO基准错SLI趋势图、仪表盘、错误预算消耗 定义错误、识别,治理错误误率)报警SLI季度,年度运营报表 应用服务器日志,负裁均街监控多时间窗口 黑盒监控、客户端插件等数据 Gdevops全球敏捷运维峰会北京站 Aiops 02SLO整体实践框架 仅供学习不得转载, Gdevops全球敏捷运维峰会北京站 SLO整体实践框架 金网业务大盘故障定义、爱现障定位、快恢 校心业务质量,实时5L0告管故障场示定文+SL0大垒:业务,场示,安用下站 客段/贝情,换上事效故障发生时:追知,应,初国定位tric:论度,传获服务,保模中间件 量化严重程皮Tr:装装拓护,进确异常分析 干系人管理 o.自动效障通告 故章中:定位,止报。快疾,状离同步 故除后:复台总洁,待办课进,故障演连 金更:服务,上下治,平台,偿设量 BLO报表告誉因果治理安全变更/异常检测风险事件协同风险改进地风险报表进营 多日标设 多目标设置 SLI定义 核心场景定义 获取共识 保付管单 保持简单 SLI次乳 非标治理 应月元信息 中闯件/计 SLO告管SLO管理SLI管理元信息管环数择采事多窗口选择多富口送降SLIH业务专吐定义 Mstrics 大数据实时流 BinlogiTinl 可月区聚合 应用件原合 业务聚合组织聚合等 API元信息Metrics事体中心EfOroall全油同 Gdevops全球敏捷运维峰会北京站 LUS Aiops 03SLO度量实践与运营 仅供学习不得转载SLO度量、SLO报表、告警因果治理、风险协同、安全变更 Gdevops全球敏捷运维峰会北京站 传统运营VSSLO驱动 传统方式:运营区动新型方式:SLO驱动 技术✯持/NOC:梳理业务场量(功能API) 确定实现方式:应用Metrics,口志,DB等 自定变数据采费,清理、计单、聚合,展示 NOC町盘、故障通告、应急响应 SRE/研发:设胃SL、治理SLI标标准化SU实规:Metrics.ecode.HTTPCode . 统一数据采集。清理、计算。聚合、展示 SLO告警,企微推送、公开透明、轻协同 ,场量覆盖度率由内面外度量服务能力 ,运营驱动,成本高,效率低·润案服务一切不可用 ·人力消耗高·技术驱动,业务全覆盖 ,近业务远技术,易被忽悠,效率高、成本低 Gdevops全球敏捷运维峰会北京站 可用性统计:请求Vs时间 请求成功率:SLI=1-Emor/Total可用时间:SLI=1-UnavailableTime/TotalTime 计算简单计算夏杂 定义错误:ErrorCode治理什么是UnavailableTime:每分钟错误率>20%or30%? 统计Error、统ilTotaltilErrorTime,TotalTime 报鹭能力强/准 块点铁点 请求量易受用户和锥路影响,如重试放大可用时问内不代表用户功能一定没异常,可能只是错误率低 :数据抖动大问既发现率高低于错误率算可用,精确度低,故障召回率低 报警能力单一:基于时间拉度报警,无多消托率报警 优点 数据真实,下跌一定代表服务不可用 对业务价值大优点 :用户功能失不可用错误一定会披召回时问维度结果用户更易理解 报管能力丰富:可实匙SRE的多消耗率报警更贴近传统故障时问的统计方式 Gdevops全球敏捷运维峰会北京站 SLI指标治理:错误治理 精准识别错误是度量可用性的前置条件 SLBClient视角:HTTP5xx Client Server ,服务内部错误:500SYN 服务不可用:5025YP+-Retry ·网络超时、服务无响应:504 限流:503 Reset ACK 应用Server视角:ecode-5xx 服务内部误:-500 :强依赖超时错误:-504Client视角 ServiceB ,限流:-509①塔断下游服务 @下游服务网略不可达 应用Client视角:ecode-5xx ,网不可达应用无响应、响应超时:-504 +熔断:-500 +下游返回错误5xx,-5xx:降级本速传 Resporse @下游务响应超时下游服务返回错误 Server视角 息服务返回错设 Gdevops全球敏捷运维峰会北京站 可用性SLI:多SLI实现 部分服务只提供内网调用,不过负载均衡 无法通过负载均衡一条Metrics计算到的可用性来覆盖业务全部故障场景 Ops 应用SLBMetricsHTTP/gRPCServerMetrics ServiceA适用 ServiceB适用 无适用上指标一进入Prametheus ServiceC 覆盖故障场景 SLBMetrics:SLB上E的拍标款 SLBSLEHTTP5XX错误量QPS.退时 SLBHTTP5xx:应用访问超时。容器OOM、进程Panic等不AGWAGWMetrks:AGW上的标激数 SATUCAHTTP5XX/ecode-5xx错退量.QPS、延时 可用,会在SLB则上报错误指标 HITTI ARD. ,HTTP/gRPCServer-5xx:应用HTTPCode200,但因依就HTTPServerMetrics:应用HTTPServer上报的拍标款 下游服务、读取DB、CACHE失败等系统错误时,会在应用-5xx错误量。QPS.延时 Metrics测上报业务Code错误指标gRPCSenverMetrics:应用HTTPServer上摄的拍标款据 -5xx错误量、QPS.延时 Gdevops全球敏捷运维峰会北京站 业务指标SLI 技术指标发现服务所有不可用问题业务指标补位核心场景(逻辑)异常 ,用户切馨掉登录,最后发现足APP上误跟登录基能标:谢表,网络。大书ODS /送礼耗时/减成现率 ·用户充值失政。排查后发现是业务逻任BUGAPPLce 业务KPI智后PVUW.PCU 业务指标度量方法 大数据流式实时计算 APP:基础指标、业务技术指标、业务KPI指标服务端:业务KPI指标,评论、登录、动态等 业务KP标:直指进房,弹幕量,评论量,动量 营收:直销营收、中商订单、广

你可能感兴趣

hot

武安闯-B站 SRE 转型历程与可靠性工程实践

建筑建材
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08
hot

党受辉-从SRE体系锻造的平台工程

机械设备
2023年中国DevOps社区广州峰会2023-12-12
hot

张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

2-2 章清云-浙江移动SRE运维体系成熟度研究与实践

信息技术
2023 Gdevops全球敏捷运维峰会2023-08-01