您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:井亮亮---技术故障应急协同机制的探索 - 发现报告
当前位置:首页/行业研究/报告详情/

井亮亮---技术故障应急协同机制的探索

AI智能总结
查看更多
井亮亮---技术故障应急协同机制的探索

技术故障 应急协同机制的探索 井亮亮 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 技术故障重要性及定义 目录 技术故障的全生命周期 如何落地应急协同机制 小结及展望 01技术故障的重要性及定义 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 技术故障重要性 海恩法则,也被称为Heinrich‘slaw,是由德国飞机涡轮机的发明者帕布斯·海恩提出的一个关于飞行安全的法则。这一法则强调,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。这表明,任何严重事故的发生都是经过了一个从苗头到隐患,再到事故的过程,而这个过程的每一个环节都是可以预防的。海恩法则不仅适用于航空领域,也广泛应用于企业的生产管理、安全管理、人资管理等各个领域,其精髓在于“防微杜渐”,即通过及时发现并消除事故的征兆和隐患,来避免重大事故的发生。 墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。其含义是说,无论是因为存在一个错误的方法,或是存在发生某种错误的潜在可能性,只要重复进行某项行动,错误在某个时刻就会发生。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 可预防不可避免 什么是故障? 问题? 风险? 影响了业务的才是故障? 故障? 事件? 事故? GOPS全球运维大会暨XOps技术创新峰会2024·北京站 技术故障在ITIL中的定义 故障问题 :problem ITIL定义:“服务的意外中断或服务质量的降低” ITIL定义:为“问题”、“已知错误”,问题意味着隐患风险,已知错误意味着主动整改。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 问题(Problem)、故障(Incident)区分: •故障对用户或业务流程有影响,必须解决这些故障,以便可以进行正常的业务活动 •问题是故障的原因。它们需要调查和分析,以查明原因,制定变通办法,并建议长期解决办法。这减少了未来故障的数量和影响。 02技术故障的全生命周期 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 技术故障全生命周期 故障前:未雨绸缪、防微杜渐 发现潜在问题并修复 •代码审查:严格执行代码审查流程,确保代码质量符合标准,进行全面的测试,包括单元测试、集成测试、性能测试等,确保软件质量。 •自动巡检:通过自动化巡检机制,发现软硬件的包括基础资源、应用配置、告警配置,以及 •混沌工程:主动引入故障和异常情况,发现系统中的弱点和脆弱性,以及其在面对异常情况时的表现。 •应急演练:通过模拟突发情况,检验应急预案的有效性,锻炼应急队伍的协同配合,磨合应急管理机制。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运行状态的风险及潜在问题。提升故障处置阶段效率 故障中 故障中:分秒必争、临危不惧 发现故障 通过监控手段自动化报备 人工反馈报备 故障止血 考察自动化预案的执行重启、切流、降级等 故障响应 GOC总控中心 根据故障域高效拉群协同 故障定位 SRE基础设施能力提供变更事件 监控告警、日志记录、链路分析、在线诊断等 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 故障后:亡羊补牢、秋后算账 《六维复盘术》 发生时间发现时间响应时间定位时间止血时间恢复时间 梳理 故障时间线 发现方式响应方式协同流程初步定位风险升级信息通报启动预案处置方案 还原 故障处理过程 产品需求系统架构代码质量测试覆盖上线操作程序配置系统监控业务操作 分析 故障根因问题 需求/任务改进内容改进人完成日期系统优化监控优化测试优化流程优化 整理 故障改进措施 故障级别主责部门次责部门主责任人次责任人责任处罚 判定 故障级别责任 解决方案故障反思通告时效通告范围 发送故障报告 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 向自己学习,不浪费任何一个故障 03如何落地应急协同机制 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 应急“1-5-10”目标 “1-5-10”源于阿里 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 发现故障 故障定位 故障止损 1 分钟 5 分钟 10 分钟 发生发现定位止血/恢复 定位:并不是找到了具体的故障原因或故障根源,而是找到了大概的故障位置,可以针对性启动应急处理流程。止血:并不是真正的完全恢复,通常是可以采取快速预案的执行,从而阻断了故障继续扩散。 标准先行 1、应急标准 应急的核心是止损,明确各个角色在故障发生过程中的应急操作流程,报备流 程等。 2、复盘标准 明确不同级别复盘方式和流程,通常 由GOC组织线下复盘,明确申诉机制 和流程。 3、定级标准 01 02 03 04 评估技术故障的严重程度,通常根据对业务影响进行量化,对社会舆论的影响情况,以及影响时长综合定级。 4、定责标准 确定主次责任,通常根据各个阶段中是否符合,另外也要考虑是否违反规定的红线综合定责。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 标准落地 落地三大障碍 故障不上报 推脱责任 复盘不认级别 低调处理 “大事化小、小事化了”,如果老板不追责,系统就是没问题,能瞒着就瞒着,你好我好大家好。 明哲保身 避重就轻 担心承担不起“P0”级的惩罚,能往下压低一级,就绝不老实“认罪”,复盘会花费大量时间为级别扯皮。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 降低报备的成本雪崩的时候没有一篇雪花是无辜的处罚和级别无关联 故障前-工具平台的核心功能 01预警系统 自动化巡检实时检测潜在故障,并快速预警,确保故障被及时、准确地发现并解决。 02监控系统 优化监控的精准度,引入告警确认的ACK机制,简化风险报备流程,一键轻松上报。 03容量管理 基于模型/算法提供容量预估、支持常态化容量验证,通过自动巡检识别容量风险 04混沌工程 通过实验模型的注入,检测系统高可用、发现未知错误,提升系统容错能力。 有了标准,还需工具上的支撑 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 故障后-工具平台的核心功能 故障复盘 编写报告 发送报告 改进措施 深挖原因(5Why分析法,“丰田五问法则”) 案例:丰田汽车公司前副社长大野耐一,如何通过运用5WHY法来找到工厂设备停机的根本原因。有一次,他在生产线上发现机器总是停转,虽然修过多次,但仍不见好转。于是他询问工人机器停机的原因。 对话: Q1:为什么机器停了?A1:因为机器超载,保险丝烧断了。Q2:为什么机器会超载?A2:因为轴承的润滑不足。 Q3:为什么轴承会润滑不足?A3:因为润滑泵失灵了。Q4:为什么润滑泵会失灵?A4:因为它的轮轴耗损了。 Q5:为什么润滑泵的轮轴会耗损?A5:因为杂质跑到里面去了。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 技术故障数据洞察 技术故障应急协同机制落地 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 04小结及展望 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 小结 01故障定义 •海恩法则:每一起严重事故后背,有29次轻微事故和300起未遂先兆以及1000次事故隐患(可预防) •墨菲定律:任何可能出错的事情最终都会出错(不可避免) 02故障生命周期 •未雨绸缪、防微杜渐:发现潜在问题并修复,提升故障处理阶段效率 •分秒必争、临危不惧:通过发现、响应、定位、止血快速处理故障 •亡羊补牢、秋后算账:《六维复盘法》,向自己学习,不浪费任何一个故障 03落地应急协同机制 •SOP标准先行,及落地障碍的应对策略 •应急的核心是止损,确定故障应急标准 •面对复盘时责任推脱,雪崩时没有一篇雪花是无辜的,改进最有效原则定责 •故障前中后阶段,通过不同的工具建立团队之间的“协作“,快速降低线上MTTR •数据洞察的目标最大限度增加MTBF(平均无故障时长)和缩短MTTR(平均故障修复时长) GOPS全球运维大会暨XOps技术创新峰会2024·北京站 继续探索 扁鹊三兄弟 1.大哥:最好,事前 2.二哥:次之,事中 3.扁鹊:最差,事后 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.29