井亮亮 技 术 故 障 重 要 性 及 定 义 技 术 故 障 的 全 生 命 周 期 目录 如 何 落 地 应 急 协 同 机 制 小 结 及 展 望 技术故障的重要性及定义 技术故障重要性 海恩法则,也被称为Heinrich‘slaw,是由德国飞机涡轮机的发明者帕布斯·海恩提出的一个关于飞行安全的法则。这一法则强调,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。这表明,任何严重事故的发生都是经过了一个从苗头到隐患,再到事故的过程,而这个过程的每一个环节都是可以预防的。海恩法则不仅适用于航空领域,也广泛应用于企业的生产管理、安全管理、人资管理等各个领域,其精髓在于“防微杜渐”,即通过及时发现并消除事故的征兆和隐患,来避免重大事故的发生。 墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。其含义是说,无论是因为存在一个错误的方法,或是存在发生某种错误的潜在可能性,只要重复进行某项行动,错误在某个时刻就会发生。 可预防 什么是故障? 技术故障在ITIL中的定义 问题 故障 :problem ITIL定义:“服务的意外中断或服务质量的降低” ITIL定义:为“问题”、“已知错误”,问题意味着隐患风险,已知错误意味着主动整改。 问题(Problem)、故障(Incident)区分: •故障对用户或业务流程有影响,必须解决这些故障,以便可以进行正常的业务活动 •问题是故障的原因。它们需要调查和分析,以查明原因,制定变通办法,并建议长期解决办法。这减少了未来故障的数量和影响。 技术故障的全生命周期 技术故障全生命周期 故障前:未雨绸缪、防微杜渐 发现潜在问题并修复 •混沌工程:主动引入故障和异常情况,发现系统中的弱点和脆弱性,以及其在面对异常情况时的表现。 •代码审查:严格执行代码审查流程,确保代码质量符合标准,进行全面的测试,包括单元测试、集成测试、性能测试等,确保软件质量。 •应急演练:通过模拟突发情况,检验应急预案的有效性,锻炼应急队伍的协同配合,磨合应急管理机制。 •自动巡检:通过自动化巡检机制,发现软硬件的包括基础资源、应用配置、告警配置,以及运行状态的风险及潜在问题。 提升故障处置阶段效率 故障中:分秒必争、临危不惧 发现故障 故障响应 GOC总控中心根据故障域高效拉群协同 通过监控手段自动化报备人工反馈报备 故障定位 故障止血 SRE基础设施能力提供变更事件监控告警、日志记录、链路分析、在线诊断等 考察自动化预案的执行重启、切流、降级等 故障后:亡羊补牢、秋后算账 如何落地应急协同机制 应急“1-5-10”目标 定位:并不是找到了具体的故障原因或故障根源,而是找到了大概的故障位置,可以针对性启动应急处理流程。 止血:并不是真正的完全恢复,通常是可以采取快速预案的执行,从而阻断了故障继续扩散。 标准先行 1、应急标准 3、定级标准 应急的核心是止损,明确各个角色在故障发生过程中的应急操作流程,报备流程等。 评估技术故障的严重程度,通常根据对业务影响进行量化,对社会舆论的影响情况,以及影响时长综合定级。 4、定责标准 2、复盘标准 明确不同级别复盘方式和流程,通常由GOC组织线下复盘,明确申诉机制和流程。 确定主次责任,通常根据各个阶段中是否符合,另外也要考虑是否违反规定的红线综合定责。 标准落地 落地三大障碍 推脱责任 故障不上报 复盘不认级别 明哲保身 避重就轻 低调处理 担心承担不起“P0”级的惩罚,能往下压低一级,就绝不老实“认罪”,复盘会花费大量时间为级别扯皮。 “大事化小、小事化了”,如果老板不追责,系统就是没问题,能瞒着就瞒着,你好我好大家好。 雪崩的时候没有一篇雪花是无辜的 故障前-工具平台的核心功能 预警系统01 自动化巡检实时检测潜在故障,并快速预警,确保故障被及时、准确地发现并解决。 有了标准,还需工具上的支撑 监控系统02 优化监控的精准度,引入告警确认的ACK机制,简化风险报备流程,一键轻松上报。 容量管理03 基于模型/算法提供容量预估、支持常态化容量验证,通过自动巡检识别容量风险 混沌工程04 通过实验模型的注入,检测系统高可用、发现未知错误,提升系统容错能力。 故障后-工具平台的核心功能 深挖原因(5Why分析法,“丰田五问法则”) 案例:丰田汽车公司前副社长大野耐一,如何通过运用5WHY法来找到工厂设备停机的根本原因。有一次,他在生产线上发现机器总是停转,虽然修过多次,但仍不见好转。于是他询问工人机器停机的原因。 对话: Q1:为什么机器停了?A1:因为机器超载,保险丝烧断了。Q2:为什么机器会超载?A2:因为轴承的润滑不足。Q3:为什么轴承会润滑不足?A3:因为润滑泵失灵了。Q4:为什么润滑泵会失灵?A4:因为它的轮轴耗损了。Q5:为什么润滑泵的轮轴会耗损?A5:因为杂质跑到里面去了。 技术故障数据洞察 技术故障应急协同机制落地 小结 •海恩法则:每一起严重事故后背,有29次轻微事故和300起未遂先兆以及1000次事故隐患(可预防)•墨菲定律:任何可能出错的事情最终都会出错(不可避免) 故障生命周期02 •未雨绸缪、防微杜渐:发现潜在问题并修复,提升故障处理阶段效率•分秒必争、临危不惧:通过发现、响应、定位、止血快速处理故障•亡羊补牢、秋后算账:《六维复盘法》,向自己学习,不浪费任何一个故障 落地应急协同机制03 •SOP标准先行,及落地障碍的应对策略•应急的核心是止损,确定故障应急标准•面对复盘时责任推脱,雪崩时没有一篇雪花是无辜的,改进最有效原则定责•故障前中后阶段,通过不同的工具建立团队之间的“协作“,快速降低线上MTTR•数据洞察的目标最大限度增加MTBF(平均无故障时长)和缩短MTTR(平均故障修复时长) 继续探索 扁鹊三兄弟 1.大哥:最好,事前2.二哥:次之,事中3.扁鹊:最差,事后 感谢大家观看