您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版 - 发现报告
当前位置:首页/行业研究/报告详情/

张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版

AI智能总结
查看更多
张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版

OnCall驱动下的IT系统稳定性运营实践 张雁丽 北京移动SRE执行小组产品经理、系统运维 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 姓名:张雁丽 SRE执行小组产品经理、系统运维 主要负责SLO、可观测、运维保障及故障调度产品的设计与研发。 经验分享与探索 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实施背景 整体框架与机制 目录运维保障 事件调度 工具支撑 01实施背景 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维保障及故障调度工作现状 运维保障、故障调度现状 仅具备变更保障 运维保障要求不明确 保障保障依赖人员控制,效率低下, 保障效果无法保证 仅SaaS运维进行故障调度 故障故障时,无标准流程,人员手忙脚乱 调度无升级、对外信息发布机制 人员无法实时获取故障处理进展 存在问题 保障覆盖程度低 运维保障未分类分级管理 保障 无统一的保障标准 缺少好用的保障工具 无整体故障调度 故障无标准响应流程 调度缺少好用的故障调度工具 管理缺失 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维痛点 运维孤岛 覆盖程度低、无标准化 01 02 03 04 故障响应流程 IT组织中,仅一个部门负责运维保障和 故障调度,限制了运维工作的灵活性和 响应速度。 过度依赖厂商 自主解决问题能力差,当厂商服务不可用时,存在应对不足风险。 仅针对变更,覆盖程度低,难以满足保障需要; 缺乏标准化故障响应流程,引发故障处置混乱,领导被动等待、用户信息缺失等问题。 未分级分类、工具化水平不足 未分级分类管理,难以快速响应外部各类情况,导致服务质量下降。 存在“缺少运维工具”、“建设运维工 具后无人使用”的双重困境,运维效率低下。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02整体框架和机制 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维保障实施的五项原则 五项原则 运维保障前置 必须提前规划、准备,确保在潜在风险发生之前,具备必要的预防措施和应急计划 区分特殊时间段与活动 分类分级保障 必须实施严格的分级机制,确保关键系统和业务在任何情况下都能得到优先保障和快速响应 必须依据时间段、关键活动差异化管理,确保在业务高峰期或重要活动期间,系统稳定性和服务质量得到保障 适配组织文化 必须与组织文化深度契合,确保保障措施与企业价值观和工作方式相协调,促进全员的积极参 与和高效执行 借鉴业内最佳实践 运维保障实施需不断借鉴业内最佳实践,确保运维管理体系的先进性与适应性,以实现持续优化 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 总体保障机制-保障标准 保障等级划分保障要求人员安排 时间段活动 特大活动 批量版本配置 操作变更变更 系统资源 巡检准备 VPN 服务厂商IC 联络经理 局方IC应用 经理运维 PaaS运维 IaaS运维 变更负领导责人 其他二线 三级专家 一级(如:奥运、七十周年等) 二级重大系统 xxxxxxxx xxxxxxxx 云桌面现场元宇宙 VPN 现场现场现场 现场现场现场现场现场现场 变更次日 云桌面现场元宇宙 现场现场现场 现场现场现场远程远程远程 三级 月初、跨年保障 四级 法定节假日、需求变更、常规项目 五级 日常保障、临时需求、维护变更 重要活动、领导视察、重大营销 其他营销活动 注: xxxxxxxx xxxxxxxx xxxxxxxx VPN 云桌面现场元宇宙 VPN 云桌面现场元宇宙 远程 VPN 云桌面元宇宙 注: 现场现场现场 现场远程远程 远程远程远程 现场现场远程远程 远程远程远程远程 远程远程远程 远程远程 远程远程 1.活动、营销等,由人工在系统设置; 2.法定节假日、变更等,系统自动计G算O;PS全球运维大会暨 1.轮值IC经理、该三级部门轮值运维(作为IC助手),故障发生后30分钟内到达现场; XO2p.s二技级术及创以下新保峰障会,20如2果4法·定北节京假站日轮到现场值班,可选择远程值班; 保障要求 资源准备 批量操作 该保障级别是否允许执行批量数据操作,如:数据一致性批量矫正等 各保障级别下,均要求进行相应的资源准备检查,确保相关资源可用 资源准备 保障要求 版本变更 配 置 该保障级别是否允许执行应用、操作系统、中间件、数据库、安全等软件版本变更 配置管理 该级别是否允许对系统进行相关巡检和测试等 系统巡检 管 该保障级别是否允许执行网络、服务器、中间件、数据库、应用、安全等软硬件的 理配置参数或选型变更 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 角色 归属部门 备注 告警接收人 运维、云基、服务、开发、中台各部门 相关资源的维护负责人 50000号值班 服务 每个月一次安排轮值 IC经理 运维、云基、服务、开发、中台各部门 各部门三级经理按规则轮值 IC副手 轮值IC经理所在三级部门 IC经理所在三级部门的对应运维值班人 服务联络 服务 50000号值班人,在报障后自动转为内外部联络发言人 应用运维值班 运维 每个月一次安排轮值 PaaS运维值班 服务、云基,包含:数据库、中间件、云平台 每个月一次安排轮值 IaaS运维值班 服务、云基,包含:服务器、网络 每个月一次安排轮值 变更负责人 运维、云基、服务、开发、中台各部门 变更次日的变更发起人 二线专家 运维、云基、服务、开发、中台各部门及厂商 各部门和厂家汇集的二线专家名单,按需维护 保障组织 注: 1.50000号、各层运维值班人轮值安排,由各部门指定专人负责在系统排定; 2.所有轮值人员(IC经理、50000号、各层值班人),均需安排“主备”轮值——当主轮值人员调班时,备轮值人员自动升为主轮值; 3.活动、营销等设置,由运维中心负责; 4.故障定级、故障复盘跟踪,由运维中心负责; 5.二线专家名单维护,由运维中心负责; GOPS全球运维大会暨XOps技术创新峰会2024·北京站 角色与职责 角色 工作要求 备注 IC经理 作为指挥官,全权负责事件响应调度;参考响应指南,调度各响应专家,执行如下任务: •故障影响排查;•确认系统组件状态,找到故障点;•收集故障恢复建议,决策恢复策略;•执行故障恢复。 •必要时,及时升级故障•配合相关故障通报和内外联络 IC副手 按照IC经理要求,执行相关工具操作,包括:•配合展示相关监控界面(已有工具支持); •呼叫运维值班人、二线专家等,上线响应故障;•及时提醒相关专家回复;•及时更新故障信息,并群内通报。 如下工作将在7月初上线工具化:•创建在线会议;•呼叫值班人、二线专家;•及时提醒相关专家群内回复;•通报故障信息; 响应专家 按照IC经理要求,及时回复。建议回复格式: •Condition:当前相关模块的系统服务状态如何?健康不健康?•Action:如果相关模块的服务不处于健康状态,需要采取哪些操作?•Need:还需要哪些人、或资源的支持才能执行操作? 服务联络 按要求及时编写内外部沟通信息,进行消息发布 •事件响应过程中,各角色遵循如下的工作要求,负责职责内任务。 03运维保障 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 保障前准备-保障等级的确定 保障场景定义:依据“区分特殊时间段与活动”原则,我们将节假日、跨月跨年、上线变更、营销活动、重大会议以及一些重大社会性活动定义为保障场景。 保障场景登记 •内容:特大活动、重要活动、领导视察、重大营销、其他营销活动 •要求:至少提前24h登记保障场景 •实施角色:保障场景管理员,由运营中心承担 保障等级计算 (20:00-20:30) 原则:取高原则 默认原则最终原则 特殊时间段 •月初月末、法定节假日、跨年 •实施角色:OnCall机器人 变更计划 •按照风险等级,划分为:重大变更、大型变更、中等变更、一般变更 •要求:每日20:00前登记当晚变更计划 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 保障前准备-轮值排班 月初月末、跨年等特殊时间段,仅运营、服务参与轮值 特殊时间段原则 轮值排班遵循“5个原则” 公平原则 各个部门轮班的频次需保持公平 轮值角色应包括:IC领导、SaaS运维、IaaS运维、PaaS运维 全面原则 所有轮值角色必须包含主责、备责 主备原则 保障等级 保障场景 IC经理轮值规则 IC副手选定规则 一级 特大活动 各三级部门经理轮值 轮值部门的主轮值人员 二级 重大系统变更次日 变更主责部门三级经理轮值 变更主责部门的主轮值人员 三级 月末月初、跨年保障 服务、运维三级经理轮值 服务、运维部门的主轮值人员 重要活动、领导视察、重大营销 B域相关各三级部门经理轮值 轮值部门的主轮值人员 四级 法定节假日、其他营销活动 B域相关各三级部门经理轮值 轮值部门的主轮值人员 需求变更、常规项目 变更相关部门三级经理轮值 变更相关部门的主轮值人员 五级 日常保障、临时需求、维护变更 B域相关各三级部门经理轮值 轮值部门的主轮值人员 根据保障等级,制定IC经理轮值规则、IC副手选定规则 IC经理排班时,优先排变更负责人所在部门领导 变更优先原则 支持调班 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 保障前准备-轮值排班 确保做好轮值准备 工作电脑 VPN 关注轮值 安排 调班 确保值班工具 和环境 电话未静音/免打扰 主责、备责 必要时发起调班, 并通知到相关人 逐项检查、确认 元宇宙 线上会议APP 值班期间,确保能接收告警短信,接听故障调度电话 04事件调度 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 事件类型与定级 故障(外部报障,其它部门、集团,人为判别)风险(内部报障,信息部,系统判别) 故障级别 标准定义 G5 集团告警、业务部门、在线、营业厅等外部渠道上报且确认是系统问题的故障,时长>6h。故障导致公司收入损失200万以上,且无法挽回。引发主流互联网、新闻媒体大范围负面报道。对公司产生恶劣影响。上级主管部门或者公司问责的事件。 G4 集团告警、业务部门、在线、营业厅等外部渠道上报且确认是系统问题的故障,时长(3,6]h。上级主管部门下发的专项故障整改通报。 G3 集团告警、业务部门、在线、营业厅等外部渠道上报且确认是系统问题的故障,时长(1,3]h。在线上报的三级突发,或其他渠道上报且升级至一级经理的故障。 G2 集团告警、业务部门、在线、营业厅等外部渠道上报且确认是系统问题的故障,时长(30,60]min。在线上报的二级突发,或其他渠道上报且升级至二级经理的故障。 G1 集团告警、业务部门、在线、营业厅等外部渠道上报且确认是系统问题的故障,时长(0,30]min。 风险级别 标准定义 F5 业务量下降≥20%、或错误率≥10%、或SLO高风险,时长>2h。业务量下降[10%,20%)、或错误率[1%,10%)、或SLO中风险,时长>3h。 F4 业务量下降≥20%、或错误率≥10%、或SLO高风险,时长(1,2]h。业务量下降[10%,20%)、或错误率[1%,10%)、或SLO中风险,时长(2,3]h。影响用户数大于20万或影响金额大于200万。 F3 业务量下降≥20%、或错误率≥10%、或SLO高风险,时长(30,60]min。业务量下降[10%,20%)、或错误率[1%,10%)、或SLO中风险,时长(1,2]h。影响用户数大于10万或影响金额大于100万。造成业务开放延迟或与业务

你可能感兴趣

hot

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

基于数据驱动的系统稳定性保障体系研究与实践-国泰君安证券-胡霞

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

数据驱动下的精细化运营实践

信息技术
神策数据2019-12-22
hot

见微知著:业务_技术双轮驱动的稳定性实践 - 林万境

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21