您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:陈彦霏-数字化赋能IT应急管理场景建设实践 - 发现报告
当前位置:首页/行业研究/报告详情/

陈彦霏-数字化赋能IT应急管理场景建设实践

AI智能总结
查看更多
陈彦霏-数字化赋能IT应急管理场景建设实践

数字化赋能IT应急管理场景建设实践 陈彦霏运维研发 陈彦霏 广发证券运维研发 10+年运维研发经验,曾就职于腾讯、网易游戏、蚂蚁金服等互联网公司,擅长应急管理、ChatOps、监控系统、告警系统、日志收集系统等领域。熟悉前后端主流架构,做过在大数据量、高并发后台系统设计,著有《Python3源码深度剖析》专栏。 目01背景概况 contents 录02数字化应急管理场景 03从ChatOps到LLMOps的探索 PART01 背景概况 •数字化运维体系建设目标 •数字化应急需要解决的痛点 •数字化应急场景方法论 价值导向:广发数字化运维体系建设目标 为应对基础设施云化、应用架构微服务化、服务中台化、业务数智化、技术信创化等复杂性挑战,广发证券以价值驱动,围绕“1234”思想,打造“组织、流程、平台、场景”四位一体的运维数字化体系,建立平台化管理模式,实现“安全、稳定、引领”的战略目标,有效支撑公司数字化转型。 公司数字化转型 技术信创化 业务数智化 服务中台化 应用架构微服务化 基础设施云化 场景 应急管理应急演练OnCall容量评估压力测试盘前巡检周末测试效能评估变更评审应用发布保障集结…… 组织 技术专家 机器人 流程 稳定性保障 最佳实践流程 软件交付 IT服务交付 AI赋能流程 虚拟服务助理知识图谱自动化服务处理智能工单智能发布智能决策大脑智能故障处置 中台服务 平台 “监、管、控” 工具平台 赋能&重塑 析(数据、算法、场景) AIOps平台 1张数字化运维场景地图 2个“人机协同”的组织能力 3条全在线的核心价值链流程 4个“监管控析”技术平台 成熟度评测维度:线上化 自动化数字化智能化 4个价值创造: 提高稳定性保障水平提升业务交付速度辅助提升客户体验提升IT服务质量 安全、稳定、引领 痛点驱动:引发生产故障的因素分析 针对交易系统历史故障进行分析,结果表明“备份容灾、操作管控、应用变更、应急预案、应急演练、性能容量、监控预警、应急处置、新技术应用管控”都可能引发生产故障。 应急管理 架构问题 应用问题 变更问题配置问题 应急预案 监管控工具 高可用架 构设计 容灾设计 应用 设计 应用开发 变更测试 配置更新 变更计划 应急 协同 应急演练 备份 应用测试 变更实施 变更保障 参数配置 配置检查 架构实施 版本控制 外部攻击 产品 缺陷 数据备份 硬件 故障 监控预警 问题跟踪 压力测试 人员 技能 内部控制 产品 补丁 保障方案 误操作 问题总结分析 问题解决时间 性能优化 容量 评估 影响业务连续的因素 其它 产品及功能设计问题 维护问题 问题管理 性能容量问题 影响业务连续性因素越来越复杂,呈不确定性 形成方法:梳理应急管理的生命周期 为了应对复杂的生产故障,需要围绕“事前,事中,事后”应急管理全在线,提升各个环节的应急能力。 场景建模:打造数字化应急管理场景模型 应急场景需要综合整合“组织、流程、平台”能力,利用数字化思维,制定好工作机制,落实好什么角色,在什么时间,做什么事。 应急协同与指挥 IT运营 感知 业务运营 感知 OnCall 管理机制 应急 管理机制 SLO 管理机制 一线应急 二线协同 ChatOps机器人 三线优化 1套总线2台引擎3项机制4个角色 PART02 数字化应急管理场景 •数字化应急管理场景概况 •1套总线 •2台引擎 •3项机制 •4个角色 平台赋能数字化应急管理场景 事中 事后 …… 问题管理 …… 集中服务管控调度 事件复盘 系统可观测 大屏端 ChatOps端 移动端 PC端 变化感知 容量及性能评估 …… 风险识别 应急演练 应急预案 事前 应急场景层 触达层 数字化IT应急管理建立了事前“故障预防”,事中“故障发现、故障响应、故障定位、故障恢复”、事后“复盘改进”的数字化应急指挥模型,有效的保证了应急协作与指挥能够可靠、高效的运作。 指挥调度层 应急指挥协同场景 统一告警 中台服务层 其他服务中心 流程中心 机器人中心 自动化操作中心 智能化异常检测中心 指标中心 平台支撑层 CMDB 运维数据平台 自动化操作平台 ITSM平台 监控平台 1套总线:应急指挥连接“人、流程、工具、数据、机器人” 应急指挥具备一键建群、集结升级、执行预案、触达下游系统、机器人督导、资源调度、辅助定位等几十项指挥作战策略。应急过程和效能全数字化。 ITSM事件管理 ITSM问题管理 值班管理 线上流程 复盘 场景工具 拨测 IMS分析看板 数据赋能 超时告警BOT ChatOps 监控发现 识别与申报 辅助定界 故障恢复 事件复盘 问题跟踪 值班经理辅助机器人 IMS应急指挥BOT 复盘分析BOT 辅助分析BOT 版本、参数、配置变化感知 系统可观测 信息公告 复盘 事件风险揭示 应急预案 应急集中操作工具 版本回切 指挥协同场景 应急集结 应急 每日盘后 服务台 巡检 统一告警 建立一站式的应急总线系统,可以实时洞察应急过程,连接与应急相关的工具、数据、流程的指挥系统 多角色:公司领导、技术部门领导、运维值班经理、运维岗、研发岗、测试岗、产品需求岗、外联岗等,且支持扩展到上下游相关岗位 多终端:PC、移动、IM、大屏多端的在线协同 多渠道:支持自动与人工秒级启动,包括集结、建群、机器人、电话、OA待办等10+种丰富的资源调度手段 人机协同:多种类型的专业性机器人辅助应急指挥,连接可观测数据辅助应急 •持续提升:以各种“小事件”实战提升团队面对复杂故障的应急能力,在线数据赋能问题的发现,提升应急管理水平 1套总线:应急指挥连接“人、流程、工具、数据、机器人” 复盘 IMS分析看板 事件复盘 问题跟踪 应急指挥具备一键建群、集结升级、执行预案、触达下游系统、机器人督导、资源调度、辅助定位等几十项指挥作战策略。应急过程和效能全数字化。 ITSM事件管理 ITSM问题管理 值班管理 线上流程 场景工具 拨测 数据赋能 超时告警BOT ChatOps 监控发现 识别与申报 辅助定界 故障恢复 值班经理辅助机器人 IMS应急指挥BOT 复盘分析BOT 辅助分析BOT 版本、参数、配置变化感知 系统可观测 信息公告 复盘 事件风险揭示 应急预案 应急集中操作工具 版本回切 指挥协同场景 应急集结 应急 每日盘后 服务台 巡检 统一告警 建立一站式的应急总线系统,可以实时洞察应急过程,连接与应急相关的工具、数据、流程的指挥系统 多角色:公司领导、技术部门领导、运维值班经理、运维岗、研发岗、测试岗、产品需求岗、外联岗等,且支持扩展到上下游相关岗位 多终端:PC、移动、IM、大屏多端的在线协同 多渠道:支持自动与人工秒级启动,包括集结、建群、机器人、电话、OA待办等10+种丰富的资源调度手段 人机协同:多种类型的专业性机器人辅助应急指挥,连接可观测数据辅助应急 •持续提升:以各种“小事件”实战提升团队面对复杂故障的应急能力,在线数据赋能问题的发现,提升应急管理水平 1套总线:构建事前风险防范体系 应对行业对中断事件零容忍,故障可应急时间极为苛刻,主动挖掘风险,赋能运维左移,提升系统架构韧性。 赋能业务 (功能发布数、变更风险数) 效能管理 (下线数、成本节约) 风险防范 (风险挖掘数和解决次数) 应急管理 (1-5-10) 度量 初步构建事前风险防范体系,赋能运维左移。 事前 L1 基本的运行交互 L2 可逃生:有备份可恢复 L3L4L5 高可用:可热切换可降级和止损隔离跨系统依赖止损隔离 规范 架构 变更管控操作风险管控配置对象变化 变化 技术规范运维操作规程 风险防范 风险任务 基于指标检测的智能场景基于日志模式检测的智能场景 治理数据建模+ChatOps机器人+数字化任务 CMDB 运行风险的挖掘场景(BCP、容量评估、周末测试、压力测试……) GOPS全球运维大会2024·深圳站 1套总线:整合多种渠道,更快发现异常 监控 发现 监控手段 阈值策略 统一告警 协同发现 数据 运营 数据分析 数据质检 事中 故开发测试团队 障业务团队 发分支机构 现客户反馈 同业反馈 Metric指标 传统阈值 集中监控 性能容量 状态比对 接口探测 动态基线 Zabbix 趋势预测 配置比对 日志报错分析 异常检测算法 日志易 日志模式识别 OS参数比对 网络连通性 容量预测 ES 上下游比对 NPM业务状态 Prometheus GOPS全球运维大会2024·深圳站 1套总线:快速响应,识别故障 应急协同 •ECC管理 事中•一二三线协同 •特别保障人员集结 •先报告,再处理 •值班经理统筹 •服务台 故 障告警触达 响•告警归集 应 •告警丰富(关联CMDB) •告警升级 影响分析 •公司北极星指标 •业务运营指标 •技术运营、可用性指标 •影响面发布 GOPS全球运维大会2024·深圳站 1套总线:汇集信息,快速定界 专家经验 一线专家根据经验判断、核实 研发支持 熟悉程序逻辑的研发人员,根据变更信息、日志报错、业务数据流水等信息进行判断。 测试支持 测试人员经验+测试环节问题 测试环节复现定位 可观测思路 数据驱动,不依赖个别人的专家经验 现状:监控看板+系统黄金指标+系统健康分 规划:拥抱otel生态 事中 故障定界 GOPS全球运维大会2024·深圳站 一套总线:同步应急,快速止损 自愈 文本预案 数字化预案 面向对象 面向人 面向人和系统,系统可以自动化匹配与执行 表达形式 自然语言章节、目录、段落 数字化表达类型、标签、IT资产管理... 语义特点 准确 精确 场景关系 可难包括多个场景 精准匹配对应场景 CMDB消费 弱依赖 强依赖 预案粒度 相对笼统 分类型对应不同的应急原子策略 持续优化 无法穷举覆盖面 有针对性的推进预案完备性 系统关联 无 应急指挥、自动化操作、应急演练、复杂协同 应急指令 人工指示 应急指挥 事中 自愈 1.持续推动架构韧性(故障可恢复与性能可扩展) 2.持续推动应急处置操作自动化(针对特定故障场景) 3.持续建设自愈策略配置平台:告警关联应急操作,自动触发执行 预案 止 应急 应急预案 损 1.持续完善已知故障场景数字化应急预案 2.故障经初步定界后,按已知故障场景实施处置 3.提供逃生通道预案作为兜底方案 4.3300多个预案,1500多个预案编排 临断 现场临断 无法自愈或应急预案无效的情况下,由应急指挥调度资源,机器人协同,现场临断 GOPS全球运维大会2024·深圳站 思考:关于定界与止损 定界 事中 定界决策缓冲 界 定止损 与 止N板斧(重启、回滚、切换) 损 GOPS全球运维大会2024·深圳站 一套总线:故障复盘,总结经验,优化加固 不浪费每次故障经验,这是“事件驱动优化”的绝好机会。 故障复盘模板要素. •概述(简述过程) •影响(所属业务、涉及功能/交易损坏情况) •应急时间轴及各环节优化事项 •直接原因 •故障根因 •根因跟进优化事项 •…… 事后 1.下次是否可以更快的恢复? •应急时间轴:发现、响应、定界、止损 故•定位时间轴:根因、彻底恢复 •可行的优化手段:监控、告警、应急预案、 障自动化、管理制度、知识面、指挥协同体系、 优化方向 •根因的防范(BUG、配置、参数等) •架构韧性 •发现手段 •响应及时性 •排障观测手段 •预案有效性 •应急指挥协作 •管理流程机制 •人员能力 •…… 复可观测、架构韧性 盘2.如何避免重复故障? •故障本身:根因解决,避免二次损害 •举一反三:是否有类似风险 3.管理机制 •定级 •定性(根据发生原因) •定责(责与罚) •可用性减分 GOPS全球运维大会2024·深圳站 2台引擎:IT运行风险保障感知 出

你可能感兴趣

hot

陈理华-大语言模型在 IT 运维领域的建设落地实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

陈顺生-零售行业数字化转型BizDevOps建设实践

商贸零售
2023年中国DevOps社区广州峰会2023-12-12
hot

陈浩-人工智能和大数据赋能法治创新(杭州会议)

信息技术
2023产业数据价值化峰会暨数栖大会2023-08-08
hot

张春春-千万级商家服务保障场景下应急效能和体验提升实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13