您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:陈彦霏-数字化赋能IT应急管理场景建设实践 - 发现报告

陈彦霏-数字化赋能IT应急管理场景建设实践

AI智能总结
查看更多
陈彦霏-数字化赋能IT应急管理场景建设实践

数字化赋能IT应急管理场景建设实践 陈彦霏运维研发 陈彦霏 广发证券运维研发 10+年运维研发经验,曾就职于腾讯、网易游戏、蚂蚁金服等互联网公司,擅长应急管理、ChatOps、监控系统、告警系统、日志收集系统等领域。熟悉前后端主流架构,做过在大数据量、高并发后台系统设计,著有《Python3源码深度剖析》专栏。 01背 景 概 况 02数 字 化 应 急 管 理 场 景 03从C h a t O p s到L L M O p s的 探 索 PART 01 背景概况 •数字化运维体系建设目标•数字化应急需要解决的痛点•数字化应急场景方法论 价值导向:广发数字化运维体系建设目标 为应对基础设施云化、应用架构微服务化、服务中台化、业务数智化、技术信创化等复杂性挑战,广发证券以价值驱动,围绕“1234”思想,打造“组织、流程、平台、场景”四位一体的运维数字化体系,建立平台化管理模式,实现“安全、稳定、引领”的战略目标,有效支撑公司数字化转型。 成熟度评测维度:线上化自动化数字化智能化 4个“监管控析”技术平台 痛点驱动:引发生产故障的因素分析 针对交易系统历史故障进行分析,结果表明“备份容灾、操作管控、应用变更、应急预案、应急演练、性能容量、监控预警、应急处置、新技术应用管控”都可能引发生产故障。 形成方法:梳理应急管理的生命周期 为了应对复杂的生产故障,需要围绕“事前,事中,事后”应急管理全在线,提升各个环节的应急能力。 场景建模:打造数字化应急管理场景模型 应急场景需要综合整合“组织、流程、平台”能力,利用数字化思维,制定好工作机制,落实好什么角色,在什么时间,做什么事。 PART 02 数字化应急管理场景 •数字化应急管理场景概况•1套总线•2台引擎•3项机制•4个角色 平台赋能数字化应急管理场景 数字化IT应急管理建立了事前“故障预防”,事中“故障发现、故障响应、故障定位、故障恢复”、事后“复盘改进”的数字化应急指挥模型,有效的保证了应急协作与指挥能够可靠、高效的运作。 1套总线:应急指挥连接“人、流程、工具、数据、机器人” 应急指挥具备一键建群、集结升级、执行预案、触达下游系统、机器人督导、资源调度、辅助定位等几十项指挥作战策略。应急过程和效能全数字化。 l建立一站式的应急总线系统,可以实时洞察应急过程,连接与应急相关的工具、数据、流程的指挥系统l多角色:公司领导、技术部门领导、运维值班经理、运维岗、研发岗、测试岗、产品需求岗、外联岗等,且支持扩展到上下游相关岗位l多终端:PC、移动、IM、大屏多端的在线协同l多渠道:支持自动与人工秒级启动,包括集结、建群、机器人、电话、OA待办等10+种丰富的资源调度手段l人机协同:多种类型的专业性机器人辅助应急指挥,连接可观测数据辅助应急•持续提升:以各种“小事件”实战提升团队面对复杂故障的应急能力,在线数据赋能问题的发现,提升应急管理水平 1套总线:应急指挥连接“人、流程、工具、数据、机器人” 应急指挥具备一键建群、集结升级、执行预案、触达下游系统、机器人督导、资源调度、辅助定位等几十项指挥作战策略。应急过程和效能全数字化。 1套总线:构建事前风险防范体系 应对行业对中断事件零容忍,故障可应急时间极为苛刻,主动挖掘风险,赋能运维左移,提升系统架构韧性。初步构建事前风险防范体系,赋能运维左移。 1套总线:整合多种渠道,更快发现异常 1套总线:快速响应,识别故障 应急协同 •ECC管理•一二三线协同•特别保障人员集结•先报告,再处理•值班经理统筹•服务台 事中 故障响应 告警触达 •告警归集•告警丰富(关联CMDB)•告警升级 影响分析 •公司北极星指标•业务运营指标•技术运营、可用性指标•影响面发布 1套总线:汇集信息,快速定界 专家经验一线专家根据经验判断、核实 事中 故障定界 熟悉程序逻辑的研发人员,根据变更信息、日志报错、业务数据流水等信息进行判断。 可观测思路 数据驱动,不依赖个别人的专家经验现状:监控看板+系统黄金指标+系统健康分规划:拥抱otel生态 一套总线:同步应急,快速止损 事中 自愈 自愈 1.持续推动架构韧性(故障可恢复与性能可扩展)2.持续推动应急处置操作自动化(针对特定故障场景)3.持续建设自愈策略配置平台:告警关联应急操作,自动触发执行 应急止损 应急预案 1.持续完善已知故障场景数字化应急预案2.故障经初步定界后,按已知故障场景实施处置3.提供逃生通道预案作为兜底方案4.3300多个预案,1500多个预案编排 预案 现场临断 无法自愈或应急预案无效的情况下,由应急指挥调度资源,机器人协同,现场临断 临断 思考:关于定界与止损 定界 止损 N板斧(重启、回滚、切换) 一套总线:故障复盘,总结经验,优化加固 不浪费每次故障经验,这是“事件驱动优化”的绝好机会。 故障复盘模板要素. •概述(简述过程)•影响(所属业务、涉及功能/交易损坏情况)•应急时间轴及各环节优化事项•直接原因•故障根因•根因跟进优化事项•…… 1.下次是否可以更快的恢复?•应急时间轴:发现、响应、定界、止损 •定位时间轴:根因、彻底恢复•可行的优化手段:监控、告警、应急预案、自动化、管理制度、知识面、指挥协同体系、可观测、架构韧性 故障复盘 优化方向 2.如何避免重复故障? •故障本身:根因解决,避免二次损害•举一反三:是否有类似风险 •根因的防范(BUG、配置、参数等)•架构韧性•发现手段•响应及时性•排障观测手段•预案有效性•应急指挥协作•管理流程机制•人员能力•…… 3.管理机制 •定级•定性(根据发生原因)•定责(责与罚)•可用性减分 2台引擎:IT运行风险保障感知 出现故障后,运维专家需要必要的在线信息提升可观察性,辅助专家应急决策。数据成为IT运营指挥新动能,指挥系统打造IT运行风险保障和业务运营赋能的数字化“双引擎”,提供实时感知、辅助决策、跟踪执行闭环的运营指挥能力。 技术运行视角 IT运行感知围绕核心交易、数据库、终端性能、客户体验、基础设施容量、安全态势感知、关键交易全景拓扑、应急事件、变更发布等主题,构建全方位、数字化的风险感知能力。 2台引擎:业务运营赋能的数字化感知 业务运营视角 业务可用性感知围绕终端用户行为,包括开户、理财、机构、投资、研究等关键业务运营指标,建立业务运营指标模型,实现多元的业务运营感知,辅助更快地发现影响业务的故障。 3项机制 Oncall •ECC指挥作战•值班管理•监控管理•值班经理机制 应急管理 应急管理 •应急协同•应急响应•应急预案•故障复盘 SLO机制 SLO机制 •韧性架构:L1~L5•BCP业务连续性•数据中心容灾 四个角色 四个角色:ChatOps机器人 ChatOps是场景连接利器:迄今为止,共有40+的团队,500+个ChatOps机器人,3000+个机器协同群在工作中应用,机器人发挥着越来越重要的作用。 前台业务运营监控机器人 PART 03 从ChatOps到LLMOps的探索 •ChatOps场景建设演进•无代码ChatOps配置平台•大模型AIAgent应用探索 ChatOps机器人场景建设演进 无代码ChatOps工具:研发挑战 无代码ChatOps工具:模型抽象 推送渠道 数据源 •数据库:MySQL、Oracle、MongoDB…•API接口:URL、Method、Header、Body •企微机器人•企微协作群•电话•短信•邮件… 执行调度 消息模板 •Crontab•周期调度•计划时间 •定义消息格式•根据实际数据进行渲染 无代码ChatOps工具:数据源 无代码ChatOps工具:数据源预览 无代码ChatOps工具:通知渠道、消息模板、调度模式 无代码ChatOps工具:效果 开发效率高 通用服务化 需求响应快 应用场景一:CMDB配置信息查询机器人 应用场景二:报错日志分析 通用中间件效果较好 私有组件效果较差 需要人介入仔细甄别 大模型幻觉 知识面很广的小助手 应用场景二:报错日志分析 应用场景三:大模型告警分析 应用场景四:大模型消息模板生成助手 应用场景四:大模型消息模板生成助手 大模型应用规划展望 高效运维社区DevOps时代 荣誉出品 感谢大家观看