拨云见月 提升新时代下的运维认知能力 姓名:陈刚 个人简介 陈刚 北京华佑科技技术合伙人 超过二十年的运维职业生涯,从机房运维一起到云原生,从写脚本一直到专业运维开发。目前在北京华佑科技从事售前及咨询工作。 何为认知能力? 认知能力一种包括观察力、注意力、 记忆力等的综合能力。大脑用于加 工、储存和提取信息,然后将各种信息转换成知识的能力。 不同时代的IT认知 ---FromCartografosWorkingGroup “运维能力提升宣言” 面向业务和用户稳定性保障面向IT资源服务稳定性保障 基于状态的故障可观测变更过程的风险控制 混沌工程实践 AI智能密集型 基于症状的监控告警变更流程的完整 静态的应急演练项目制的IT提升 性能瓶颈优化人力密集型 我们认可右项成熟的能力,我们更应该提升左项的能力,来应对未来“万物皆变”的新时代。 基于数据驱动的运维质效 数据治理体系 运维管理体系 体系基础 多元化数据整合 可量化运维指标 数据整合 数据接入 样本训练 管理标准 行业规范 业内范例 实践经验 数据总览 质量有抓手 配置管理 变更管理 即时调度编排 多模态评估模型 模型管理扫描报告 闭环跟踪 已完成 系统扫描报告 系统总览看板 效 邮件推送、统计报表展示 改进条目复扫 可 建设中能 全连接消息对接 ITSM工单对接 掌握 任务编排 即时计算 十大能力域 软件交付 监控告警 事件管理 容量成本 高可用管理 业务连续性 合规风控 质效反馈 配置数据 指标数据 告警数据 组织建设 流程建设 平台建设 中国信通院-研发运营系统稳定性工程(SRE)能力框架 研发运营系统稳定性与连续性工程(SRE) 总体目标:SLO运营 研发过程稳定性保障 部署发布 质量保障 设计与开发 部署过程 发布策略 系统质量 (代码质量) 测试管理 架构评审 稳定性准入 技术运营稳定性保障 优化改进 故障处置 故障观测 故障预防 持续运营 复盘改进 故障止损 故障定位 故障响应 告警管控 运维数据观测 风险管理 应急预案 性能容量 健康巡检 混沌工程 变更管理 系统可靠性与连续性工程:systemreliabilityandcontinuityengineering 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本标准主要针对如何通过各类保障手段,最大限度确保系统的稳定性 Thanks 高效运维社区DevOps时代 荣誉出品