从理念到落地 中小银行智能运维体系建设实践 刘志长沙银行 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 Content 目录02 为什么要做智能运维 项目描述,单击此处添加简短说明 智能运维,从理念到落地 项目描述,单击此处添加简短说明 03 智能运维的Planing 项目描述,单击此处添加简短说明 01 为什么要做智能运维 项目描述,单击此处添加简短说明 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 三大驱动 政策驱动: 基于《中国银行业监督管理委员会关于印发商业银行业务连续性监管指引的通知》针对业务连续性保障相关要求;以及《中国人民银行关于印发〈金融科技发展规划(2022-2025年)的通知》明确提出“以加快推进金融机构数字化转型为主线,从健全斗技治理体系、夯实数字基础底座、加强技术创新引领”指导思想;以及“数字驱动”基本原则; 标准驱动: 对标ITIL4+AIops框架标准+《信息技术服务数据中心服务能力成熟度模型》+四大行智能运维体系模型,形成长沙银行特色智能运维体系建设解决方案。 内部驱动: 全行数字化转型的战略目标 长沙银行运维诉求 重点围绕数字化转型的目标,推动业务连续性水平再上新台阶。 敏稳兼顾 安稳长满 优 敏业务,助力持续精益发展 业务结构持续优化,要求渠道快速响应系统变化 稳核心,坚守不发生系统性风险 稳步推进业务连续性保障的赋能,针对核心系统及非重要系统的差异化管理标准,与核心业务部门建立常态化的联合运营机制 敏架构,推进创新转型 持续优化系统建设,扎实推进“两地三中心多云异构”“一云多芯异构”建设 稳生产,夯实数据基础 数字化运营日趋完善,构建数据全生命周期管控,强化风险预警提示“早识别,早预警,早见效”,推动各类工具的深度运用,实现一切业务数据化,一切数据业务化 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 面临的痛点 近年来,随着监管部门对业务连续性管理监管政策的不断细化和深入,业务连续性管理的理论和方法不断成熟,且随着用户智数化的发展,信息系统建设持续深入,资产规模不断扩大,架构体系越来越复杂,技术迭代日新月异,金融业数据中心的生产管理带来了严峻地挑战。 业务整合架构梳理降本增效工具分散交付保障决策支撑 欠债多关系杂成本高竖井式效率低数据零 散 02 智能运维,从理念到落地 项目描述,单击此处添加简短说明 运维服务门户 一体化共享式服务中心 流程驱动,助力多种运维场景联动 服务台 变更管理 事件管理 问题管理 应急管理 值班管理 演练管理 知识管理 服务水平管理 业务连续性管理 发布管理 生产运营看板 资产管理 配置项管理 依赖树 自动扫描 CMDB 关联分析 资源池管理 应用管理 数据收集和维护 场景化消费,自动发现,更新 整体架构 自动化工具 部署应急巡检灾切 流程调度统一部署 数据存储 数据规范 数据接入处 理 事件分析 异常检测 全局诊断 容量规划 运维数据中台 性能预测 故障预测 监控告警事件 数据清洗 算法复用 。。。 建模 APM 应用监控 。。。 日志监控 动环监控 网络流量监控 系统监控 监控体系 023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维服务对象:业务、数据、应用、基础资源 2 监控体系 统一接收监控工具以及第三方系统所发送过来的告警 消息,并经过标准化、丰富、抑制、压缩、关联等过 程最后形成准确的告警信息 监 运维数据中台 析 提供全链路监控、智能告警、运维数据分析能力,打造生产状态感知、问题诊断分析、性能容量分析、运维资产管理的统一运维入口,将数据以服务化的方式输🎧,帮助开发和运维人员快速定位和解决问题,提升运维整体工作效率。既可以直接满足运维人员的使用需求,也能为运维生态圈中其他组织的个性化运维场景提供数据消费能力,使生态圈成员共享最佳数据运营。 运维服务管理 运维组织调度联动流程,完美整合ITIL、DevOps理念,通过规范服务流程和技术服务工作,建立一套标准的敏捷的运维服务管理流程,进行日常运维服务工作的流程化、规范化管理。包含服务台、服务目录、服务水平管理;事件管理、问题管理;变更管理、发布管理;应急管理,值班管理等 智能 管化 自动化运维控 CMDB 提供了统一的配置管理数据库(CMDB),建立了以资源�发的配置项模 配型支持对运维中已有和新增的物理资源、虚拟资源、软件资源、应用系统等对象配置信息的统一、规范化管理。为配置信息制定标准口径, 为数据中心资产透析提供统一视图,支持资产清点、运维监控、变更实施、数据分析等多元化消费场景。 建设成果 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 自动化管理实现高效率、提升质量、保障安全、过程规范、交付敏捷的目标。包 括了操作管理、编排管理、作业管理及作业执行调度等功能,实现运维操作标准化后的自动化操作。包含了自动化切换场景,自动化部署,自动化巡检等场景 监控体系架构(1) 基本目标:降低故障平均定位时间,提升系统可用性和运维效率,长期目标1,5,10事件处置标准。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 故障定位 全局诊断 容量预测 根因分析 告警时序分析 同源分析 应用场景 故障复盘 交易多维分析 日志聚类分析 告警优先级推荐 监控总览 运行报表 告警中心 告警处置 告警台 告警配置 告警总览 架构层+对象类型+监控指标 监控模型 业务层 应用层 系统层 物理设施层 基础设施层 安全层 大数据平台 层 云服务层 监控来源 zabbix 应用监 控 Prometheus华为网管云平,阿华里为云云,阿,里云p,ass云Clo自uder监a 台 pass云自监控 Manager 控动环监控 安全运营 管理平台 自动化运 维平台 日志平台 以某核心应用为例“架构层+对象类型+监控指标”监控情况 (2) 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 监控模型 模型分类 架构层 标准对象类型 经典架构模型 业务层 6 应用层 97 系统层 4 物理设施层 15 基础设施层 20 安全层 22 大数据平台层 33 云 云服务层 83 合计 8层 280 应用验证 综述:经典架构模型共7层,分别是:业务层,应用层,系统层,物理设施层,基础设施层,安全层,大数据平台层。共197个标准对象类型。架构层其中4层有监控,监控覆盖率为57.14%;标准对象类型9个存在监控,监控覆盖率为:3.61%架构层 对象类型 监控指标数 指标说明 业务层 业务系统 11 业务层共6个标准对象类型,2个对象类型存在监控指标,监控完成率33.33%;缺失相关对象类型监控 业务批量任务 1 应用层 Application 25 应用层共97个标准对象类型,5个对象类型存在监控指标,监控完成率5.15%;缺失相关对象类型监控 集群_Application 1 APP 1 Tomcat 30 Redis 110 物理设施层 物理服务器 3 物理设施层共15个标准对象类型,3个对象类型存在监控指标,监控完成率20%;缺失相关对象类型监控 系统层 Linux 48 系统层共4个标准对象类型,1个对象类型存在监控指标,监控完成率25%;缺失相关对象类型监控 事件/问题/应急 管:运维服务管理 资产流程 数据管控 告警事件快速响应 赋能优化告警管理 监控实例 监:监控工具 告警管理 监控管理 监控监控 模型指标 资产管理 配:CMDB 析:运维数据中台 监控 配置项管理 监控基线管理 指标体系管理 对象 监控体系联动建设思路(3) 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维服务门户---标准化/规范化 组织架构 运维组织机构梳理 制度体系 配套运维管理制度,基于管理制度实施落地 标准化 对标ITIL4服务价值链将作为核心并结合以上4步梳理进一步细化服务交付的各过程;形成标准化流程,并通过管控平台固化,规避管理风险和技术风险 工作机制 运维工作体制,明确岗位职责和工作流程,结合现状 工具支撑 基于现有工具情况指引,规划工具支撑 规范化 统一服务流程入口统一运维术语 规范运维服务活动管理规范统一 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维服务管理---工具联动场景应用 Devops交付联动 事件问题应急联动 资产数据管控联动 用户 测试管理版本管理发布管理等 用户 一线坐席客服系统 监(监控工具) 用户 运维服务管理变更管理 事件/问题/应急 资产流程 自动化工具 控(自动化工具) 析(数据中台) CMDB 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维服务门户---管理可视化 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 多维度数据报告,从服务协作、成本与效益、服务水平与时效,合规,质量、风险、用户满意度等多个维度对数据进行分析基于量化的指标分解运维服务的每个实践,结合服务评价指标持续优化改进运维服务 变更统计报表 事件问题统计报表 值班统计报表 团队能效视图 个人能效视图 健康度视图 自动化工具 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 自动化管理实现高效率、提升质量、保障安全、过程规范、交付敏捷的目标。包括了操作管理、编排管理、作业管理及作业执行调度等功能,实现运维操作标准化后的自动化操作。包含了自动化切换场景,自动化部署,自动化应急,自动化巡检等场景 标准化 流程化 自动化 模块化 智能化 自动化切换 自动化部署 自动化应急 自动化巡检 定时作业/历史作业管理 资源库 操作/脚本管理 作业编排管理 调度执行引擎 生产操作标准化:部署、应急、灾切、巡检等 开 部署始 开 应急始 人工确认发布参数 1 2 选择主机设置策略 3 选择包 4 5 确认清单 发布前检查 CMDB 制品库 应急自动化 1 2 3 4 5 6 F5摘除 停止服务 部署 启动服务 服务探活 F5挂载 完成 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 人工确认发布参数 1 2 选择主机设置分批策略 3 选择包 4 5 确认清单 发布前检查 CMDB 制品库 发布自动化 1 2 3 4 5 6 7 8 9 应用备份 屏蔽监控 F5摘除 停止服务 部署 启动服务 服务探活 F5挂载 恢复监控 完成 标准化巡检模型 灾切 配置巡检项及规则 添加相应的设备IP 设备绑定业务系统 启动自动巡检程序 生产操作标准化:部署、应急、灾切、巡检等 巡检 01 02 03 04 05 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 灾切前检查 关闭对外服务接口 停止源业务系统服务 DB切换 停止源DB服务 回切 目的数据中心业务验 证及运行 启动目的业务系统服务 启动目的DB服务 检查DB同步结果 01 02 定标准 有效性,一致性完整性,及时性 准确性,唯一性 立规范 管理要求管理模型 消费规范 0305 建流程 联动流程存量治理增量管控 04 闭环管理 资源生命周期管理 持续改进 数据清洗数据校准 06 赋能业务 监控告警自动部署场景消费 CMDB运维数据底座 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 数据纳管+数据质量+数据消费 CMDB运维数据建模接入 针对每一个对象进行实例化,明确CI项及CI项属性和关系 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 资源管理 1、核心模型,业务、应用、集群、主机 2、云原生资源模型及