华夏银行运维工具平台化建设实践 史春志 华夏银行资深运维专家 具有十余年银行运维经验,曾在央行清算总中心、国有银行、股份制银行工作,目前主要负责华夏银行自动化运维、运维平台化建设等工作,推动运维工具化场景落地、提升运维效能、支撑运维组织转型。 目 01平台之发展概述 contents 录02平台之工具体系建设 03平台之未来展望 PART01 不忘初心,方得始终 业务发展,运维数字化转型挑战重重 新架构新技术的应用 •云化应用、多云混合、云原生1 •容器、分布式、微服务架构 业务诉求的不断提升 2•敏捷流程 •数据需求 •快速故障恢复 异构设备的大量出现 •ARM、X863 •AIX、Suse、windows、linux •国产化和国外产品并存 大集群、多机房管理统一的诉求 4•两地三中心、超万台的服务器节点的管理 •分支机构和总行之间运维团队的协同问题 组织转型的要求 运维团队如何从重复机械的工作中剥离出来5 价值体现 6运维团队如何解释自己的工作价值 华夏银行数字科技转型指导 移动化 推动移动办公、消息集成、 多端联动 智能化 加速智能应用、智能运营,普及自动化、智能化技术 智慧金融、数字华夏 平台化 开放化 构建开放平台、能力共享,鼓励团队协作 搭建数据平台、运维中台、开发平台,夯实技术底座 围绕业务场景,借助外部工具与经验,以前瞻性视角构建技术运营体系,推动业务前进,促进内部能力转型。 规划思路:明确对象,抽象场景,全域覆盖 围绕业务特点,梳理核心通用能力,构建通用能力平台,纵向覆盖应用、系统、网络各类对象,同时抽象上层运维场景,横向覆盖监、管、控、营各运维业务域 有限能力,无限场景支持 营 快速组成场景支持,低成本 监 管 控 日志管理 监控管理 告警管理 配置管理 流程管理 容器管理 发布管理`巡检管理 平台能力层 APIGateway(统一接入)+开发者中心(开发框架) 用户管理 权限管理 配置平台 作业平台 容器平台 第三方系统 …… 管控平台:负责各个IT运维对象的接入 云资源虚拟化硬件 GOPS全球运维大会2024·深圳站 快速提供贴合业务的服务支持 PART02 运管联动,内外相融 监 管 应用 控 营 监管 控营 一体化运维平台图谱 监控告警日志全栈统一 自动化操作 拥抱信创、新架构 配置数据管理 IT服务管理 场景无限持续运营 …… 监管 控营 一体化运维-监 全栈监控 统一整合灵活扩展 内外联动价值提升 软件 硬件 灵活扩展采集,基础指标+自定义拓展模式满足各类监控场景 基础资源监控 网络监控 内外联动,打通CMDB、流程、自动化、IM等系统,高效处置 应用监控 联动分析,深入挖掘数据价值,提升运维效率 中间件、数据库监控 API数据集成接入 Agent作业采集 监控中心 监控视图 统一管理 告警汇聚 告警屏蔽 数据接入 指标管理 告警丰富告警处置数据检测采集模板 告警分级 告警筛选 数据存储 策略模板 告警收敛 告警通知 对象管理 …… 监控告警管理:统一管控,全面覆盖,提升效率 指标数据 告警数据 策略接口 CMDB 蓝鲸监控 统一告警中心 报表 Web视图 可视化大屏 管理层 云监控应用监控交易监控 …… ITM监控 构建平台统一管控 统一整合监控软件,平滑过渡至平台化 硬件监控 采集层 监管 控营 监管 控营 一体化运维-管 CMDB ITSM 消费驱动 一体联动 配置管理:消费为导向,自动化+管理手段为支撑,定义数据全生命周期 监管 控营 数据源 IT运维对象 操作系统数据库中间件 网络设备 存储设备等等 数据收集数据维护数据消费 CMDB 配置管理数据库 业务 模型 可视化 API 审计 运维流程 监控系统 手工导入脚本 发布系统 协议 可视化 API 自定义插件 API:三方系统数据对接(11套系统43个模型) 同时改造原有CMDBAPI在用接口,统一封装到API网关中,达到消费场景最大化 自定义插件自动采集(23个采集器17个模型) Linux Windows AIX 麒麟 统信 欧拉 oracle mysql sqlserver mongodb nginx es zk kafka was IBMmq 高斯 爱可生 宝兰德 tongweb tongeasy tonggtp dble … 流程数据可视化管理 可视化的方式呈现交付服务流程的成功率、交付量、交付类别占比等多维度的数据,直观呈现服务运营的价值。 可视化编排+API+审批流护航过程管理 监管 控营 流程管理:平台化支撑,一体化联动,可视化呈现 资源交付自动化场景闭环:串联自动化、流程、CMDB三方面能力, 实现资源的自动化交付和申请: 交付过程结合了审批和API节点,确保了数据和过程的可信可管; API与自动化作业结合,效率提升100%; 监管 控营 一体化运维-控 运维操作自动化 可管,是运行的基础 可靠,是运维的根本 增效,是降本的方法 蓝鲸Agent BMCAgent 统一管控 统一配置 统一发布 统一展示 统一分析 无感知切换 两种Agent的同时启用,在业务无任何感知的情况下进行了国产化替换,双模运行最大化兼容了稳定性和自主可控的要求 基础设施+云平台(计算、存储、网络) 兼顾传统 拥抱国产化 存量 业务 逐步替换 确保 稳定 增量 业务 异构 兼容 国产 化 逐步替换 目前已有超过30+套国产化架构业务系统通过平台的蓝鲸Agent进行自动化投产和变更,未来通过增量业务逐步替换的方式,实现Agent的全部国产化适配。 双Agent模式 基于金融国产化背景,原有BMCAgent无法兼容国产组件,通过双Agent模式,分工协作,最大化自动化操控范围。 监管 控营 金融国产化:打造双Agent模式解决国产化自动化难题 麒麟 统信 欧拉 高斯DB 爱可生DB 宝兰德 TongWeb TongEasy …… 多集群纳管 集群运维 容器管理:统一纳管,集中编排调度 集群管理 权限管理 镜像仓库 存储仓库 网络管理 命名空间管理 集群维护 集群创建 多集群纳管 容器应用管理 应用实时日志 应用运维(升级、扩缩容、调度) 应用部署 应用定义(helm\yaml\模板集) Webconsole UI 容器管理后台(BCS-Service) 集群路由跨版本适配 跨区域穿透 api 集群注册 集群鉴权 集群纳管 道客云 Web- console 容器应用运维 监管 控营 集群纳管集群纳管 华为云x86 华为云Arm 统一管理多种异构容器云平台,助力新架构新技术的应用发展。 监管 控营 一体化运维-营 沉淀积累 积土成山 风雨兴焉 监管 控营 能力中心:让能力服务平台化、持续化 API调用更可控 API申请调用加入审批管理环节,谁用了干什么用更清晰 数据安全性更高 严控未授权调用,数据更安全 使用情况更透明 申请有记录,数据有统计,便于统计和分析 让平台不止是运维! 在全行更广范围提供能力与服务。 平台管理:同一套体系,同一个平台 监管 控营 统一认证 平台 统一接入消息统一 总行 集团管理 管理统一 主机 纳管管控 告警 PART03 乘风破浪,直挂云帆 一体化平台演进路线 以服务为导向,自动化为抓手,进一步拓展运维应用场景,探索平台在云化和容器化运维的能力。 进一步探索运维数据和低代码的应用,试点推广Aiops场景,将智能化能力与运维工具和日常工作相结合。 智能化 大量工具,但未形成合力;自动化覆盖对象较少。 引入蓝鲸平台,发挥平台开发框架能力,大力推动自研工具。 初始期 搭框架 重构工具体系,开启平台化建设,围绕平台作为底层能力,聚合运维场景。 融合协同 拓场景 GOPS全球运维大会2024·深圳站 CMDB拓扑模型 场景设计:分布式智能监控 针对故障异常检测和根因分析类的场景,提供智能诊断和辅助定位 并与CMDB、自动化联动, 实现故障影响的定界 指标异常检测时序预测 日志聚类与异常检测 告警聚合根因分析 多维下钻 指标关联分析 故障定界 GOPS全球运维大会2024·深圳站 场景设计:性能容量管理能力 自定义指标 应用指标 外部数据 CPU 内存 配置管理数据 数据采集 主机性能数据 应用指标数据 数据权限 APIGateway 主机集群 整合平台采集的主机及组件性能数据和自定义指标、外部数据等,集中汇聚监控趋势数据,分析与展示系统容量情况与趋势; 整合配置平台的配置数据,以业务 为管理单位,查看容量资源数据; 提供视图报表,可通过图表方式查询整合的各种资源性能数据,以辅助于容量分析; 周期同步 性能容量 视图报表 资源容量 部署配置 容量统计 容量管 容量模型理 IM、企微通知 管控平台 磁盘 业务模块 网络 配置平台 邮件系统 企微消息 提供标准的容量模型管理能力,可进行系统容量分析,容量预测,容量报告等工作。 酷炫大屏 拖拽布局 多段呈现 场景设计:用更多的可视化能力助力数字化运营 实现运维价值升级的思考 打破传统运维的思维 需求开发周期迅速缩短 迅速提升运维人员能力 为业务发展提供更多的决策依据 打破传统运维的思维,运维管理真正做到横向扩展一体化运营管理,解决烟囱式管理、互联 互通不紧密、付费软件成本高昂等问题。 通过快速适配应用场景的开发模式,会使我们的新需求开发周期迅速缩短,同时人的能力会 得到很快的提升,运维不再是简单重复的工作,同时运维开发对运维个人来说是一条很好的 转型之路,并有机会输出我们的金融运维产品,那会体现出更高的价值。 运维数据的利用及智能运维场景的使用,运维工作将超出传统运维的范畴,逐步向数据运维转变,向企业运营转变,将会为业务发展提供更多决策依据以及智能化处理场景。 Thanks 高效运维社区 DevOps时代 荣誉出品 THANKS 感谢大家观看