GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 赖坤炽 广东移动数据库运维专家 中国移动IT运维专家、卓越工程师。深度参与广东移动的IT数智化转型和数据库国产化改造,拥有丰富的数据库运维经验。 数据库的发展现状及面临挑战 广东移动数据库运维体系探索 目录 异构数据库运维未来演进展望 01 数据库的发展现状及面临挑战 破局:广东移动数据库运维,如何转型提升效能? 一级云迁移 流程规范运维为尺 优化 国产化改造 业务系统升级 架构调整挑战 实现打造高效运维体系 组织 数工据具化赋能 服务全面 效能提升为要 业务连续为根 积极应对架构调整挑战,主动适应新技术环境: 建设专业技能为核 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 02 广东移动数据库运维体系探索 流程篇--流程优化,规范运维为尺 工具篇--工具赋能,效能提升为要服务篇--服务全面,业务连续为根组织篇--组织建设,专业技能为核 流程篇--标准化运维,织就安全防护网 痛点:异构数据库管理复杂、运维操作多样、技术特征独有、不同角色协作不畅、知识难以传承 思路:统一制定数据库转维标准、开发与设计规范、运维规范、应急预案 成效:织就"四位一体"的数据库标准运维安全防护网,形成一个规范指导实践、实践优化规范的良性循环 基于商业和开源数据库的丰富运维实践,沉淀出一套规范高效的数据库运维标准规范。 C运维规范 广东移动ORACLE数据库日常运维规范及操作手册广东移动MYSQL数据库日常运维规范及操作手册 广东移动OceanBase数据库日常运维规范及操作手册广东公司OceanBase数据库巡检操作手册 广东公司OceanBase数据库监控对接手册 广东移动GoldenDB数据库日常运维规范及操作手册广东公司GoldenDB数据库巡检操作手册 广东公司GoldenDB数据库监控对接手册 D应急预案 广东移动ORACLE数据库故障应急操作手册广东移动MYSQL数据库故障应急操作手册 广东移动OceanBase数据库故障应急操作手册广东移动GoldenDB数据库故障应急操作手册 A转维标准 广东移动MYSQL数据库参数最佳实践 广东移动OceanBase数据库转维交接文档广东移动OceanBase数据库参数最佳实践广东移动GoldenDB数据库转维交接文档广东移动GoldenDB数据库参数最佳实践 B开发与设计规范 广东移动_ORACLE数据库开发规范广东移动_MYSQL数据库开发规范 广东移动_OceanBase数据库开发规范广东移动_GoldenDB数据库开发规范 工程变更重点关注指标 故障发生高度相关指标 流程篇--集中化运维,夯实全局数据底座 痛点:异构数据库监控指标不一、跨平台操作繁琐、配置管理复杂。 数据库运行状态相关指标 ...... OB_NTP时钟偏移 OB_NTP_TIME OB_数据库连接数 OB_PROCESS OB_临时段空间 OB_TEMP_USE OB_关键进程检测 OB_MAIN_PROCESS OB_停服服务器_集群节点状态 OB_CANNOT_CONNECTED OB_PROXY进程状态 OB_PROXY_STATUS OB_服务状态 OB_SERVICE_STATUS OB_索引状态 OB_INDEX_STAT OB_XA事务(长事务) OB_XA_HANG_TRANSACTION OB_CPU线程使用率 OB_CPU OceanBase ...... acle表空间告警 Or ORA_INST_TABLESPACE A_ASM_ARCH使用率 OR ORA_ASM_ARCH acle_会话情况11+ Or oSessionCount acle_服务状态 Or ORACLE_SERVICE_STATUS acle_实例状态 Or ORACLE_INSTANCE_STATUS acle_监听状态 Or ORACLE_LISTENER_STATUS acle集群状态 Or CRSCHECK acle_索引状态 Or INDEX_STATUS acle_TX锁 Or TX_LOCK_MONITOR 等待情况 实例 ORA_INST_EVENTS Oracle 指标名 指标ID 类型 思路:通过JDBC非侵入式地在同一平台接入多种类型和版本的数据库,实现了异构数据库的集中化管理,提供统一的操作界面和管理流程。成效:配置了超过150个告警指标,覆盖了600多套业务支撑系统,达到了对所有异构数据库的集中化“监控、管理、控制”。 流程篇--白屏化运维,提升故障处理效率 •建立清晰的故障等级定义 •根据业务影响和紧急程度分类 •制定不同级别的响应时间标准 •建立跨团队协作流程 •明确各角色职责和权限 故障分级机制 •通过平台实现7*24监控和告警 •实施自动化初步诊断 •通过各项指标快速确认故障影响范围 •建立快速升级机制 更高效 种草通合约 快速响应流程 •制定统一的故障处理步骤并固化到平台上 •建立故障处理checklist •故障处理白屏化操作,实现实 时跟踪和留痕 标准化故障处理流程 •全面的事后复盘机制 •实施故障预测和预防措施 •不断优化故障处理流程和工具 持续改进 02 广东移动数据库运维体系探索 流程篇--流程优化,规范运维为尺 工具篇--工具赋能,效能提升为要服务篇--服务全面,业务连续为根组织篇--组织建设,专业技能为核 工具篇--工具赋能,效能提升为要 痛点:运维工作存在重复性劳动、人为错误、效率低下和资源分配不均等痛点 思路:将日常工作和常见问题交由平台高效处理实现复杂工作简单化、例行工作自动化成效:形成14个通用运维场景,20+个定制运维场景,日常高频操作覆盖率60%以上 一级场景 二级场景 三级场景 资源部署 数据库部署 数据库部署、规范对接 数据库运维 日常运维 数据库启停、集群重启、备库快速重建、数据库迁移、数据库参数变更、数据库标准化变更、数据库账号管理、变更复核功能 高可用 主备切换、主备延迟检测、邮件通知 数据库升级 数据库升级 数据库升级 … … … 场日常例行工作 景 划 规故障处理手段 思 路日常变更工作 全面梳理运维场景,聚焦核心痛点 工 具提炼关键要素,构建标准规范赋 能 思匹配能力模型,设计自动化方案 路 整合贯通,实现端到端自动化 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 .. GOPS全球运维大会暨研运数智化技术峰会2024·上海站 定期发起巡检任务,输出巡检结果 工具篇--统一深度巡检,及时发现隐患问题 通过平台统一管理异构数据库的日常巡检 痛点:异构数据库巡检平台不同、巡检模板不同,如何减少跨节点跨类型数据库巡检,实现快速一键巡检? 思路:根据各数据库特点,定制化巡检模板 •Oracle数据库巡检模板 •资源配置状态(RAC集群组件状态、参数配置等) •实例资源监控(CPU、内存、I/O等) •数据库对象监控(表空间、索引、锁等) •数据库性能分析(告警日志、等待事件、高消耗SQL等)... •OB数据库巡检模板 •资源配置状态(OB、OBPROXY集群状态、参数配置等) •集群拓扑和资源监控(CPU、内存、I/O、租户线程等) •数据复制和一致性检查(DML、DDL耗时、事务耗时等) •数据库性能分析(转储、合并、分布式事务响应、XA事务等). •GDB数据库巡检模板 •实例状态和性能监控(CPU、内存、I/O等) •备份和主备同步检查(主从状态、同步延迟等) •数据库性能分析(关键报错、锁等待数、响应时长等)... 针对不同数据库选择不同的关键指标和权重设置,模板可配置、可扩展。 巡检报告分类汇总,提供针对性优化建议 工具篇--实例性能分析,快速发现性能瓶颈 因各数据库架构差异、性能关键指标不同,我们采用多种指标组合可配置方式,针对性展示数据库各项性能指标,从而可以快速定位问题指标,不需要在后台通过脚本逐个分析,降低运维复杂度。 异构数据库性能指标 核心性能指标 Oracle关键性能指标OB关键性能指标GDB关键性能指标 •CPU使用率 •内存利用率 •I/O吞吐量 •网络流量 •活动会话数 •响应时间 •等待事件 •缓存命中率 •锁争用数量 •高消耗SQL •集群负载均衡 •多租户资源隔离 •租户线程使用率 •XA事务量 •InnoDB缓冲池使用率 •查询缓存效率 •内存命中率 •失败事务量 性能分析思路 实时监控 TopSQL、会话、事件分析… 定位层层下钻,直击问题根源优化 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 SQL性能明细锁等待堵塞树 执行计划对比分析 SQLTUNING 工具篇--SQL智能诊断,打磨性能隐患探针 痛点:传统的数据库异常SQL检测和优化过程复杂且耗时,需要依赖专家进行大量的指标对比和人工分析,这不仅效率低下,而且成本高昂。 思路:参照原来基于ORACLE建立的SQL智能诊断模型,针对异构OceanBase数据库特性建立新模型,通过实时获取SQL,结合每条SQL历史运行情况及性能特征,及时发现并预警慢SQL,模型结合预测数据与运维经验形成合理的优化方案,为一线运维人员的数据库优化提供指引。 工具实现思路 平台实现效果 1、主动监控,实时预警 2、智能分析,定位异常3、生成优化建议,一键处理 成效:已成功接入超过200套Oracle和OceanBase数据库,覆盖了90%以上的生产资源,从发现到优化5分钟内即可完成。 数据库类型 性能基线获取方法 涉及核心库表 Oralce 定期从SQL性能历史和内存SQL性能视图中获取并计算出每个SQL的最佳性能数据作为性能基线数据 dba_hist_sqlstatdba_hist_snapshotv$sql OB 定期多次从当前内存SQL性能视图中获取并计算出每个SQL的最佳性能数据作为性能基线数据 gv$sql_auditgv$plan_cache_plan_stat 工具篇--数据生命周期管理,精细管理降成本 针对不同数据库数据存储特点,通过建立统一完善的数据生命周期管理体系,有效管控系统整体数据增长,既降低系统运营成本,又满足最终用户的数据需求。 36.4TB 每月数据清理量(以BOSS系统六大区域为例) 1 需求管理 2 策略管理 3 技术管理 •业务层面需求:有效管理业务部门需求,满足业务部门对数据使用的要求; •运维层面需求:保证系统稳定运行,同时符 合法律法规、集团数据规范等的要求。 •数据库特性需求: ORACLE-无分区数限制、没有启用存储压缩,根据清理策略每月清理分区数据 OB:有分区数限制、存储压缩比1:4以上,根据清理策略每月删除过期分区和数据 GDB:无分区数限制、没有启用存储压缩,根据清理策略每月删除过期分区和数据 MySQL:有分区数限制、没有启用存储压缩,根据清理策略每月删除过期分区和数据 •建立数据生命周期需求管理基线,有效管理各方面数据保留需求。 •现网数据模型治理,梳理生产系统数据的在线保存周期,进行分区改造等; •新建表必须提供生命周期管理策略; •建立清晰、合理、完整,可操作性强的数据生命周期管理基线和规范。 •建立一个多层次的数据分级存储技术体系; •引入自动化手段,配置定期任务,完成数据自动转储和清理。 •建立数据生命周期执行制度,实现数据生命周期管理策略实施的标准化和规范化 02 广东移动数据库运维体系探索 流程篇--流程优化,规范运维为尺 工具篇--工具赋能,效能提升为要服务篇--服务全面,业务连续为根组织篇--组织建设,专业技能为核 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 服务篇--服务全面,业务连续为根 针对异构数据库建设过程,我们数据库运维团队始终坚持以业务连