您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[多元智能]:多元智能时代zCloud引领数据库运维的智能与敏捷革新 - 发现报告
当前位置:首页/行业研究/报告详情/

多元智能时代zCloud引领数据库运维的智能与敏捷革新

信息技术2024-05-30-多元智能付***
多元智能时代zCloud引领数据库运维的智能与敏捷革新

多元智能时代zCloud引领数据库运维的智能与敏捷革新 当前数据库运维面临的挑战 传统IT 架构 公有云 混合云 私有云 多样的数据库 复杂的多元混合数据库环境管理 专业高效挑战 商业数据库、云数据库 OracleDB2SQLServerALiYun/HW/TencentRDS 开源数据库 MySQLPostgreSQLRedisMongoDB 国产数据库 达梦TDSQLOceanBaseKingBaseopenGauss…… 稳定业务场景 核心系统CRM系统PLM系统 …… 中长尾场景 物料系统样机订单客服系统 …… 创新业务场景 电商平台客户洞察监管新规 …… 集成类场景 ITSM集成CMDB集成数据打通 …… 数量 运维对象指数级增长 运维人员线性增长 时间 GAP增大 传统运维模式难以为继 十几种数据库类型, 成百上千套库,数万指标,运维对象指数级增长, 如何专业高效,解决挑战,保障数据库稳定运行? •专业 •高效 •可信赖 多样的基础架构 单一云 传统数据库 开源数据库 国产数据库 云数据库 定制化 发展创新挑战 数据库运维要适应业务发展创新 比如离职库账号关闭、取数、 多云 物虚私物虚 物虚私 公公公 中长尾场景 创新业务场景 迁移、变更规范调整等, 操作的同时还需遵守规范、 理拟有 机机云 理拟容 器 机机 理拟有 机机云 有有有 云云云 稳定敏捷 满足审计。 如何快速满足各种新诉求? 123 稳定业务场景 标准化 集成类场景 •灵活 •敏捷 •低门槛 AI的发展和客户诉求结合,促使数据库AIOps加速落地 某基金 智能异常检测:能自动产生不同业务的基线,能帮助客户快速发现异常的时段,并了解异常偏离的程度。 智能故障预测:了解某些指标在未来长期的趋势,以便进行风险预防和提前规划。 某保险 NL生成SQL:客户希望实现,AI生成SQL语句,接着用我们SQM审核,进行联动。相关的SQL能应用在功能特性中。用这种方案降低SQL写作的工作量投入。 Gartner表明AI已经逐步成熟部分客户AI诉求 2023年新兴技术成熟度曲线 生成式AI AI增强开发 AI智能应用 Gartner发布2024年企业机构需要探索的十大战略技术趋势,其中AI的发展带来的机遇最为明显: 生成式AI:到2026年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用。 AI智能应用:指基于AI的服务,更好地增强工作或提高工作的自动化程度。2023年Gartner调查,26%的CEO表明,AI被认为是未来三年对他们所在行业影响最大的技术 AI增强开发:使用生成式AI、机器学习等AI技术协助软件工程师进行应用设计、编码和测试,提高开发人员生产力,满足业务运营对软件日益增长的需求。 低代码应对策略 需求管理 •开发成本高 •交付周期长 •变更频率高 •响应要求快 人员 业 务业务流程差异 •不同行业标准(如:运营商) •不同监管要求(如:金融) •不同供应商 挑战 行业 灵活组件复用和调整,灵活应对需求变更 敏捷交付周期短,按需快速搭建功能 低门槛数据库组件拖拽、流程配置、界面可视化配置 安全规范差异 •数据安全管理(如:审批流程) •操作安全管理(如:权责管控) 低成本减少人力成本、沟通成本、变更成本 数据库安装部署 数据库服务化 数据库监控告警巡检 数据库性能分析/容量管理 巡检报告 智能监控告警 空间扩容 优化建议 SQL审核 变更申请 高可用 高可用创建 备份恢复 任务管理 任务中心 任务监控 问题诊断 高可用策略 备份策略 安装流程 全新巡检中心 专家预配置模板+场景自定义 变更审批 智能趋势预测 高可用监控 备份服务器 新建扩展 纳管 恢复演练 智能性能分析 容量分析 变更执行 巡检策略 实时指标 容灾演练 数据校验 数据采集 历史数据 变化趋势基准数据 变更审计 高可用切换 恢复操作 基于WaaS理念的AI模型 基于低代码的开放运维框架 资源模板 参数模板 文件仓库 规划 建设 运维 优化 RDS 数据库资源池 数据中间件 WaaS(WisdomasaService),是将AI算法与专家经验结合,把数据库维护在最佳状态的一种智能理念。基于WaaS理念的模型,持续采集大量数据,进行初步处理,形成有效信息,再依托人工高级专家标注+机器学习算法训练的动态知识库,对信息进行分析自处理。WaaS动态知识库可以持续积累增长,覆盖越来越多的场景。 AI赋能运维平台 01 基于WaaS理念的AI模型 智能告警,阈值自动随业务趋势动态适配 智能SQL分析,从海量SQL->重点SQL->问题SQL->具体问题,自动识别,智能分析 智能诊断,自动感知问题,分析推荐解决方案 典型场景 金融交易均伴有风控,风控调用数监控是非常重要的内容,需要发现异常并分析处置。XX基金某日7点多,出现一波此时段不可能出现的调用量,但因未达到静态阈值,没有发现。10点多开始,大量的调用数过多告警出现,经分析发现是每月12日,例行定投高峰叠加常规交易的正常调用,虚惊一场……“ 告警痛点 新思考新实践 •漏告、误告 在上面场景里,“一刀切”静态阈值,和业务特征不匹配,导致漏告、误告; •配置繁琐 需人工为每个库,手动配置阈值,还需定期结合业务发展调整阈值,工作量大; 交易高峰时段9:00~15:00 某日风控调用数曲线 × 非高峰时段6:00~8:00 × •准确告警 智能基线随业务变化动态调整,和业务特征匹配,让监控告警更准确,避免误报、漏报; •一键开启 针对成百上千套大规模数据库管理,无需人工配置,仅一键开启即可,从而节省人力成本。 交易高峰时段9:00~15:00 非高峰时段6:00~8:00 ✓ ✓ F1≥90%,指标检测超过人类专家 •查准率,检测出的异常中真正异常的占比,算法训练调优结果95%左右; •召回率,真正的异常中被检测为异常的占比,算法训练调优结果为86%左右; •F1,查准率和召回率的调和平均数,反映了查准率和召回率的各自水平以及平衡性,算法训练调优结果≥90%; 根据运行历史,自动校正 •使用历史智能基线和历史真实值计算出来 的拟合残差均值、拟合残差标准差,对预 测的智能基线进行校正 基线质量,临界范围,容忍条件 •基线质量控制,当基线的R2<0.5时,认为基线不符合质量,自动将告警切换为静态阈值,当满足质量条件后自动切换为动态阈值 •临界范围控制,可通过经验,设置临界值(上限值和下限值),让算法修正最终的动态阈值; •容忍条件控制,可设置异常容忍策略,连续多个数据点超过阈值后判定为异常; 监控性能指标展示 活动会话分析图表 AAS方法 1识别问题时间段和问题类型 CPU资源基线 历史活动会话90分位线 TOP SQL智能基线 2识别性能衰变SQL 关联展示 TOPSQL列表 OWI方法 3识别SQL性能根源 多维度拆解 SQL数据 对比相关 分析分析 4根据识别分析结果,构建索引,恢复业务 性能数据执行计划列选择度优化参考的关键信息 事后:追踪到索引丢失,因xxx造成,调整xxx规范, 平台集成各类分析方法,辅助DBA识别问题根源并支撑问题处理 避免类似情况再次发生。 解决方案 基于云和恩墨zCloud打造数据库统一监控平台,统一纳管生产环境数百套Oracle、MySQL、openGauss、OceanBase、Redis等数据库。上线功能模块包括数据库巡检、数据库监控告警、数据库性能分析、数据库故障一键诊断。 构建了“数据库实例->集群->主机”三位一体的深度监控体系,并逐步完善了三层架构风险预警机制。可以帮助运维人员快速发现问题并给出决策建议。当收到问题预警时,运维人员通过zCloud一键诊断即可迅速定位故障原因,节省了大量时间,提升了主动运维的效率。 客户价值 数据库智能监控告警,提前规避80%问题 智能SQL分析、智能诊断,问题定位效率提升10倍 •从海量SQL->重点SQL->问题SQL->具体问题,自动识别,智能分析 •数据库实例->集群->主机三位一体的深度监控,收到问题预警时,运维人员通过zCloud一键诊断即可迅速定位故障原因 统一数据库管理,资产和运维双视角展示,资源、状态、问题一目了然 •资产总览从业务使用视角清晰呈现数据库系统资源、状态、可用资源信息 •监控总览从运维视角呈现数据库状态核心指标和变化趋势,实时掌握数据库运行状态,聚焦核心问题 02 低代码助力敏捷运维 基于低代码的开放运维框架 灵活,可按需调整,灵活应对需求变化高效,交付周期短,按需快速搭建功能 丰富,将数据库、主机、磁盘、网络等运维能力封装为3000多个原子能力, 支撑轻松搭建新场景功能 zCloud低代码,数小时即可完成,数据库运维能力扩展 01 数据库 安装部署03 02 数据导入/导出04 02. 业务流程编排 数小时 脚本编排原子能力,通过简单拖拽 数据备份恢复 05 数据库升级 实现业务流程自定义编排 数小时 01. 可视化界面配置 支持表格、表单、卡片、报表、拓扑图等多种前端组件,数小时即可完成界面配置 API对接 06 更多创新更多可能 不同角色的诉求 管理者 处理过程 没有安全风险 DBA 处理过程完整降低工作量 开发人员 定向通知 没有无关信息 开发人员由于需要定位问题,通常需要在生产数据库中拥有账号,这些数据库的账号DBA如何管理? 账号回收中的挑战 数据库种类繁多 密码处理不安全 账户对应人困难 通知提醒不准确 如何提醒快过期的账号 如何定期回收不用账号 不同角色的诉求 DBA 尽量降低机械工作的处理时间降低工作量 开发人员 数据快速获取 支撑后续的测试任务 开发人员在应用上线前,需要使用生产数据进行仿真测试,仿真环境搭建复杂,包括数据的导出,导入,数据的脱敏等,DBA如何能快速完成这些任务? 账号回收中的挑战 数据库种类繁多 工作串行化费时 脚本修改易出错 执行错误易返工 如何将不同的流程打通并自动衔接 如何快速完成一些费时的任务。比如,数据库的部署 容灾切换 teleDB主备切换 •switchover •Failover telePG主备切换 •switchover •Failover 解决方案 zCloudforteleDB/telePG数据库统一运维管理平台 标准运维能力 自动化安装部署 监控告警巡检性能容量管理 节点扩缩 添加节点 纳管节点移除节点 安装参数模板管理 新增节点部署 切换前数据库检查流程 … 数据库SwitchOver/Failover切换流程 预置原子能力(3000+) 预置图形化组件 用户自定义原子能力开发 文件传输、文件管理、参数模板等 表格、图表、流程、拓扑图、卡片、弹窗等 文件/日志检查、数据稽核、服务管理等 痛点 ①某运营商使用了集团自研teleDB和telePG数据库,这2款数据库具备分布式、多分片、高可用容灾等多种特性,但在运维过程中经常需要按需进行数据库集群资源的扩缩、容灾切换等操作,目前缺少可视化的管理平台,导致管理效率低下; ②开发建设专业的数据库容灾管理系统和平台代价巨大,期望开发和交付的项目周期短 (半年),投入远大于产出。 业务场景 基于低代码能力构建 方案效果 低成本 整体项目成本相较于独立建设专业容灾管理平台,成本只有后者的10~20% 高效率 项目实际开发和交付周期小于6个月,满足客户上线时间要求 易使用&易维护 基于低代码开发的业务功能完全具备标准化产品的质量要求,且通过流程的修改/扩展快速响应业务需求变化。 DB 部·署 痛点 ①数据库类型多,没有专业的数据库运维管理平台(之前对数据库的监控运维是通过某厂商的“泛监控”平台,深度不足); ②DBA需要被动响应及支持业务侧/开发侧各种数据库操作需求,日常工作效率受很大影响。 ③日常运维管理需求多样化、个性化,