当 前 数 据 库 运 维 面 临 的 挑 战 国产数据库 多样的基础架构 A I的 发 展 和 客 户 诉 求 结 合 , 促 使 数 据 库A I O p s加 速 落 地 部分客户AI诉求 某基金 ü智能异常检测:能自动产生不同业务的基线,能帮助客户快速发现异常的时段,并了解异常偏离的程度。 ü智能故障预测:了解某些指标在未来长期的趋势,以便进行风险预防和提前规划。 某保险 üNL生成SQL:客户希望实现,AI生成SQL语句,接着用我们SQM审核,进行联动。相关的SQL能应用在功能特性中。用这种方案降低SQL写作的工作量投入。 Gartner发布2024年企业机构需要探索的十大战略技术趋势,其中AI的发展带来的机遇最为明显: ü生成式AI:到 2026 年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用。 üAI智能应用: 指基于AI的服务,更好地增强工作或提高工作的自动化程度。2023年Gartner调查,26%的CEO表明,AI被认为是未来三年对他们所在行业影响最大的技术 üAI增强开发:使用生成式AI、机器学习等AI技术协助软件工程师进行应用设计、编码和测试,提高开发人员生产力,满足业务运营对软件日益增长的需求。 低 代 码 是 应 对 数 据 库 运 维 多 样 性 挑 战 的 最 佳 方 案 云 和 恩 墨z C l o u d — —构 建 智 能 、 敏 捷 的 数 据 库 管 理 平 台 WaaS(Wisdom as a Service),是将AI算法与专家经验结合,把数据库维护在最佳状态的一种智能理念。基于WaaS理念的模型,持续采集大量数据,进行初步处理,形成有效信息,再依托人工高级专家标注+机器学习算法训练的动态知识库,对信息进行分析自处理。WaaS动态知识库可以持续积累增长,覆盖越来越多的场景。 AI赋能运维平台 基于WaaS理念的AI模型 01 智能告警,阈值自动随业务趋势动态适配智能SQL分析,从海量SQL->重点SQL->问题SQL->具体问题,自动识别,智能分析智能诊断,自动感知问题,分析推荐解决方案 智 能 告 警 , 自 动 识 别 业 务 特 征 , 不 漏 告 、 不 误 告 典型场景 金融交易均伴有风控,风控调用数监控是非常重要的内容,需要发现异常并分析处置。XX基金某日7点多,出现一波此时段不可能出现的调用量,但因未达到静态阈值,没有发现。10点多开始,大量的调用数过多告警出现,经分析发现是每月12日,例行定投高峰叠加常规交易的正常调用,虚惊一场…… “ •准确告警 •漏告、误告 在上面场景里,“一刀切”静态阈值,和业务特征不匹配,导致漏告、误告; 智能基线随业务变化动态调整,和业务特征匹配,让监控告警更准确,避免误报、漏报; •配置繁琐 •一键开启 需人工为每个库,手动配置阈值,还需定期结合业务发展调整阈值,工作量大; 针对成百上千套大规模数据库管理,无需人工配置,仅一键开启即可,从而节省人力成本。 智 能 告 警 的 关 键 技 术 要 点 基线质量,临界范围,容忍条件 F1≥90%,指标检测超过人类专家 根据运行历史,自动校正 •查准率,检测出的异常中真正异常的占比,算法训练调优结果95%左右;•召回率,真正的异常中被检测为异常的占比,算法训练调优结果为86%左右;•F1,查准率和召回率的调和平均数,反映了查准率和召回率的各自水平以及平衡性,算法训练调优结果≥90%; •基线质量控制,当基线的R2<0.5时,认为基线不符合质量,自动将告警切换为静态阈值,当满足质量条件后自动切换为动态阈值•临界范围控制,可通过经验,设置临界值(上限值和下限值),让算法修正最终的动态阈值;•容忍条件控制,可设置异常容忍策略,连续多个数据点超过阈值后判定为异常; •使用历史智能基线和历史真实值计算出来的拟合残差均值、拟合残差标准差,对预测的智能基线进行校正 智 能S Q L分 析 , 让 您 变 身 优 化 专 家 ,1分 钟 定 位 性 能 难 题 客 户 案 例 : 某 银 行 客户价值 解决方案 数据库智能监控告警,提前规避80%问题 智能SQL分析、智能诊断,问题定位效率提升10倍 基于云和恩墨zCloud打造数据库统一监控平台,统一纳管生产环境数百套Oracle、MySQL、openGauss、OceanBase、Redis等数据库。上线功能模块包括数据库巡检、数据库监控告警、数据库性能分析、数据库故障一键诊断。 •从海量SQL->重点SQL->问题SQL->具体问题,自动识别,智能分析•数据库实例->集群->主机三位一体的深度监控,收到问题预警时,运维人员通过zCloud一键诊断即可迅速定位故障原因 构建了“数据库实例->集群->主机”三位一体的深度监控体系,并逐步完善了三层架构风险预警机制。可以帮助运维人员快速发现问题并给出决策建议。当收到问题预警时,运维人员通过 zCloud 一键诊断即可迅速定位故障原因,节省了大量时间,提升了主动运维的效率。 统一数据库管理,资产和运维双视角展示,资源、状态、问题一目了然 •资产总览从业务使用视角清晰呈现数据库系统资源、状态、可用资源信息•监控总览从运维视角呈现数据库状态核心指标和变化趋势,实时掌握数据库运行状态,聚焦核心问题 低代码助力敏捷运维 基于低代码的开放运维框架 02 灵活,可按需调整,灵活应对需求变化高效,交付周期短,按需快速搭建功能丰富,将数据库、主机、磁盘、网络等运维能力封装为3000多个原子能力,支撑轻松搭建新场景功能 z C l o u d低 代 码 , 数 小 时 即 可 完 成 , 数 据 库 运 维 能 力 扩 展 02. 业务流程编排 脚本编排原子能力,通过简单拖拽实现业务流程自定义编排 低 代 码 助 力 敏 捷 运 维-场 景1: 账 号 回 收 中 的 应 用 与 效 果 开发人员定向通知没有无关信息 开发人员由于需要定位问题,通常需要在生产数据库中拥有账号,这些数据库的账号DBA如何管理? Ø如何提醒快过期的账号Ø如何定期回收不用账号 账号回收中的挑战 数据库种类繁多账户对应人困难 低 代 码 助 力 敏 捷 运 维-场 景1: 账 号 回 收 中 的 应 用 与 效 果 低 代 码 助 力 敏 捷 运 维-场 景2: 数 据 提 取 场 景 的 应 用 与 效 果 不同角色的诉求 开发人员数据快速获取支撑后续的测试任务 开发人员在应用上线前,需要使用生产数据进行仿真测试,仿真环境搭建复杂,包括数据的导出,导入,数据的脱敏等,DBA如何能快速完成这些任务? Ø如何将不同的流程打通并自动衔接Ø如何快速完成一些费时的任务。比如,数据库的部署 账号回收中的挑战 数据库种类繁多脚本修改易出错 工作串行化费时执行错误易返工 低 代 码 助 力 敏 捷 运 维-场 景2: 数 据 提 取 场 景 的 应 用 与 效 果 客 户 案 例 : 某 运 营 商 解决方案 痛点 ①某运营商使用了集团自研teleDB和telePG数据库,这2款数据库具备分布式、多分片、高可用容灾等多种特性,但在运维过程中经常需要按需进行数据库集群资源的扩缩、容灾切换等操作,目前缺少可视化的管理平台,导致管理效率低下; ②开发建设专业的数据库容灾管理系统和平台代价巨大,期望开发和交付的项目周期短(半年),投入远大于产出。 方案效果 高效率 项目实际开发和交付周期小于6个月,满足客户上线时间要求 易使用&易维护 低成本 基于低代码开发的业务功能完全具备标准化产品的质量要求,且通过流程的修改/扩展快速响应业务需求变化。 整体项目成本相较于独立建设专业容灾 管 理 平 台 , 成 本 只 有 后 者 的10~20% 客 户 案 例 : 某 基 金 公 司 痛点 ①数据库类型多,没有专业的数据库运维管理平台(之前对数据库的监控运维是通过某厂商的“泛监控”平台,深度不足); ②DBA需要被动响应及支持业务侧/开发侧各种数据库操作需求,日常工作效率受很大影响。 ③日常运维管理需求多样化、个性化,标准化产品难以满足,现有工具或平台不支持让DBA扩展新增运维管理能力 方案效果 一体化协同工作效率大幅提升,基于运维平台进行创新,灵活扩展更多的能力,达到“降本增效”的目标 实现了数据库运维能力的服务化,让业务人员自助参与运维工作,减轻DBA负担; 构建数据库统一的运维平台,不仅具备数据库专业的运维能力,也要全面覆盖DBA日常工作需求 共 建 生 态 :社 区 的 力 量 , 开 启 数 据 库 低 代 码 运 维 新 时 代 共创用户自助,个性创作 学习丰富资料,免费下载 引领集体智慧,新时代开启 zCloud开放运维创新坊 文章 视频 •运维场景•操作视频•专家解读 免费加入,持续获得 展 望 :z C l o u d引 领 运 维 共 创 新 时 代 , 助 力 产 业 分 层 蓬 勃 发 展