携手共建 中国联通的OceanBase分布式数据库探索之路 邱永刚 中国联通软件研究院OceanBase开发负责人 目录01分布式CUDB演进历程 Contents 介绍分布式CUDB建设背景、与OceanBase的相识、从初创到成熟阶段的发展历程 02分布式CUDB生态体系介绍 介绍分布式CUDB产品体系、工具体系、AI赋能等核心能力以及社区共建内容 03使用效果与未来展望 介绍分布式CUDB在联通内部的使用效果与产品的未来展望 01 分布式CUDB演进历程 建设背景 2022年9月底国资委下发文件,全面指导并要求国央企落实信息化系统的自研技术改造,要求央企、国企、地方国企全面落实自研技术,总体目标 是在重点推进行业央、国企2027年底实现100%自研升级。 “打好关键核心技术攻坚战,加快攻克重要领域“卡脖子”技术“ 外部:政策+市场驱动 单点启动 规模化启动 市场化驱动 市场驱动 政策+市场双轮驱动 建筑/烟草/地产/汽车等 政策驱动 政策驱动 石油/交通/航空航天 电信 党政 201320142015201620172018201920202021202220232024202520262027 内部:需求导向 服务器 •飞腾 •曙光 •浪潮 •.... 操作系统 •麒麟 •统信 •.... 01 02 CPU •飞腾 •鲲鹏 •龙芯 •申威 •海光 •... 03 04 传统数据库 •mysql•海量 •Oracle•... •达梦 “2+8+N”XC产业将迎来全面爆发攻坚关基全栈XC-攻关试点全栈XC数据库 分布式CUDB演进历程 21年底,从XC政策、替代高危MySQL、降低商用依赖以及提升软研院软实力等几方面综合考虑,选定基于国内首家开源分布式OceanBase数据库产品打造自研产品分布式CUDB,重点聚焦数据库产品生态工具方面的补齐和人员能力的提升,为替代MySQL和新上应用提供全栈XC的数据库资源及服务能力。 2021 2022 2023 2024 技术选型 基础架构搭建与功能实现 产品化建设 一键开通、弹性扩缩、高效迁移易用性提升,试点推广应用 稳定性提升与生态完善 对接监控运维体系大规模推广使用 智能化运维 开源共建,深入内核研究推广大型应用 02 分布式CUDB生态体系介绍 全栈XC适配安全可靠 3款国产芯片2款国产操作系统3款国产服务器 服务生态体系全面好用 售前售中售后 8个场景解决方案8大能力中心质量/效率/安全保障 分布式CUDB产品体系 功能特性 数据库产品能力高效可靠 资源更省 磁盘节省约70% 迁移更快 10W/s迁移速度 可用性更高 弹性扩缩等16个场景 应用场景 数据库服务生态工具CDAS 生态服务 分布式CUDB数据库产品 产品能力 计算(RUNC/KATA/KVM) x86 + 存储(CEPH/LVM) 麒麟 OpenPower + 网络(OVS/OVN/DPDK) 统信UOSARM(鲲鹏+飞腾) 新上应用尽量采用CUDB 离线数据 MySQL数据库全量替代 非核心业务系统 故障无感知切换安全管控 ... 分布式引擎多租户隔离内存转储 集群模式多副本容灾语法高兼容 数据库监控感知中心决策中心 数据库运营卸载中心迁移中心 数据库运维运维中心恢复中心 数据库管理交付中心操作中心 外部应用 分布式CUDB基于OceanBase社区版进行优化改进,将产品的开通、使用、监控、运维全面接入联通云,实现产品资源的一点开通、一点交付、一点监控、一点运维和一点操作,为联通云租户提供易用而专业的一站式服务。 产品能力:高效数据库迁移 开源迁移工具对数据迁移到OceanBase支持度相对有限,且缺乏直观易用的界面化多租户服务。为解决应用数据迁移难题,自研MySQL到OceanBase的迁移工具MOT(MySQL-OceanBaseTransferTool),支持全库表结构+表数据迁移,迁移速率可达10万条/s以上。 大表迁移性能测试 大表迁移性能 400000 200000 0 OMS MOT mysqldumpdataxdatax拆分 大表迁移效率MOT迁移速率为OMS的3.5倍,mysqldump的2.9倍,datax无 法拆分主键并行迁移的13倍,与可拆分主键并发迁移最高性能相当。 全库迁移性能测试 普通数据迁移性能 400000 300000 200000 100000 0 OMSMOT 对645张表进行迁移测试,总数据量3亿,其中超过5000w数据表4张。 OMS迁移时长3787s,迁移速率77189条/s;MOT迁移时长909s,迁移速率325981条/s,MOT迁移速率为OMS的4.2倍。 兼容性测试 不兼容表数量 100 80 60 40 20 0 OMSMOT 工具 OMS MOT mysqldump datax datax拆分 性能(条/s) 62005 218142 76207 16793 212369 表总数645张,OMS不兼容95张,MOT不兼容2张,MOT兼容性为OMS的近50倍。MOT相比OMS,可兼容无主键表、外键依赖、倒序索引、Mysql8.0等情况的数据迁移。 产品能力:异地容灾高可用能力 •基于nfs数据备份搭建主备集群,实现数据同步 •通过nfs的数据备份可实现应用数据恢复至备份周期内的任一时间点 应用SLB负载均衡 •通过SLB配置负载均衡,备集群负载权重配置为0,流量转发至主节点 •集群故障时,SLB转发流量至备集群,应用无须任何修改 OBProxyOBProxyOBProxy nfs OBProxyOBProxyOBProxy OBServer OBServer OBServer OBServer OBServer OBServer OBServer OBServer OBServer OBServer OBServer OBServer 主集群备集群 工具能力:全面好用的泛数据库自治服务CDAS 为屏蔽底层数据库类型差异,提高运维效能,建设泛数据库自治服务CDAS,提供数据库操作中心、运维中心等八大中心,覆盖全部入驻应用,让人人都是DBA。 实例开通 实例管理 资源管控 ... 交付中心 ... 精准恢复 全库恢复 恢复中心 备份管理 运维中心 卸载监控 卸载中心 流转视图 数据库服务生态工具体系 RDS 商用OceanBase RDS 商用OceanBase KVStore 达梦 分布式CUDB ... 慢sql治理 会话管理 表空间治理 ... 实时迁移按需迁移 ... 卸载管理 分级赋权变更备份 迁移中心 操作中心 离线迁移 ... SQL变更审批 ... 异常检测AWR报告 自动扩缩诊断分析 感知中心 决策中心 趋势预警 ... 预案自动化 ... 数据采集(日志、sql、参数、锁等) 数据库集 数据分析、机器学习、算法专家经验 工具能力:智能预测、诊断与自愈 行业领先的AI赋能数据库运维流程,基于异常检测、数据库监控指标、组件拓扑关系,完成数据库的故障趋势预测能力建设,故障自愈率提升至20%左右,故障数同比降低70%,提高了数据库运维的智能性,荣获XCOPS“2023年度智能运维十大标杆案例”。 场景连接数趋势预测数据库容量趋势预测数据库磁盘故障自愈数据库主机负载故障自愈 数据库智能运维建设 波形分类 智能发现 场景定义 模型训练 模型管理 质量 事件关联新奇日志多维分析链路诊断根因定位 智能分析 动态阈值 故障预测 智能处置 成本 成本分析 趋势分析 故障自愈 预案自动化 应用资源优化效率 容量预测 安全 能力配置中心流程中心监控中心运维中心计算平台管控平台 支撑智能计算引擎 数据监控指标运行日志调用信息变更信息配置数据平台事件 产品能力展示 从深度使用,到社区共建:我们可以一起做些什么? 社区共建-事务日志解析LogMiner 建设效果 •实现用户DML误操作精准恢复 •增强OceanBase内核掌控能力 •内核代码已提交社区,将在4.2.3版本正式发布 为进一步提升产品能力,支撑联通个性化业务需求,同时提升对OceanBase内核掌控能力,在数据库内核及外围工具层面展开社区共建,目前已在事务日志解析LogMiner、OceanBase敏捷诊断工具obdiag进行深入共建,实现多个核心功能研发,并修复多个数据库内核bug。 面临问题 •DML误操作无法闪回:如何构建更强大的数据库安全体系? •obadmin解析拉取源文件复杂:如何提升数据库管理工具的易用性? •解析内容可读性差:如何优化数据库解析工具的信息展示? •解析工作量巨大:如何自动化数据库解析工作? 共建内容 •研发LogMiner解析事务日志,直接生成SQL与反SQL语句 •底层能力对接联通云体系,进行产品化改造 建设思考 •场景完善:通过持续完善建设内容,覆盖更多场景,如访问异常缓慢、转储异常 •分析细化:比如针对访问断连,可能涉及多方面原因。实际场景不断锤炼,分析细化,全方面定位、解决实际问题 一键集群巡检一键根因分析 一键诊断分析一键信息收集 After 疑难杂症请求专家服务 专家 用户 数据库节点 根据报告自主定位问题 请求专家排查问题 obdiag 社区共建–OceanBase敏捷诊断工具obdiag Before 专家 反复沟通 用户 从节点收集数据 下载和运行工具/脚本 数据库节点 定位和处理问题 上传缺失数据 请求专家排查问题 建设内容 •一键集群巡检:发现已存在或可能会导致集群出现异常问题的原因分析并提供运维建议 •一键信息收集:实现数据库相关的诊断信息收集 •一键诊断分析:通过运行日志等对集群进行一键诊断分析 •一键根因分析:对访问断连、卡合并、锁等待等影响集群使用的场景进行一键分析定位,协助快速解决 背景:应用或OceanBase集群出现问题,故障根因分析通常比较繁琐,可能涉及机器环境、配置参数、运行负载、不当使用等,需要应用与运维人员及相关专家反复沟通、描述问题、收集信息,费时费力,影响使用体验。 03使用效果与未来展望 分布式CUDB在中国联通的应用情况 分布式CUDB(OceanBase)目前已在中国联通超过xx个项目中成功应用,其中,xx系统已安全稳定运行超过600天。 已推广应用 xx个 协助应用迁移次数 xx次 已上线应用xx个 协助应用迁移量xxTB 协助应用数据恢复20+次 慢SQL数量下降 43% 帮助应用问题快速处理10+次 数据库运维效能人均提升 20% 社区共建,深入内核研究 通过社区共建,进一步完善产品能力,提升运维人员内核掌控能力与运维水平,为数据库稳定运行保驾护航。 未来展望 统一技术栈,扩大应用规模 收敛数据库组件,未来将实施替代600+套MySQL等高风险组件,实现新建系统“能用尽用”,核心系统稳中求进,逐步推广应用。 数据库运维智能化 基于大数据和AI能力,实现数据库的自感知、自修复、自优化、自运维、自安全。 谢谢 谢谢 谢谢