多云多源数据管理最佳实践 ——让效能提升5倍 叶正盛 NineData创始人&CEO GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 叶正盛 NineData创始人&CEO •资深数据库与云计算领域专家 •曾担任阿里云数据库产品管理与解决方案部总经理,阿里云技术架构与产品决策委员会核心成员 •阿里巴巴去IOE、异地多活、云计算多次技术变革核心成员 •构建阿里巴巴&蚂蚁集团数据库DevOps体系 •创立云计算数据传输DTS、数据管理DMS、数据库备份DBS、数据库自动驾驶服务DAS等多款云计算数据库产品 多云多源架构发展趋势 数据复制 目录数据库DevOps 客户实践 01 多云多源架构发展趋势 【多云多源】数据基础架构发展趋势 IDC、云平台 合规:全球化、国企成本:采购策略 技术选型:弹性、AI、分析避免锁定:技术中立 … 多云/混合云 75% 过去现在 多模:文字、表格、文档、日志 单一主数据库 Oracle/MySQL 架构:OLTP、HTAP、OLAP AI:图、向量、模型政策:国产化(中国) 多种数据库组合 73% 云计算(多云/混合云)+数据库组合解决方案(多源) 调研企业: 字节跳动、小红书、米哈游、B站、小米、理想、小鹏、格力、美的、海尔、Minimax、Volvo中国移动、中国联通、中国电信、杭州银行、建设银行、光大银行、国家电网、中国石化OpenAI、Airbnb、Netflix、宝马、沃尔玛、Spotify、Dropbox、X(Twitter) 数据库系统分类大图 强OLTPOLAP SQL 弱NoSQL 小 数据量 大数据 大 国产数据库百花齐放 老牌关系型数据库 分布式关系型数据库 云数据库 数据仓库 NoSQL 达梦 OceanBase PolarDB Doris/SelectDB TDengine 人大金仓 TiDB GaussDB StarRocks 巨杉数据库 南大通用 神舟 GoldenDB AntDB TDSQL GaiaDB 星环大数据 OushuDB NebulaGraph Milvus (2024.10)墨天轮收录:225个,2024年通过国家安全评测17个 数据库与生态产品 数据库DevOps SQLIDE、CI/CD、性能优化、安全NineData 数据流(复制/集成) 数据迁移、同步、ETL、订阅、分享NineData DBPaaS 资源调度、安装配置、备份恢复、监控告警、HA RDS 数据库引擎 OracleMySQL PolarDBMongoDBClickhouse … BI 数据分析、挖掘、大屏PowerBI、帆软 NineData安全高效的管理无处不在的数据 AnyData … 本地IDC AnyWhere … 阿里云 GCP 华为 云Azure 腾讯云 天翼云 移动云 AWS 跨云/IDC私网连接 数据开发 BI开发 业务运营 应用开发者 DBA 系统管理 数据仓库/大数据平台 数据复制 数据库DevOps 应用消息队列 数据迁移 数据实时同步 数据开发 AI代码审核 生产发布 搜索平台 数据容灾 ETL 安全管控 云厂商 托管A数据库(开源/自研/国产) 自建IDC 自建数据库 自建IDC 托管数据库 丰富的数据源、云平台支持:RDBMS、NoSQL、数据仓库、大数据 NineData云原生智能数据管理平台 02 NineData数据复制 数据复制典型场景 实时数据迁移 上云/国产化 MySQL->RDS Oracle->PG MongoDB->MongoDB 数据复制容灾 上海<->北京 阿里云<->AWS 云<->IDC ETL Oracle->Doris MySQL->ClickHouse MySQL->TiDB 数据对比 结构对比 数据对比 差异数据订正 数据源 Gateway CloudLink NineData数据复制架构图 用户控制台 OpenAPI 数据源 NineData数据复制任务2 Ni neData数据复制任务1 结构复制(table/view/procedure…)全量数据复制(映射/过滤…) 增量数据捕获 数据传输队列 增量写入 结构对比全量数据对比增量数据对比 子任务协同任务配置日志与监控 任务资源调度(Kubernetes) 日志存储 管理平台 Gateway CloudLink IDC 阿里云 腾讯云 华为云 百度云 移动云 AWS GCP … NineData数据复制特点 让数据自由流动,创造更多数据价值 北京 甘肃东数西算 远距离实时数据传输(迁移/同步/备份) 全球业务美国 杭州 丰富数据源 60+ 强劲性能 10万RPS 业界领先 跨云内网传输 业界首创 超远距离实时传输 >10000公里 业界领先 NineData数据复制对比 NineData Canal FlinkCDC 某云DTS 核心定位 多云多源实时数据复制 MySQL增量复制 大数据实时复制 数据迁移上云 不足 商业产品 仅支持MySQL需要二次开发 易用性、稳定性差需要二次开发 非云中立,优先支持自家云数据库 数据源 60种 MySQL 9种 18种 全量数据迁移 33MB/s 32MB/s 31MB/s 27MB/s 增量数据迁移 2.7万记录/s 0.83万记录/s 不稳定 0.55万记录/s 结构迁移 全量+增量 全量(仅表对象) 全量(仅表对象) 全量 数据对比 支持 × × - 场景:MySQL->MySQL数据复制数据库硬件:2台ECS8c16G,ESSD 03NineData数据库DevOps 安全稳定 变更发布 监控告警 漏洞修复 诊断优化 备份恢复 Oracle MySQL MongoDB 数据库研发协同挑战 慢SQL治理 安全 流程 规范 开发效率 没权限 不了解规范 SQL开发 需求紧急 流程慢 用户体验差 java mybatis python 应用开发者 N:1 DBA(OPS) NineData数据库DevOps十四年经验积累 研发协同效能提升5倍以上 iDBDMS 2010年 2016年 2021年~ 面向一家企业(阿里巴巴) •阿里巴巴集团数据库服务平台 •专注解决数据库研发效率、数据安全问题 •阿里集团高效数据库服务平台-iDB(链接) @2013VelocityChina2013by叶正盛 面向一个云平台(阿里云) •阿里云数据库的数据管理产品 •十年磨一剑,阿里巴巴企业级数据管理平台DMS(链接)@2017阿里云DMS商业化 面向所有企业与云平台 •多云、多数据库支持 •支持60种数据库 •云中立,支持主流云平台 •支持本地一键安装部署 •更灵活的DevOps业务模型 •AI大模型创新 NineData数据库DevOps专业解决⽅案 高效 AI大模型集成规范与流程版本管理CI/CD集成 协作 开发测试⽣产 数据库设计数据查询数据变更导入导出 测试环境发布测试数据生成 SQL智能审核 SQL变更发布 历史数据归档数据追踪 慢SQL治理 SQL诊断优化 数据 细粒度权限管控安全规范约束敏感数据保护操作审计 安全 基于AI大模型的SQL开发IDE(更安全、更高效) SmartEdit,研发协同效率提升5倍 1基于位置的智能提示与补齐,少写一半的SQL •代码智能提示 •ChatDBA •Text2SQL •数据库安全保护 •敏感数据脱敏 •支持60种数据库 NineData+AI大模型数据管理Copilot 数据管理Copilot RAG 数据库知识库 ChatDBA Text2SQL 智能SQL优化 数据库Schema智能转换 数据库辅助代码生成 SQL智能审核 存储过程转换 代码错误修复 文档生成 代码解读 通用大模型接入 ChatGPTQwenBaichuanMoonshootLlama文心一言 传统发布 数据库变更发布导致60%生产故障 系统工单 应用开发者 DBA(OPS) • • • • • 人工执行缺少规范无风险识别锁表 无备份 更高效、更安全的SQL审核与发布 NineData智能SQL审核与发布 更安全、更高效 安全的执行策略 OnlineDDL OnlineDML 定时执行 手工执行 自动备份数据 影响行数检测 基于CBO技术的慢SQL诊断优化方案 基于研发规范及性能的诊断优化能力 单条SQL优化流程 局部SQL优化流程SQL诊断建议 SQL解析 候选索引生成 代价评估 生成索引 SQL聚合分类 单条SQL优化 索引合成 生成索引 首创的自动数据归档与清理 支持多种数据库类型支持单次、周期调度支持归档、清理、归档+清理多种策略灵活按需选择 当前库 自动调度 历史库 SQL脚本 编辑敏感数据源 严谨的敏感数据保护 常见类型自动发现 手机号码 电子邮箱银行卡密码信息 车牌号 按需开启/关闭 手动开启与关闭 自动扫描,人工确认完整的SQL审计 完整的操作审计 列粒度权限控制 多种遮掩算法 基础全遮掩 适用手机的中间遮掩使用邮箱的前缀遮掩加密遮掩 定制遮掩 完整的SQL保护机制 完善的SQL保护 (多重)子查询发现函数操作发现JOIN操作发现 UNION、窗口函数 面向数据库的RBAC权限体系 完整的基于角色/分组的权限管理 个人、角色两级权限 角色实现批量权限管理 个人支持细粒度 组合灵活控制用户权限 基于环境/数据源分组 批量权限管理 不同环境,不同权限 多种分配方式 多权限、细粒度 查询、DML、DDL、导入与导出 任务提交、审批与执行 支持数据源、库、列权限 主动申请 角色/分组分配 管理简单 到期释放 账号暂停 随角色组管理 “环境”(数据源分组) 便于组织/企业管理 NineData数据库DevOps功能对比 NineData Navicat Yearning 某堡垒机 核心定位 企业级数据库DevOps专业解决方案 数据库个人客户端 MySQL数据库变更流程平台 跳板机 不足 商业产品 没有企业级数据安全、流程、规范 支持的数据库少功能简单 非数据库专业解决方案 数据源 70种 51种 1种(MySQL) 10种 SQL窗口 √ √ √ 依靠客户端 变更发布流程与规范 √ × √ × SQL代码审核 √ × × × 数据导入导出 √ √ × × 数据追踪 √ × × × 数据生成 √ √ × × 数据归档 √ × × × 统一权限管理 √ × × × 敏感数据保护 √ × √(不可用) × AI集成 √ × × × 04客户实践 使用成效 每天稳定运行的数据链路数百条。 通过NineData双向复制构建了超长距离(超过1000公里)的异地多活集群,支撑业务高稳定运行。 主要问题与挑战 客户本身有很多数据需要同步,同时还要提供数据复制产品给他的客户使用,比如该云的客户从其他云厂商或自建系统中迁移上云。 应用场景复杂:包括迁移上云、跨云迁移、跨区域迁移、数据容灾、异地多活等业务场景。 网络环境复杂:Region内部/Region之间,和其他云厂商与客户自有系统之间等各种链路。 客户案例:中国移动云数据复制 客户实践:某银行数据库国产化迁移同步 核心需求:去O、国产化数据库选型、数据同步质量与性能… … 客户实践:沃尔沃数据库DevOps 每天自动化完成数百次变更发布 数百数据库实例 近千研发人员 阿里云+华为云 从DMS全部迁移到NineData 世界500强 如何 保障不同的经验/习惯的研发人员,依旧能够构建规范的生产环境 如