报告要点速览 本报告为2022年中国数据库产品策略解析报告,将对数据库产品从数据库技术的底层核心出发深入探讨当前数据库的发展潮流中的关键技术以及数据库产业的增长逻辑,帮助读者建立对数据库产业的总体及数据库产品特征有客观的认识 对数据库有采购、研发、应用等需求的企业可以从数据模型、数据量和计算资源情况、业务需求等方面考量,选择适合自身场景需求的优势数据库产品。 此研究将会回答的关键问题:中国数据库厂商和产品有哪些? 数据库的前沿技术有哪些?哪些厂商在应用? 观点提炼 数据库产品发展及策略思路 在当前的大数据时代与云时代的交汇阶段,数据库领域所面临的挑战扩展性包括了扩展性,异构性、数据非结构化、错误诊断、数据隐私、及时性、数据溯源、可视化等问题, 未来数据库管理领域的重要发展趋势便是各类技术的互相借鉴、融合和发展。数据库数据库产业持续不断地适应着市场需求进行改进,而此演进选代的进程将持续。 分布式架构创新方向 分布式技术在互联网及云计算应用的驱动下,已经从架构设计思想和事务框架等内涵向计算,存储、管理、物理资源等层面外延。 创新的分布式事务处理技术能够给予分布式数据库在工业实现上不同的高度,也定义了不同数据库厂商在数据库内核上的核心竞争力: 数据库管理技术创新方向 随着在线业务的快速发展,数据库管理要求满足多模化支持、高可用、强可维护、高自治,高安全加密等性能。 数据库治理模式函需基于云平台的操作自动化与基于AI的自动的调参优化、由数据驱动的自监控自运维、智能化自诊断自设计,减轻甚至取消对DBA的依赖。 数据库技术的送代变迁 未来数据库管理领域的重要发展趋势便是各类技术的互相借鉴、融合和发展。数据库数据库产业持续不断地适应着市场需求进行改进,而此演进迭代的进程将持续 口数据库的发展阶段划分 数据库(Database)是指长期保存在计算机的存储设备上并按照某种模型组织起来的,可以被各种用户或应用共享的数据的集合。 数据库管理系统(DatabaseManagementSystems)是指提供各种数据管理服务的计算机软件 系统,这种服务包括数据对象的定义、数据存储与备份、数据访问与更新、数据统计与分析,数据安全保护、数据库运行管理以及数据库的建立和维护等, 数据模型是数据库系统的核心和基础,各种数据库管理软件都是基于不同的数据模型而生的对数据库技术发展阶段的划分基本按照数据模型的发展演变作为主要依据和标志。 数据库模型的发展变迁 数据库模型 发展变迁 时间线 计算机数 用原子钟和 数据库设计流程 数据库设计理论正在寻求更有效的语义表达关系,并在各设计阶段提供自动或半自动的设计工具和集成化的开发环境 口数据库设计 对于给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之能够有效地存储数据,并满足各种用户对信总分类与处理等应用要求。 数据库设计理论正在寻求更有效的语义表达关系,并在各设计阶段提供自动或半自动的设计工具和集成化的开发环境。 数据库设计流程 梳理分类数据的种类、范围敬量以及数据之间的关联 调查分析用户的业务活动和数据使用情况 需求分析 确定用户对数据库的使用要求 形成用户需求规约 人大金仓 KSOne Hubble 天云数据 PolarDB Lindorm 云和恩墨 AnalyticDB MogDB GaussDB ACTION 云树RDS云树Shard OpenGauss 爱可生 TaurusDB HUAWEI Dragonbase 金山云 KingDB ICT跨界厂商 KRDS GoldenDB ZTE中兴 百度智能云 GaiaDB ZNBase inspur浪潮G K-DB 京东云 StarDB H3BC SeaSQL 华三第区 TeleDB : 各公司言网义的研究院 1.3数据库架构维度 数据库技术架构整体包括管理模块、计算模块和存储模块物理资源层是为数据库提供基础支撑环境。四个模块中分别具有不同的前沿创新技术 数据库架构维度 目前H工AP有两种方案:分离架构和统一架构,分离架构是目前的主流方案。趋势中,云原生架构环境与HTAP系统的融合将衍生新的HTAP产品方案和技术特征 口HTAP混合事务和分析处理 HTAP描述的足消除OLTP和OLAP之间的间隔,使一个分布式数据库系统既 可以应用于事务型数据库场景,又可以应用于分析型数据库场景,从而满足实时业务决策的需求。 HTAP能让数据产生后马上就可以进入分析场景,但它面临最大的问题是如何把OLTP和OLAP两类互压的工作负载更好放在一个系统上运行,并且实现资源干扰小、数据可见度高、延时短。 目前HTAP有两种方案:分离架构和统一架构,分高架构是目前的主流方案。趋势中,云原生架构环境与HTAP系统的融合将衍生新的HTAP产品方案和技术特征。 分析 据 数据/交易产生 医疗、风控、个性化推荐营销等数据密集型业务可以在交易侧完成实时的分析,且不会影响交易的性能与数据一致性。 价值 ETL 数据实时性递减 分析 2.以"用"为核心的实时数据服务平台 决策 在现有的据平合以"用"为核心,以“管为基础的整 据中台,将成为企业数字化规划与实施的重点创新与升级。让全企业用户能自由选择与应用数据资产,实时变现数据红利。 执行 不同HTAP方案的性能与实时性 在线游戏 欺诈识别 系统监控 个性化广告 股价监控 20ms 单系统单拷贝 OLAP 单系统双拷贝 OLAP 独立存储的松耦合双系统 OLAP Zstd的压缩比最高,且压缩/解压效率表现较高,适用于冷存储场景;Iz4对比当前流行的压缩工具,尽管压缩比一般,却具有最快的压缩和解压速度,适用于OLAP查询场景 口数据压缩存储技术 数据压缩的目的是为了减少数据传输或者转移过程中的数据。数据压缩存储技术需要在不丢失信息的前提下,缩减数据量以减少存储空间,提高传输、存储和处理效率,或者是按照一定的算法对数据进行重新组织,减少数据的穴余和存储的空间。 目前流行的压缩算法有Snappy、Terark、zlib、bz2、lz4、lz77、zstd, brotli.B-tree.RLEDelta Value Encoding、Deflate 、Dictionary等。 压缩算法性能对比 一压缩效率 解压效率 +压缩比 口压缩算法与支持厂商 std的压缩比步高 且压缩/解压效率表现较高,适用于冷存储场景 ArgoDB 完整版登灵www.leadleo.com 搜索《2022年中国数据库产品策略解析报告》 在存储系统的设计中,存储引擎属于底层数据结构,直接决定了存储系统所能够提供的性能和功能。在数据库产品中以 Hash、B+tree、LSM-tree为存储引擎的主流索引架构 口存储索引结构 在存储系统的设计中,存储引擎属于底层数据结构,直接决定了存储系统所能够提供的性能和功能。常见存储算法结构涵盖:哈希存储,B、B+、 B+树存储,LSM树存储引擎,R树,倒排索引,矩阵存储,对象与块,图结构存储等等, 在数据库产品中以Hash、B+tree、LSM-tree为存储引擎的主流索引架构。 存储索引结构 LSM-tree日志结构合并树 Hash哈希索素引 B+tree堆文件组织方式 Log-Strucured-Merge-Tree 链值指针数据 数据行 桶Bucket 键Key 读请求 写请求 A 101 Memtable DRAM 架构 磁盘 101 B xBb WAL WAL SSTableo SSTablel C 202 SSTable2 以关键字Key为自变量,通过哈希函数,计算出对应哈希地址,以这个值作为数据元素的地址并将数据元索存入到相应地址的存储单元中, B+树上有两个头指针,一个指向根节点,另一个指向关键字最小的叶子节点,而且所有叶子节点(即数据节点)之间是一种链式环结构。因此可以对B+树进行两种查找运管 通过尽可能减少写磁盘次数实际落地存储的数据按key划分形成有序的不同文件;结合其先内存更新后合并落盘的机制尽量达到顺序写磁盘,尽可能 定义 一种是对 查找时根据关键字采用同样的 慈盘已有历实教据和当品盘的驻于内存的更新 存储单元中去取要 种是从根节点开始,进行 机套技 D DSO TDSO完整版登录www.leadleo.com 授索(2022年中国教据库产品荣路释析报告) 数据库治理模式驱需基于云平台的操作自动化与基于A的自动的调参优化、由数据驱动的自监控自运维、智能化自诊断自设计,来减轻基至取消对DBA的依赖 数据库治理模式的演化 1970s-1990s 自适应数据库Self-AdaptiveDatabase 系统首先要收集应用读取数据时的性能指标,然后 迪过DBMS减轻应用程序 开发人员的数据管理负担 个最优策略来提升访间性能 基于代价模型来寻找一 侧重于索引选择、数据库自动分区和数据切分 1990s-2000s 自调优数据库Self-TuningDatabase 调优工具通过对执行特定查询的工作量进行估计并在同一个环境下比较不同查询执行策略帮助DBA限据负载选择优化票引、物化祝图和分区表。 仍然由DBA决定优化探作依赖于人的经验和决策 云数据库 2000s-2010s Cloud Database 在云平台的规模与复杂性条件下,自治系统变得尤为重要。云服务商提供定制化工具来控制部著,还 提供黑盒的编排工具,便于修改集群中的机器数目 在云平台实现操作自动化 自治数据库 2018- Self-Driving Database 修改控 能够根据目标自动决定完成修改物理设计、 数据库自动选择优化方法决定何时优化,持续学习, 并且具备自动学习 制参数和修改物理资源等操作, 该操作的反馈并优化决策过程的能力。 来逐:CM(U、Aney Pavo、重天、以的酐究院 口数据库智能自治 数据库的治理是保障数据库安全可控的重要方式。随者业务信息化的发展,数据库面对的数据规模及复杂度并喷式增长,传统的基于经验的数据库优化工具已不能满足负载调优等高性能要求,需要基于学习的数据 库优化工具:AI4DB。 数据库治理模式亟需基于云平合的操作自动化与基于AI的自动的调参优 化、由数据驱动的自监控自运维、智能化自诊断自设计,来减轻甚至取 消对DBA的依赖。 来累:华为云头的研究院 中国:数据库系列 数据库行业|2022/04 数据库AI自治技术 Model Manager AI模组 Dcean 3.1云部署数据库产品 云部署数据库产品已经进入了成熟商用阶段,各大数据库厂商都提供了不同形态的云部署数据库产品及服务,主要分为云托管、云服务及云原生三种形态的数据库 口部署模式 数据库的部署模式分为传统本地部署(on-premise)与云部署。传统的线下 部署数据库架构依赖于高端硬件,难以支持新业务的扩展需求。而云上部署数据库可以横跨多服务器和虚拟机实现大规模扩展能力。 云部署数据库产品已经进入了成熟商用阶段,各大数据库厂商都提供了不同形态的云部署数据库产品及服务,主要分为云托管、云服务及云原生三种形态的数据库。 云部署产品 云托管数据库 云服务数据库 云原生数据库 基础设施即服务部署单机云部署迁移实施 平台即服务部署企业级特性数据库免运维 数据库即服务DBaaS 部署 Serverless 特征 弹性多租 云服务模式在云托管模式的基础上,用户无需关注数据库的具体部署方式,并提供企业级特性包括高可用、数据安全、 将原本部署于IDC的物理机房 上的传统数据库部署在云主机上,使用云服务提供商的计算存储资