中国关系型数据库产业发展和行业应用(2023) 中国关系型数据库产业发展和⾏业应用(2023) ——国产数据库助推产业创新,塑造数字化未来新格局 目录 数据库产业概况 --------- 2 •数据库的概念及主要类型 •数据库技术发展趋势 中国关系型数据库市场现状---------9 •国产数据库品牌逐渐崛起及采取多种技术路线 •国内开源数据库根社区和根⽣态初步形成 中国关系型数据库市场重点⾏业应用场景与特点---------15 •⾦融及电信⾏业数据库应用场景与特点 •政府及制造⾏业数据库应用场景与特点 国产数据库在重点⾏业应用态势分析 --------- 20 •数字化创新转型由⼀般系统转向核⼼•集中式数据库在OLTP核⼼系统的作用不容忽视•分布式数据库成为⾦融、电信等⾏业的新选择•应用更关注数据安全•兼容性、迁移适配⽅法论逐步成熟 国产数据库⾏业应用深化面临的问题 --------- 27 •关键核⼼技术能⼒不⾜;⾏业应用迁移替代难度⼤•产业⽣态⼒量布局分散;产业链风险问题急需解决 •数据库专业研发⼈才短缺 对策建议 --------- 32 •强化原创性技术创新;深化⾏业应用牵引机制•优化产业发展环境;保障产业链韧性安全•加⼤研发⼈才培养⼒度 中国关系型数据库产业发展和行业应用(2023)1 章节⼀数据库产业概况 数据库的概念与分类 •数据库(Database)是按照数据结构来组织、存储、管理,并且可共享的数据集合软件,是IT系统存储与计算的基础,与芯片、操作系统共同组成IT系统的核⼼,⼴泛服务于各类⾏业应用,是软件产业⽣态体系构建的重要枢纽 •按照不同的维度,数据库有不同划分(1)按数据结构模型可分为关系型数据库和非关系型数据库;(2)按⽹络架构可分为单机型数据库、存算分离性、集中式数据库和分布式数据库;(3)云数据库,是指被优化或部署到⼀个虚拟计算环境中的数据库 关键发现 按数据结构模型可分为关系型数据库和非关系型数据库 关系型数据库(SQL),采用了关系模型来组织数据,以⾏和列的形式存储数据。关系型数据库的⾏和列的集合被称为表,表的集合则组成数据库。其诞⽣40多年,已形成较为成熟的产品体系,代表产品如Oracle、DB2、SQLSever、MySQL、PostgreSQL、openGauss等,其优点是事务的⼀致性,在⾦融等⾏业要求数据完整性、⼀致性较⾼的领域中⼴泛应用。 非关系型数据库(NoSQL),泛指除关系型以外的数据库,是对关系型数据库的⼀种补充。非关系型数据库的产⽣是为了解决⼤规模数据集合多重数据种类数据库的分类 带来的诸多挑战,尤其是⼤数据应用难题,其包括:键值存储数据库(Key-value),典型产品有Memcached、Redis和Ehcache;列存储数据库,典型产品有Cassandra和HBase;面向⽂档数据库,典型产品有MongoDB和CouchDB;图数据库,典型产品如Neo4J、InforGrid;时序数据库,典型产品如InfluxDB。非关系型数据库具有扩展性强、⾼并发读写、灵活的数据模型等特点,⼴泛应用于数据量⼤的业务系统。但是也存在明显的短板,如,种类多、需要兼顾各类非关系型数据难度较⼤、⽆法对传统的数据类型(关系型)的应用进⾏升级等。 非关系型数据库 ProgressMarkLogic HadoopBrisk McObjectDryad ⽂档 关系型数据库 OraclIBMDb2SQLServerMySQL LotusNotesMapReduce ObjectivityVersantHadapt CouchDBMongoDB openGaussIngres NewSQL PostgreSQL EnterpriseDB NoSQL 分 布式数据库 即服务aaS 键值 SequoiaDB Couchbase Cloudant Dynamo列储存 RiakHypertableRedis VoldemortHbaseHypertable BerkeleyDBSimpleDB SimpleDBAppEngineDatastore Neo4JGraphDBInfiniteGraphOrientDB AmazonRDSGaussDBSQLAzureGbase-8A TDSQLOceanBase TiDBPolarDB-X GoldenDB MySQLClusterVoltDBScaleBaseTranslatticeNimbusDB 图 DragonBaseFoundationDB Greenplum Cassandra 来源:沙利⽂整理 中国关系型数据库产业发展和行业应用(2023) 2 关系型数据库与非关系型数据库特点 名称 定义 典型应用场景 关系型数据库 支持关系数据模型,由库、表、数据类型,记录组成,按元素关系组织的数据库。 事务型为主 非关系型数据库 键值数据库 只能存储键和值,满⾜⾼性能需求。 嵌⼊式系统或⾼性能进程需求 能容纳⼤量动态列。由于列名和记录键不是固定的, 列存数据库 并且由于记录可能有数⼗亿列,因此宽列存储可以看作是⼆维键值存储。查找速度快;支持分布横向扩展; 分析型业务场景 数据压缩率⾼ ⽂档数据库 面向⽂档的数据库系统,其特征在于它们的⽆模式数据组织 ⽂件管理等 图数据库 面向图的数据库,将图结构中的数据表示为节点和边缘,表达节点之间关系。 社交、零售、⾦融风险、公共安全 时序数据库 时序数据库是⼀个针对处理时间序列数据进⾏了优化:每个条目都与⼀个时间戳相关联的数据库管理系统。 物联⽹ 实时数据库 结合实时处理技术,直接实时采集系统运⾏过程中的数据的数据库系统。 流控制、⼯业控制 关系型数据库与非关系型数据库优缺点 类型 关系数据库 非关系数据库 优点 容易理解、使用⽅便、易于维护 ⽆需经过SQL层的解析,读写性能很⾼、数据容易扩展、 存储数据的格式多样化 缺点 处理⾼并发读写性能较差、表结构较为固定、不便于更改扩展 处理多种非关系型数据库具有挑战性、难以对传统关系型应用进⾏升级 代表产品 Oracle、MySQL、SQLSever MongoDB、CouchDB 关系型数据库优点在于数据结构清晰、提供ACID事务特性和丰富的管理⼯具,但在 ⾼并发读写和数据扩 展⽅面表现较差。非关系型数据库具有⾼读写性能、灵活的数据结构和扩展性强的优点,但处理多种数据库和升级传统关系型应用⽅面存在挑战。 单机型数据库、存算分离性、集中式数据库和分布式数据库特点 分类 应用介质 数据存储 应用场景 单机型 单机PC服务器,小型机,或⼤型机 本地硬盘 小规模企业 存算分离型 多个PC服务器,小型机,⼤型机 ⾼速⽹络技术,整合存储外挂,磁盘阵列,分布式存储 中等规模数据应用 集中式数据库 多个PC服务器,小型机,⼤型机 共享磁盘,磁盘阵列,全局资源管理 数据是共享,主要用在企业级核⼼业务,满⾜⾼可用和性能要求 分布式数据库 多台服务器 ⽆共享架构(SharedNothing),不对其中的磁盘和内存进⾏实时同步 数据是分散存储的,面向互联⽹、电商等业务场景,关注点在于横向扩展能⼒、 ⾼可用和性能要求 单机数据库即是传统意义上的数据库,又称为完全共享型(SharedEverything)数据库。数据库管理软件部署于单台服务器上(PC服务器,小型机,⼤型机等),使用本地磁盘存放数据。 存算分离型数据库是指数据库管理软件依旧部署到单台服务器上,但是存储部分利用⾼速⽹络技术,将存储外挂,利用磁盘阵列,分布式存储等设备将单台服务器的有限存储进⾏拓展。 集中式数据库是指采用集中式架构,将数据存储在⼤型主机或小型机上进⾏集中管理,其操作系统,中间件,数据库等“基础软件”多为闭源商用系统,典型的 集中式架构是IOE(IBM,Oracle,EMC)提供的计算设备、数据库技术和存储设备共同组成的系统,同时也是目前银⾏、电信等⾏业的主流应用模式。 分布式数据库是由若⼲个节点集合⽽成,它们通过⽹络联接在⼀起,每个节点都是⼀个独立的数据库系统,它们都拥有各自的数据库、中央处理机、存储,以及各自的局部数据库管理系统。分布式数据库具有⾼可用、⾼可靠、可扩展的特性,在Google、Amazon、Facebook、阿里巴巴、腾讯等互联⽹公司⼴泛应用。随着数据量⼤幅增长以及⾼并发环境下 对数据处理能⼒的要求越来越⾼,分布式数据库也逐渐被⾦融⾏业关注和应用。 集中式数据库vs分布式数据库 集中式数据库分布式数据库 定义仅在⼀个位置上 储存、定位和维护的数据库 分布于计算机⽹络且逻辑上统⼀的数据库 可扩展性扩容弹性 横向扩展受限,支持纵向扩展支持横向扩展 ⼤变更需停机快速迭代、小时级投产、分钟级在线扩容 成本 兼容性 ⾼并发能⼒ 扩展需要⾼配置硬件,集中式存储系统成本较⾼ ⽆法进⾏非结构化⼤数据处理,硬件 兼容能⼒弱 可以支持单表千万级数据量的存储,但是难以支撑密集的并发读写,存在容量与性能瓶颈 利用廉价PCServer组建集群,成本相对较低,但Server数量需求较多 支持非结构化⼤数据处理,硬件兼容能⼒强 关联多个节点,减少单个节点数据量;实现并⾏计算,支持PB级数据量访 问,以及百万级⾼并发 事务性 遵循ACID遵循CAP、BASE,少数提供ACID能 ⼒ 自治性集中式控制、厂商标准、封闭局部DBMS自治性、产业标准、开放 可用性系统监控与发布部署有架构优势容灾机制和故障恢复有架构优势 集中式与分布式数据库各有优缺点。近年来、分布式数据库架构发展比较迅速,首选,在经济性⽅面,分布式架构通常能够更有效地利用计算资源,通过⽔平扩展来降低成本,⽽集中式数据库往往需要昂贵的硬件和基础设施来支持其运 ⾏;其次,在安全自主性⽅面,分布式数据库往往设计有更严格的权限控制和数据隔离机制,能够更好地保护用户数据的安全和隐私;此外,分布式架构在灵活性和可伸缩性⽅面也具有显著优势, 能够轻松应对不断变化的业务需求和数 据量增长。虽然集中式架构在可维护性和⼀致性⽅面可能更具优势,但分布式系统通过采用先进的分布式中间件和运维平台,也可以达到甚⾄超过集中式数据库的性能和可靠性⽔平。分布式中间件可以帮助管理和协调分布式系统中的各个节点,提供统⼀的服务接⼝和数据处理能⼒,从⽽简化开发和运维的复杂性。同时,运维平台可以对分布式系统进⾏全面的监控和管理,确保系统的稳定性和⾼效运⾏。 云数据库是指被优化或部署到⼀个虚拟计算环境中的数据库,可以实现按需付费、按需扩展、⾼可用性以及存储整合等优势,其本质是将各类数据库技术与云平台技术结合,通过虚拟化、容器化或者裸⾦属等⽅式将数据库进⾏云化管理,以服务的形式对用户进⾏交付,⽽非传统的License交付。云数据库不仅提供WEB界面进⾏配置、操作数据库实例,还提供可靠的数据备份和恢复、完备的安全管理、完善的监控、轻松扩展等功能支持。相对于用户自建数据库,云数据库具有更经济、更专业、更⾼效、更可靠、简单易用等特点,使用户能更专注于核⼼业务。 数据库不同分类维度之间,可以互有交叉。⼀个数据库产品可同时是“关系型-决策型-分布式”,如Greenplum数据库、 DMMPP数据库等。同⼀个分类维度之间也不是“非⿊即白”,存在“跨界”产品。如混合事务-分析处理数据库(HTAP)同时具备事务型数据库和分析型数据库的能⼒,多类型数据库是可同时管理关系型、键值型、⽂档型等模型的数据库。 由于中国数据库产品呈现以关系型为主,非关系型数据库为辅的局面,关系型数据库在中国数据库总体市场中的占比超过60%,成为中国数据库创新发展的“主战场”,本报告的分析集中于关系型数据库领域。 云数据库特点 弹性拓展 ⾼可用可信赖 灵活可定制 •云数据库可弹性扩展,快速提供存储和 计算资源,适应业务增长,⽆需⼤量⼈ ⼒和硬件投⼊ •云数据库具备⾼可用和可靠性,通过分布式架构和冗余备份,确保故障时的数据安全和系统可用性,保障业务连