您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:数据库专题系列一:挑战与机遇并存,数据库行业渐成百家争鸣之势 - 发现报告
当前位置:首页/行业研究/报告详情/

数据库专题系列一:挑战与机遇并存,数据库行业渐成百家争鸣之势

信息技术2024-09-06闻学臣、苏仪、王雪晴中泰证券�***
数据库专题系列一:挑战与机遇并存,数据库行业渐成百家争鸣之势

中泰证券研究所专业|领先|深度|诚信 |证券研究报告| 数据库专题系列一: 挑战与机遇并存,数据库行业渐成百家争鸣之势 2024.9.6 分析师:闻学臣 执业证书编号:S0740519090007 分析师:苏仪 执业证书编号:S0740520060001 研究助理:王雪晴 Email:wangxq03@zts.com.cn 摘要 从全球视角来看,目前全球数据库产品数量整体分布以非关系型及混合型数据库为主;在流行程度方面,关系型数据库占据主导地位,根据DB-engines的数据显示,Oracle、MySQL、MicrosoftSQLServer稳居前三,同时随着业务的多样化,多模数据库将成为新趋势;在市场份额方面,“云+数据库”战略成为技术发展新趋势,AWS以及微软占领市场前二。 从国内视角来看,我国数据库产品数量呈现以关系型为主,非关系型数据库为辅的局面;在流行程度方面,PolarDB、OceanBase、openGauss热度持续攀升,排名前三;在市场份额方面,国内数据库市场仍被Oracle、Microsoft等国外厂商占据较多市场份额。 挑战孕育着机遇。预计到2025年中国数据总量预计将跃居全球第一,占比有望达到27%以上,数据量的爆发式增长意味着将拉动数据库行业的需求空间。在本地部署模式下,国内关系型数据库市场格局中,海外厂商仍占据较多市场份额,在政策、新技术等因素的推动下,国内数据库厂商的市场规模及竞争力有望快速攀升。 投资建议:数据库作为计算机系统的核心基础软件,同时也是信创产业的关键环节,我们认为在政策、新技术等因素的扶持下,国内数据库产业有望持续受益。当前时点,我们持续看好国内数据库产业的投资机遇,建议关注达梦数据、星环科技、太极股份(人大金仓)。 风险提示:技术发展不及预期;行业竞争加剧风险;政策落地不及预期;研究报告使用的公开资料可能存在信息滞后或更新不及时的风险等。 目录 CONTENTSONTE 中泰所 |领先|深度 1数据库:管理数据资源的基础软件 1.1数据库系统:数据、管理/应用软件与终端用户的统称 数据库(Database,DB)数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。由数据库管理系统(DatabaseManagementSystem,DBMS)控制。DBMS能够与最终用户、应用程序和数据库本身进行交互以捕获和分析数据。广义上可将数据、数据库管理系统、应用软件以及对应的普通用户和管理用户统称为数据库系统 (DatabaseSystem,DBS)。 数据库系统DBS 图表:数据库系统结构示意 资料来源:TowardsDataScience,Collidu,中泰证券研究所 1.2数据库软件的定位:计算机系统的核心基础软件 数据库作为沟通企业应用软件和底层存储计算资源的纽带: 数据库为上层应用提供高效的数据管理和操作功能。数据库提供了易于使用的接口和查询语言,使得应用程序可以轻松地与数据库进行交互。通过数据库连接,上层应用可以实现数据的存储、查询、更新、检索和删除工作,满足应用程序对数据的需求。数据库为底层基础资源提供统一的数据访问接口。通过连接底层基础资源,数据库能够直接与存储设备、网络通信和系统资源进行交互。这种连接能力使得数据库能够有效地管理数据的物理存储,实现数据的持久性和可靠性,同时也为应用程序提供了高度的可扩展性和可定制性。 图表:数据库管理软件的功能架构 资料来源:《数据库系统概念》,中泰证券研究所 图表:数据库连接上下游资源 资料来源:信通院云计算开源产业联盟,中泰证券研究所 1.3数据库发展历史:主要分为三个阶段 数据库发展历程主要可以分为前关系型阶段、关系型阶段和后关系型阶段。 图表:数据库发展历史 资料来源:信通院,中泰证券研究所 1.3.1前关系型阶段(1960-1970):网状、层次数据库出现 为解决“阿波罗登月”计划处理庞大数据量的需求,北美航空公司(NAA)开发出GUAM(GeneralizedUpdateAccessMethod)软件。其设计思想是将多个小组件构成较大组件,最终组成完整产品。这是一种倒置树的结构,也被称之为层次结构。随后IBM加入NAA,将GUAM发展成为IMS(InformationManagementSystem)系统并发布于1968年,成为最早商品化的层次DBMS。 1963年,通用电气公司的CharlesBachman等人开发出世界上第一个数据库管理系统(以下简称DBMS)也是第一个网状DBMS——集成数据存储(IntegratedDataStore,IDS)。 图表:层次模型示意 资料来源:信通院,中泰证券研究所 图表:网状模型示意 资料来源:信通院,中泰证券研究所 1.3.2关系型数据库阶段(1970-2008):SQL成为主流语言,RDB大规模应用 1974年,Ingres原型诞生,为后续大量基于其源码开发的PostgreSQL、Sybase、Informix和Tandem等著名产品打下坚实基础。1977年,Oracle前身SDL成立。1978年,SDL发布Oracle第一个版本。 20世纪80年代,关系型数据库进入商业化时代。1980年,关系型数据库公司RTI成立并销售Ingres。1983年,IBM发布Database2(DB2)forMVS,标志DB2正式诞生。1984年,Sybase公司成立。1985年,Informix发布第一款产品。1986年,美国国家标准局(ANSI)数据库委员会批准SQL作为数据库语言的美国标准并公布标准SQL文本。 1987年,国际标准化组织(ISO)也做出了同样决定,对SQL进行标准化规范并不断更新,使得SQL成为关系型数据库的主流语言。20世纪90年代,Access、PostgreSQL和MySQL相继发布。关系型数据库理论得到了充分的完善、扩展和应用。 图表:SQL支持关系型数据库 资料来源:数据库标准语言SQL,中泰证券研究所 1.3.3后关系型阶段(2008至今):模型拓展与架构解耦并存 随着信息技术及互联网不断进步,数据量呈现爆发式增长,各行业领域对数据库技术提出了更多需求,数据模型不断丰富、技术架构逐渐解耦,一部分数据库走向分布式、多模处理、存算分离的方向演进。 为了解决大规模数据集合和多种数据类型带来的挑战,NoSQL数据库应运而生,其访问速度快,适宜处理互联网时代 容量大、多样性高、流动性强的数据。 图表:数据库模式发展历程 资料来源:CSDN,中泰证券研究所 1.4.1根据数据模型分类:关系型Vs非关系型 关系型数据库(RelationalDatabase,RDB)以预定义的关系组织数据,将数据存储在一个或多个由列和行构成的表 (tables)中,表之间通过特定的关系相互连接。截止2024年6月,全球关系型数据库共有330款,占比46%。 非关系型数据库(NotOnlySQL,NoSQL)与传统的关系型数据库不同,数据库不使用固定的表结构、主键和外键关 系,而是提供更灵活的数据模型以适应不同的应用场景。其类型包括文档数据库(DocumentStore)、键值数据库 (Key-ValueStore)、列族数据库(ColumnFamilyStore)、图数据库(GraphDatabase)等。截止2024年6月,全球非关系型数据库产品共有383款,占比54%。 图表:关系型与非关系型数据库分类 资料来源:Github,中泰证券研究所 图表:关系型与非关系型数据库占比(截止2024年6月) 54% 资料来源:CCSATC601,中泰证券研究所 1.4.1关系型数据库:依靠关系建立二维表格,满足ACID规则要求 关系型数据库以行和列的形式存储数据。关系型数据库这一系列的行和列被称为表,一组表组成了数据库。表是以行 (元组Tuple)和列(属性Attribute)的形式组织起来的数据的集合。 关系型数据库采用结构化查询语言(即SQL)来对数据库进行查询,也称SQL数据库。能够支持数据库的CRUD(增加, 查询,更新,删除)操作。强调ACID规则:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability),可以满足对事务性要求较高或者需要进行复杂数据查询的数据操作,而且可以充分满足数据库操作的高性能和操作稳定性的要求。 图表:关系型数据库的一对一关系示意 图表:关系型数据库的表(Table)示意 关系变量属性(列) 标题 值关系(表) 元组(行) 资料来源:《SQL查询:从入门到实践(第四版)》,中泰证券研究所 资料来源:Wikipedia,中泰证券研究所 1.4.1非关系型数据库:适用于大数据量场景,较灵活、易扩展 非关系型数据库(NoSQL)不保证关系数据的ACID特性,一般支持BASE原则(基本可用、最终一致性等),适用于大数据量、高性能的场景。代表性的数据库有文档数据库、键值数据库、列式数据库和图数据库四种类型,代表性的MongoDB、Redis、Cassandra和Neo4J等。 大多数非关系型数据库具有灵活的数据模型,可以轻松地处理半结构化和非结构化数据;一般设计为分布式系统,能够 处理大规模数据和高并发访问,较容易进行水平扩展。 文档数据库键值数据库列式数据库图数据库 图表:非关系型数据库分类 典型应用场景Web应用内容缓存(处理大量数据的高访问负载)分布式文件系统社交网络、推荐系统等 优势数据结构要求不严格,表结构可变,不需要像关系型数据库一样预先定义表结构。 查找速度快、可扩展性强、高性能查找速度快、可扩展性强、更容易 分布式部署 可应用图结构相关算法如最短路径寻址 缺点查询性能不高,且缺乏统一的查询语法数据无结构化功能相对局限可能需要对整个图进行计算获取信 息,不易分布式部署 代表产品MongoDBRedisCassandra,HbaseNeo4J 数据模型 资料来源:腾讯云、CSDN,中泰证券研究所 1.4.2根据业务负载特性分类:OLTP、OLAP和HTAP数据库 OLAP(On-LineAnalyticalProcessing):联机分析处理,OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。系统性能与每秒执行的Transaction以及ExecuteSQL的数量等有关。它的主要功能包括查询、分析、预测、数据挖掘等,为用户提供灵活的数据分析和快速决策支持。 OLTP(on-linetransactionprocessing):联机事务处理,传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。OLTP系统通常用于处理企业的日常交易数据,例如订单处理、库存管理、银行交易等。它的主要功能是支持事务和实时数据处理,为用户提供高效的交易处理服务。 HTAP(HybridTransactionandAnalyticalProcessing):也称混合型关系数据库,是能同时提供OLTP和OLAP支持的混合关系型数据库。 面向用户 操作人员,底层管理人员 决策人员、高级管理人员 功能 实时数据处理和高并发事务处理 复杂数据分析和决策 时间需求 实时性要求高,通常在毫秒级 时间要求不严格 空间需求 通常较小,MB到GB级 通常较大,GB到PB级 DB设计 面向应用,如银行业、零售业 面向主题,如销售、库存 DB类型 一般是关系型数据库 非关系型数据库更适用 数据 当前最新数据,一般二维存储 多维、大规模、聚合的历史数据 OLAP OLTP 图表:OLAP和OLTP的特点 资料来源:CSDN,中泰证券研究所 图表:OLTP和OLAP的差异 资料来源:SAP,中泰证券研究所 1.4.3根据架构分类:分布