数据库是信息系统核心,是中美科技博弈重要阵地:数据库就像人的“记忆系统”,用于存储、调取数据,是信息系统的核心组成。数据库承载着信息系统重要数据,在信息系统中处于承上启下位置,如果中美科技博弈加剧,数据库可能成为重要角力点。随着西方各国相继宣布制裁俄罗斯,Oracle、Microsoft等西方数据库厂商暂停俄罗斯的数据库相关服务,以数据库为基底的所有上层应用包括交通、金融、制造甚至国防都受到了影响。 全球数据库市场高增速、高壁垒、高毛利,内部变革正在改变市场格局:根据Statista数据,2021年全球数据库市场规模为800亿美元,同比增长23%,市场空间庞大,增速较快。数据库产品具有较高的技术和生态壁垒,2021年,全球前六家数据库厂商营收市场份额高达81%,呈现寡头垄断格局。数据库产品较为标准,毛利润丰厚,全球数据库巨头Oracle数据库产品毛利率长期维持在80%以上,净利率30%以上。全球数据库市场正在经历从本地部署到云部署,从License收费到按需收费,从数据库到湖仓一体等多方面变革。以Oracle为代表的传统数据库巨头市场份额逐步减少,微软、亚马逊和谷歌等云厂商以及Snowflake、MongoDB等新兴厂商快速崛起。 信创加快数据库国产化进程,最终格局有望收敛:除全球市场变革导致的格局变动为国内数据库厂商带来赶超海外厂商机遇外,信创对数据库替换有明确强制要求,势必会加快数据库的国产化进程。2020年中国国产数据库市场占有率为47%,在信创目标下,国产化率将快速提升,我们测算2027年国产数据库市场规模有望达到520亿元。数据库产品技术、生态壁垒较高,头部厂商有望强者愈强,国产数据库市场份额将会逐步集中。我们认为CEC、CETC、华为等几大信创阵营均在数据库领域具备技术和生态优势,有望最终脱颖而出。 国产数据库细分市场各有千秋,细分龙头将各自突围:数据库细分市场较多,每个细分市场已经出现国产数据库寡头,随着国产数据库市场份额逐步收敛,各个细分行业国产数据库寡头强者愈强。海量数据深耕集中式数据库市场,基于华为openGauss路线,受益于华为鲲鹏生态崛起。 达梦数据是传统数据库厂商龙头,技术自主性高,背靠信创国家队CEC。 人大金仓是唯一国有控股数据库厂商,党政市占率第一,背靠信创国家队CETC。神舟通用深耕航空航天领域,背靠航天科技集团。万里开源聚焦MySQL路线,国内最主要的MySQL技术开源分支之一。星环科技大数据平台产品国内领先,自主研发,是国产分布式OLAP市场领军者。 投资建议:数据库是三大基础软件中市场规模最大,增速最快,也是最难替换的环节,市场空间弹性较大。目前,国产数据库厂商数量较多,我们预计未来国产数据库厂商数量将会收敛,市场份额会进一步向头部厂商聚集。推荐国产数据库厂商海量数据,中国软件(达梦数据),太极股份(人大金仓);建议关注星环科技,创意信息(万里开源)。 风险提示:政策推进不及预期;技术研发不及预期;市场竞争加剧。 1.数据库是信息系统的核心 1.1.数据库的定义及分类 广义的数据库通常指数据库系统(DBS),其包含数据库与数据库管理系统两部分。 数据库是存储在计算机内、有组织的可共享数据集合,数据库管理系统(DBMS)是一种操纵和管理数据库的大型软件,用于建立、使用和维护数据库。数据库系统向上通过数据库管理系统支撑应用引擎,向下以数据库承接文本、图像、声音等数据源,调动计算、网络、存储等基础资源。 图1:数据库处于IT架构的核心位置 数据库产品有多种分类方式,按照主流的分类方式有五种:1)按照数据结构分类,可分为关系型数据库(SQL)和非关系型数据库(NoSQL),以及新出现的NewSQL新型数据库。2)按照技术架构分类,分为集中式数据库和分布式数据库。3)按照部属模式分类可分为云数据库和本地数据库。4)按照商业模式分类可分为开源和非开源数据库。5)按照处理场景分类,可分为OLTP、OLAP和HTAP。 图2:数据库分类 1.1.1.数据结构:关系与非关系型并存 SQL关系型数据库数据具备二元关系,是目前主流数据库。数据存储在一个或多个由列和行构成的关系表中,用户可以轻松查看和理解不同数据结构之间的关系。关系型数据库的优点是具有较强的事务一致性,因此适用于一致性要求比较高的场景。据Gartner统计,2020年关系型数据库全球市场占比83.3%,大部分流行的数据库如Oracle、MySQL、MicrosoftSQLServer等都为关系型数据库。 NoSQL非关系型数据库指不以表格格式储存数据的数据库。NoSQL数据库的类型因数据模型而异,主要类型包括文档、键值、宽列和图形等。相较于关系型数据库,NoSQL数据库的扩展性和并发读写性能更高,适合像微博,Facebook等对并发读写能力要求极高的应用。根据具体的存储方式,非关系型数据库可进一步分为键值存储数据库、图形数据库、时序数据库等。 表1:几种常见的非关系型数据库 NewSQL是整合了关系型数据库和非关系型数据库的新型数据库。NewSQL能在获得SQL的强一致性、事务支持的同时,获得NoSQL的可扩展性及可靠性。NewSQL并非颠覆式的创新,而是将业界和学术界已有的技术集中到一个架构内。大多数NewSQL采用了OLTP/OLAP的混合架构载的全新设计。企业采用NewSQL数据库需要较高的硬件和学习成本,且需要承担产品不成熟带来的未知风险。 1.1.2.技术架构:集中式向分布式过渡 集中式数据库是指将数据集中在一台机器上进行处理的数据库。集中式数据库的架构共享所有计算资源(CPU、RAM、Disk)和数据,按共享模式可分为一主多备模式,一写多读模式和多写多读模式。集中式数据库的造价相对较低,整个数据都存储在一个位置,容易对于数据进行管理和修改,且提供了完整而统一的结构,十分适合于党政机关等数据量不大且对成本相较敏感的行业。 分布式数据库指通过小型机联接,实现多台机器数据库互通的数据库。相较于集中式数据库,分布式数据的每台服务器可以独立工作,轻松支持扩展。由于数据已经分散在不同的物理位置,数据量过大时读取速度也不会受影响。但是分布式数据库也存在造价较高,数据的管理和修改较困难等缺点。分布式数据库主要应用于电商、社交等产生海量数据且对读取速度要求较高的行业。 图3:集中式与分布式数据库图例 集中式架构向分布式架构过渡。集中式数据库发展较早,是企业的最初选择,它可以利用位于系统中心的服务器统一管理所有的共享资源。但是近些年由于云计算的发展,降低了分布式数据库的成本,也大大的优化了对数据的管理性和修改性,出现了部分使用集中式数据库的厂商由于业务需要开始向分布式数据库过渡的趋势。但分布式和集中式架构仍有各自适用的场景,两者并不是替代与被替代的关系。 1.1.3.部属模式:本地与云数据混合部署 本地数据库是指搭建和运行在客户本地机器的数据库。因为在应用程序和服务器之间没有网络传输,本地数据库可以提供最快的响应时间。本地数据库由于部署模式的特性,读取安全性有很大的保障。但是由于需要购买服务器和搭建数据库,本地数据库在成本和部署难度上更高。 云数据库是将数据存放在云端的数据库。它增强了数据库的存储能力,在成本、可用性、易用性、扩展性和并行处理方面较传统的本地数据库有较大优势。根据服务对象范围的不同,最常见的部属模式是公有云和私有云。在公有云中,所有软硬件和其他支持性基础结构均为云提供商所拥有和管理。私有云则是由用户自己建立和运维云计算平台,专供内部人员使用。 本地和云数据库混合部署成为主流趋势。现阶段绝大部分企业都具有一定的IT基础,业务数据都存储在本地自建的数据库里,短时间内让企业放弃原本投入了大量成本的本地数据库,把多年累积的数据全面迁移上云的成本过于高昂。因此现在大部分企业会根据自身发展,采取本地与云数据混合的部属模式,以达到数据库读取快速、存储安全和易用性之间的平衡。 1.1.4.商业模式:开源向商业转型 开源数据库是免费的社区数据库。开源数据库源代码对外开放,开发人员可以在其原始设计基础上修改或使用,避免了高昂的授权和服务费用,但在易用性和数据安全方面存在一定的缺陷。当今开源数据库应用的开源许可协议主要包括两派:一派不允许修改代码后闭源(如MySQL;H2Database等);另一派允许修改代码后闭源(如TiDB; PostgreSQL等)。 商业数据库是由商业企业开发和维护,通过授权和订阅使用的数据库。商业数据库拥有稳定成熟的供应商提供产品支持、补丁和升级,数据安全也更有保障。近年来由于云数据库托管服务的扩张,云厂商提供托管服务,将服务器、数据库维护升级、人力运维等底层工作包揽过来,为企业提供较高性价比的解决方案,使得越来越多的企业客户流向了云服务商业数据库。 图4:开源数据库VS商业数据库 1.1.5.处理场景:分析型数据库占比逐步提升 按处理场景不同,数据库又可分为操作型(OLTP)、分析型(OLAP)和混合型(HTAP)数据库。 表2:关系型数据库分类 1.2.数据库发展历程 国外数据库产业的发展历程可以分为三个阶段:早期的网状和层次数据库阶段、关系型数据库阶段、多元化数据库阶段: 第一阶段(1960-1970)始于网状数据库IDS的发明。网状数据结构用有向图的结构表示了实体类型及实体间联系,它诞生解决了层次结构无法建模复杂的数据关系的建模问题。第一阶段的DBMS虽然实现了数据和程序的分离,但缺少被广泛接受的理论基础,也不方便使用,所以数据库仍需完善理论,从而规模化应用落地。 第二阶段(1970-2008)由关系模型的提出开启,解决了网状数据库数据独立性差和储存结构过于复杂的问题。1970年IBM公司在开发出结构化查询语言(SQL)后发布了SystemR,由此开启了关系数据库时代。此后相当长的一段时间内,不论是微机、小型机还是大型机,不论是哪种数据库系统,都采用SQL作为数据存取语言。 第三阶段(2008-至今)的开始是由于数据量的暴增和数据形态的进一步多样化。 由于数据的多样化,一部分数据库走向分布式、多模处理、存算分离的方向演进。随着NoSQL等技术的逐步扩展,非结构化、分布式、HTAP、云原生、人工智能等技术显著的改变了数据库技术的发展。目前全球数据库产业正处于第三阶段的发展周期中。 中国数据库行业起步较晚,但发展迅速。受国内信息化产业整体发展较晚的影响,中国错过了全球数据库发展的第一阶段。在第二阶段中后期,国外成熟的商业数据库产品直接进入我国市场,并占据了市场主导地位。而随着数据库产业发展进入第三阶段,中国的数据库行业正在迅速发展,并逐步跟上国外发展水平。 图5:中外数据库发展历程 1.3.数据库未来的发展趋势 趋势一:多场景融合,结构化与非结构化并存。随着业务量的增加和业务种类的变化,对数据库读写性能、吞吐量、一致性等方面的要求各有不同。HTAP/NewSQL数据库、混合架构数据库等满足了企业简单化一体化的需求,并存融合了两种结构化与非结构化架构的优势,因此在多场景大背景下的“融合”是不容忽视的趋势。 图6:多场景融合趋势 趋势二:云数据库托管,AI智能化。随着企业业务规模的扩张,企业部署多套数据库系统,系统间缺少统一的管理平台,对于复杂海量的数据进行手动调优也变得困难。 云数据服务可以将IT基础资源以云服务化的方式提供给数据库,以及多租户和动态调整来解决成本和响应问题。人工智能化可以弥补人能力的不足,例如解决资源的调度、索引的设计和优化等。 图7:数据库的发展趋势 2.数据库全球市场增长迅速,内部变革风起云涌 2.1.全球数据库市场高增速、高壁垒、高毛利 全球数据库市场庞大,增长迅速。根据Statista数据,2021年全球数据库市场规模为800亿美元,同比增长23%,市场空间庞大。全球数据库市场快速增长主要系全球数据量保持高速增长,同时人们对数据的挖掘、使用需求越来越高。 图8:2017-202