您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:大数据系列专题(2):国产数据库百花齐放,崛起正当时 - 发现报告
当前位置:首页/行业研究/报告详情/

大数据系列专题(2):国产数据库百花齐放,崛起正当时

信息技术2022-11-20熊莉、朱松国信证券石***
大数据系列专题(2):国产数据库百花齐放,崛起正当时

行业研究·深度报告 投资评级:超配(维持评级) 证券研究报告|2022年11月20日 大数据系列专题(2): 国产数据库百花齐放,崛起正当时 证券分析师:熊莉xiongli1@guosen.com.cnS0980519030002 证券分析师:朱松zhusong@guosen.com.cnS0980520070001 联系人:黄浩峻huanghaojun@guosen.com.cn 数据库是计算机系统的三大基础软件之一。数据库管理系统是“按照数据结构来组织、存储和管理数据的仓库”,是信息化时代、大数据时代中各行各业不可或缺的重要基础软件。不同类别的数据库适用于不同的应用场景,常见的数据库分类方式:1)按数据模型划分,可分为关系型数据库、非关系型数据库(NoSQL,包括键值型、文档型、图、对象型等);2)按应用场景划分,可分为OLTP事务型数据库、OLAP分析型数据库、HTAP混合型数据库;3)按架构模型划分,可分为集中式数据库和分布式数据库;4)按部署模式划分,可分为本地数据库和云数据库。 数据平台从BI向AI过渡。数据平台主要是指数据分析平台,其分析内部和外部其它系统生成的各种原始数据,对这些数据进行各种分析挖掘以生成衍生数据,从而支持企业进行数据驱动的决策。整个数据平台的发展来看,就是随着企业信息化和数字化的逐渐推进,从数据库,数据仓库,数据湖到数据湖仓逐渐演进的。 国内数据库市场广阔,未来将逐步走向集中。目前根据信通院的统计数据,2020年国内的数据库规模为240.9亿元,占全球数据库市场规模的比例为5.2%,未来到2025年的时候,国内的数据库规模将占到全球数据库规模的12.5%。目前国内的数据库市场呈现百花齐放状态,主要分为国内厂商和海外厂商两大类,其中国内数据库厂商主要包括传厂商、初创厂商、云厂商以及跨界厂商,海外厂商,主要包括Oracle、IBM及云厂商。目前,国产市场目前处于跑马圈地状态,未来竞争格局有望走向集中,观测的指标有人员数量、产品性能、服务质量和兼容性。 国内数据库呈现4大发展趋势。趋势主要分为:1)国产化,一方面政策环境较为友好,尤其是对核心技术领域的支持政策较多,另一方面我国的数据库开发水平逐步提升,国内厂商的市场分额从2007年的不足5%到2020年的48%,取得了较大进展;2)开源数据库,目前国内主流的产品都已经开源,如PingCAP的TiDB产品、百度的ApacheDoris、华为的openGauss产品等都已开源;3)数据库云化,随着云计算基础设施的完善,越来越多的数据库服务在云端提供,从海外数据库厂商的份额变化可以得到佐证;4)多模数据库,面对日益丰富的数据类型,在一个数据库里面实现多模型数据的存储和管理,即多模数据库,在业内得到广泛讨论。 数据库相关公司梳理。数据库公司主要涉及拓尔思、星环科技、PingCAP、华为、达梦、腾讯、云和恩墨、易鲸捷、巨杉等。 风险提示:研发成果商业化转化不确定性的风险;数据库厂商恶性竞争的风险;数据库核心成员流失的风险;国产替代进度不及预期的风险。 1、什么是数据库 1.1数据库是计算机系统的三大核心基础软件之一 1.2数据库发展史:数据库与信息技术的发展相互促进 1.3数据库分类:不同类别数据库适用于不同场景 2、什么是数据平台 2.1数据平台发展史:从BI到AI,数据时代带动底层架构持续迭代 2.2数据平台分类:从数据仓库、数据湖到湖仓一体 3、数据库的竞争格局 3.1数据库市场空间广阔 3.2国内数据库市场的主要玩家 3.3国内数据库市场有望走向集中 4、数据库的未来发展趋势 4.1趋势一:国产化 4.2趋势二:开源和商业数据库并存 4.3趋势三:数据库云化 4.4趋势四:多模数据库 5、数据库相关公司梳理 5.1拓尔思:以“语义智能+”为战略,布局搜索引擎数据库赛道 5.2星环科技:是国内领先的企业级大数据基础软件开发商 5.3PingCAP:专注于企业级开源分布式数据库的公司 5.4华为GaussDB:基于openGAUSS企业级分布式关系型数据库 5.5达梦数据库:高性能数据库管理系统 5.6TDSQL:企业级分布式数据库 5.7云和恩墨:智能的数据技术提供商 5.8易鲸捷:中国分布式数据库的领军企业 5.9巨杉数据库:湖仓一体,金融级分布式数据库 1、什么是数据库 1.1数据库是计算机系统的三大核心基础软件之一 数据库是计算机系统的三大核心基础软件之一。数据是数据库中存储的基本对象,包括数字、图像、音频等形式,在进行逐级抽象后存储在数据库中,通常由数据库管理系统(DBMS)来控制,DBMS充当数据库与其用户或程序之间的接口,允许用户检索、更新和管理信息的组织和优化方式。在现实中,数据、DBMS及关联应用一起被称为数据库系统,通常简称为数据库。数据库管理系统是“按照数据结构来组织、存储和管理数据的仓库”,是信息化时代、大数据时代中各行各业不可或缺的重要基础软件。 SQL在1970年被提出,是目前关系数据库标准的结构化查询语言。SQL(StructuredQueryLanguage,结构化查询语言)是用于管理关系数据库管理系统(RDBMS),SQL的范围包括数据插入、查询、更新和删除,数据库模式创建和修改,以及数据访问控制。SQL由1970年提出,并于1986年成为美国国家标准学会(ANSI)的一项标准,在1987年成为国际标准化组织(ISO)标准,目前几乎所有的关系数据库都使用SQL编程语言来查询、操作和定义数据,进行数据访问控制。 数据库架构示意图 如何使用SQL语言查询数据库 资料来源:艾瑞咨询、国信证券经济研究所整理资料来源:CSDN、国信证券经济研究所整理 1.2数据库发展史:数据库与信息技术的发展相互促进 关系型事务数据库诞生于1970年。1970年,IBM实验室的EdgarFrankCodd发布论文奠定关系型数据库的基石;Ingres原型在1974年诞生,为后续大量基于其源码开发的PostgreSQL、Sybase、Informix和Tandem等著名产品打下坚实基础。1977年,Oracle前身SDL成立,并于1978年发布Oracle第一个版本。1986年,美国国家标准局(ANSI)数据库委员会批准SQL作为数据库语言的美国标准并公布标准SQL文本。 OLAP分析型数据库与数仓在1990年前后出现,数据湖诞生于2010年。1988年,IBM公司的研究员提出了数据仓库(DataWarehouse)新概念,数据仓库之父W.H.Inmon在1991年出版数据仓库经典作品《构建数据库仓库》,标志着数据仓库概念的确立,在1993年Codd提出了OLAP(On-LineAnalysisProcessing联机分析处理)理念,2003年Grennplum公司成立并推出MPP数仓产品,之后将其开源,再到2012年第一个云原生数仓公司Snowflake成立;谷歌自2003开始发布了关于GFS、MapReduce和BigTable三篇技术论文,Hadoop项目成立,后成为数据湖的重要组件,2010年由Pentaho的创始人兼首席技术官JamesDixon提出数据湖概念。 NoSQL兴起于移动互联网的Web2.0时代。1998年CarloStrozzi率先提出NoSQL概念,2009年MongDB正式推出了文档型数据库MongoDB1.0,在移动互联网快速发展下,带动非关系型数据库需求快速爆发。 数据库主要技术流派的发展路线 全球数据库发展历程 资料来源:中国信通院、国信证券经济研究所整理资料来源:艾瑞咨询、国信证券经济研究所整理 1.3数据库分类:不同类别数据库适用于不同场景 不同类别的数据库适用于不同的应用场景,常见的数据库分类方式如下: 按数据模型划分,可分为关系型数据库、非关系型数据库(NoSQL,包括键值型、文档型、图、对象型等); 按应用场景划分,可分为OLTP事务型数据库、OLAP分析型数据库、HTAP混合型数据库; 按架构模型划分,可分为集中式数据库和分布式数据库; 按部署模式划分,可分为本地数据库和云数据库; 数据库的分类方式 数据库的生态图谱 资料来源:沙利文、国信证券经济研究所整理资料来源:451Research、国信证券经济研究所整理 按管理数据的结构,数据库可分为关系型数据库和非关系型数据库: 关系型数据库是指采用二维表格的关系模型来组织数据的数据库库系统。关系型数据库是由二维表及其之间的联系所组成的一个数据组织。直接使用通用的SQL语言,使得操作关系型数据库非常方便,关系型数据库遵循ACID规则。 非关系型数据库是用于非关系模型来组织数据的数据库系统,如键值、列、文档、图形等。非关系型数据库在1998年被首次提出,非关系数据库试图去摆脱传统关系数据库的约束限制,比如像数据的一致性、合并内存中的数据处理以及简化数据模型。NoSQL数据库用非结构化数据的来快速存储和检索,不使用为关系数据库提供支撑的结构化数据图表,这与关系型数据库结构化数据是不同的。NoSQL数据库放宽或取消了一些ACID的规则,以达到更好的性能和更大的灵活性。NoSQL数据库认为ACID属性的要求过于严格,大多数NoSQL数据库遵循BASE原则来代替。 关系型数据库与非关系型数据库 对比关系型数据库(SQL)非关系型数据库(NoSQL) 遵循规则 ACID BASE(BasicallyAvailble-基本可用、Soft-state-软状态、Eventual Consistency-最终一致性) 代表数据库Oracle、Mysql等Redis、MongoDB、Hbase等 存储数据的格式基础类型存储格式是key-value形式、文档形式、图片形式等等,所以可以存储基础类型以及对象或者是集合等各种格式 扩展性join这样的多表查询机制的限制导致扩展性有限数据之间没有耦合性,所以非常容易水平扩展 事务对于安全性能很高的数据访问要求得以实现无事务处理或者弱事务 数据一致性支持强一致性、最终一致性等通常强调数据的最终一致性 SQL支持SQL语言,可用于复杂查询不使用SQL或者不仅仅是SQL 读写效率海量数据的高效率读写的问题无需经过sql层的解析,读写性能很高 资料来源:华为云、国信证券经济研究所整理 非关系型数据库适用于超大规模和高并发的场景。根据数据类型,可以分为键值存储数据库、列存储数据库、文档型数据库、图形数据库。随着web2.0的兴起,超大规模和高并发的社会型网络服务类型的动态网站对数据库高并发读写、可扩展性和高可用性的要求,以及对海量数据存储和访问在效率上的需求,非关系型数据库已经成为一个“互联网经济”首选方案。常见的NoSQL数据库包括键值存储数据库、列存储数据库、文档型数据库、图形数据库等 键值存储:数据被存储为键-值对(键-阵列对),键值存储是所有NoSQL数据库中最简单的数据库。典型代表:Redis、Memcached、ApacheIgnite、Riak等; 列存储:也可称为柱状存储,列式存储其中包含连续存储值数列的行的集合,所有的列可通过列式排列,它们将数据列存储在一起,而不是行。典型代表:Hbase、Cassandra、Scylla等; 文档存储:可用于管理,检索和存储文字文档的集合,将每个键与称为文档的复杂数据结构配对,文档可以包含键数组对、键值对甚至嵌套文档。典型代表:MongoDB、ApacheCouchDB、ArangoDB、Couchbase、CosmosDB、IBMDomino、MarkLogic、OrientDB等; 图形存储:这些存储关于图形、网络的信息,例如社会关系、路线图、交通链接。典型代表:Neo4J、InfoGrid、InfiniteGraph。 常见的非关系数据库类型及特点 分类代表产品典型应用场景数据模型优点限制性 键值数据库Redis、MemCahed缓存用户信息,