行业研究|深度报告 看好(维持) 国产数据库百花齐放,搜索引擎数据库风口已至 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2022年11月22日 核心观点 数据库是信创基础软件的重要部分,国产搜索引擎数据库关注度处于低位。近年 来,中央出台多项信创相关政策,大力支持信创产业持续发展,努力实现国产替代。数据库作为信息系统的核心和信创基础软件的重要部分,将迎来重大发展机遇。在数据量的爆炸式增长浪潮中,非结构化数据占据了总数据量的大部分,搜索引擎数据库作为非结构化大数据处理分析领域中重要软件,伴随着搜索引擎系统的发展也逐渐发展起来。与国外多年的研究与技术积累相比,国内对于搜索引擎数据 库的关注度较低。2022年11月17日,中国信通院组织召开了“搜索型数据库”技术研讨会,讨论了搜索型数据库的市场前景、技术趋势、应用场景、发展态势等议题,搜索型数据库的数据安全问题日益受到业界的关注,标志着我国对搜索引擎数据库领域的国产替代关注度将逐渐提升。 数据库市场规模持续增长,国产数据库竞争日趋激烈,搜索引擎数据库空间广阔。据Gartner报告,2021年全球数据库管理系统市场接近800亿美元,其中关系型数据库占比达到80%,是全球数据库的主流。据中国信通院预测,我国数据库市场规 模2025年将达到688亿元,增长迅速。在信创热潮推动下,国产数据库产品不断涌现,竞争日趋激烈,多模、分布式和数据安全将成为未来数据库技术的发展重点。搜索引擎数据库目前在国内仍缺少关注,应用广泛的产品仍是Elasticsearch,国产替代产品较少。但近年来Elasticsearch安全事件频发,对我国的数据安全和信息安全带来了严重隐患,搜索引擎数据库的国产替代迫在眉睫。国家不断出台大数据、数据库领域相关的国产替代推进政策,搜索引擎数据库未来具有广阔的市场前景。我们预计到2025年中国搜索引擎数据库市场将达到32亿元。 国内主要的搜索引擎数据库厂商包括拓尔思和星环科技。从全球范围来看,国外搜 索引擎数据库发展较早,Elasticsearch是目前搜索引擎数据库领域的龙头产品,国内较少有厂商针对这一领域进行布局,主要国产搜索引擎数据库厂商有拓尔思和星环科技。拓尔思作为国内中文搜索引擎技术的开创者,在成立初期就推出了全文检索系统TRSDatabaseServer,后面演进成为从内核到系统完全国产自研的海贝大数据管理系统。基于公司优势的自然语言处理技术,实现了非结构化数据一体化的搜索引擎。海贝实现了对国内主流信创厂商相关产品的全面兼容适配,是信创国产替代的重要一环。星环科技基于底层Lucene框架自主研发了Scope搜索引擎,具有比Elasticsearch更高的可扩展性和稳定性,是公司旗下大数据软件平台TDH中的重要模块产品之一。公司提供从Elasticsearch平滑迁移到Scope的方案,保障国产替代顺利进行。 投资建议与投资标的 我们认为,未来几年是搜索引擎数据库快速发展并且在多个领域逐步实现国产替代的关键时点,各数据库厂商也会加大在搜索引擎数据库领域的投入,已经具有搜索引擎数据库产品能力的厂商有望获得更大的市场机遇。建议关注拓尔思(300229,未评级)、星环科技-U(688031,未评级)。 风险提示 国产替代不及预期、政策落地不及预期、行业竞争加剧风险、假设条件变化影响测算结果 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 谢忱xiechen@orientsec.com.cn 执业证书编号:S0860522090004 杜云飞duyunfei@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、数据库是信创基础软件重要部分5 1.1数据库的定义、分类与发展5 1.2搜索引擎数据库简介7 二、搜索引擎数据库进入发展期,有望迎来快速增长9 2.1数据库市场方兴未艾,关系型数据库仍为主流9 2.2数据库厂商竞争日趋激烈11 2.3信创加速数据库国产替代,搜索引擎数据库空间广阔14 三、典型搜索引擎数据库产品16 3.1国外厂商16 3.1.1Elastic:搜索引擎数据库领域龙头16 3.1.2Solr:企业级开源搜索平台18 3.2国内厂商19 3.2.1拓尔思:以自然语言处理为核心的非结构化大数据搜索19 3.2.2星环科技:国产大数据基础软件领导者21 风险提示23 图表目录 图1:数据库系统架构5 图2:数据库行业发展历程7 图3:国产数据库发展历程7 图4:搜索引擎系统架构8 图5:搜索引擎和搜索引擎数据库8 图6:搜索引擎数据库发展历程8 图7:我国数据库产品分布情况(截至2022年11月)9 图8:全球数据库流行度占比情况(截至2022年11月)9 图9:DB-Engines全球数据库排名TOP10(2022年11月)10 图10:墨天轮国产数据库排名TOP10(2022年11月)10 图11:全球数据库管理系统市场规模及增速10 图12:全球非关系型数据库管理系统市场规模及增速10 图13:2021H2中国关系型数据库市场份额(本地部署模式)11 图14:2020-2025年中国数据库市场规模11 图15:2021年中国数据库市场行业分布(按照销售额)11 图16:金融业各类型系统使用我国数据库产品的机构占比(截至2021年)11 图17:Gartner数据库管理系统市场份额变化趋势12 图18:墨天轮中国数据库流行度变化情况12 图19:DB-Engines搜索引擎数据库厂商得分变化情况13 图20:多模数据库实现一库多用13 图21:Elasticsearch机器学习模块的异常值检测功能14 图22:openGauss全密态等值查询14 图23:ChinaSQL共识算法机制14 图24:信创带来国产数据库的需求增长14 图25:DB-Engines搜索引擎数据库排名TOP10(截至2022年11月)17 图26:Elastic公司产品栈17 图27:ElasticCloud订阅制定价17 图28:Elastic营业收入及增速情况18 图29:Elastic营业收入分布情况18 图30:Solr产品架构图18 图31:拓尔思发展历程20 图32:拓尔思大数据平台底座20 图33:海贝大数据管理系统与Elasticsearch性能对比21 图34:星环科技大数据基础平台TDH体系21 图35:星环科技Scope产品架构22 图36:Scope和Elasticsearch性能对比(数字为倍数)22 表1:国家信创相关支持政策5 表2:关系型数据库和非关系型数据库的区别6 表3:国家针对不同行业的数据库建设相关政策15 表4:2025年全球及中国数据库市场规模测算16 表5:Solr和Elasticsearch对比19 表1:国家信创相关支持政策 一、数据库是信创基础软件重要部分 1.1数据库的定义、分类与发展 数据库是信创基础软件的重要部分,是信息系统的核心。我国信息技术软硬件底层标准、架构、产品、以及生态体系被外国把控,这些上游核心技术遭遇美国“卡脖子”严重影响了我国关键科技和产业的发展。近年来,中央出台多项信创相关的支持政策、指导意见,大力支持信创产业持续发展,努力实现国产替代。数据库作为信息系统的核心,在计算机中承担着承上启下的重要作用,向下调用硬件基础资源,向上是各种应用软件的重要支撑引擎。随着我国数据经济的快速发展,数据量的快速提升,作为信创基础软件重要环节的国产数据库将迎来重大机遇。 时间 政策名称 相关内容 2022年8月 《数字中国发展报告 (2021年)》 加强数字技术自主创新,实现高水平自立自强;夯实数字基础设施根基,打通信息“大动脉”;做强做优做大数字经济,释放高质量发展动力;提高数字政府建设水平,增强管理服务效能;完善数字安全和治理体系,营造健康安全的发展环境 2022年1月 《关于促进云网融合加快中小城市信息基础设施建设的通知》 加快推进中小城市网络基础设施升级和应用基础设施按需部署,强化云网融合、产业协同、城际联动,着力提升中小城市信息基础设施水平,弥合区域数字鸿沟,增强城市治理能力 2022年1月 《“十四五”数字经济发展规划》 加强数字基础设施建设,完善数字经济治理体系,协同推进数字产业化和产业数字化,赋能传统产业转型升级。优化升级数字基础设施,大力推进产业数字化转型,持续提升公共服务数字化水平,健全完善数字经济治理体系。着力强化数字经济安全体系,有效拓展数字经济国际合作 2021年11月 《“十四五”软件和信息技术服务业发展规划》 深入实施国家软件发展战略,强化国家软件重大工程引领作用,提高产业链供应链现代化水平,壮大信息技术应用创新体系,全面推进重点领域产业化规模化应用。推动软件产业链升级,提升产业基础保障水平,强化产业创新发展能力,激发数字化发展新需求,完善协同共享产业生态 2020年8月 《关于新时期促进集成电路产业和软件产业高质量发展若干政策的通知》 出台财税、投融资、研究开发、进出口、人才、知识产权、市场应用、国际合作等八个方面政策措施。进一步创新体制机制,鼓励集成电路产业和软件产业发展,大力培育集成电路领域和软件领域企业。加强集成电路和软件专业建设,加快推进集成电路一级学科设置,支持产教融合发展 数据来源:国家公告,众诚智库,东方证券研究所 通常意义上的数据库即指数据库系统(DatabaseSystem,简称DBS),由数据库、数据库管 理系统、应用程序、管理员四部分组成。数据库是指长期存储在计算机内,有组织的、可共享的 大量数据集合,包括数字、文字、图像、音频、视频等数据形式。数据库管理系统(DatabaseManagementSystem,简称DBMS)是位于用户和操作系统之间的一层数据管理软件,负责对数据进行组织和存储管理,以及获取和维护数据。应用程序是为了提高数据库系统管理能力的软件补充,并可以使数据管理过程更加直观和友好,它负责连接、访问和管理DBMS中存储的数据,允许用户进行增删改减。管理员主要职责是运维和管理数据库管理系统。其中,DBMS是数据库系统的基础和核心。 图1:数据库系统架构 数据来源:艾瑞咨询,东方证券研究所 数据库管理系统作为能够使用户定义、创建、维护和控制访问数据库的软件系统,其数据结构和技术架构不断发展,呈现关系型数据库和非关系型数据库并存、集中式与分布式并存的技术现状。 1)按数据结构分为关系型和非关系型:关系型数据库又称为SQL数据库,它建立在关系模型基础上,取代了层次模型和网络模型,以行和列的形式存储数据,以便于用户理解。常见的Oracle、MySQL等数据库均为关系型数据库。非关系型数据库也称作NoSQL数据库,采用不同于关系数据“行列”组织的数据模型,数据结构类型复杂,是对传统关系型数据库的拓展与补充。搜索引擎数据库就属于非关系型数据库。 2)按技术架构分为集中式与分布式:集中式数据库指将数据集中在一台机器上进行处理的数据库,分布式则可以通过多个中小机型联机来实现大型集中数据库类似的性能。随着数据量的增长以及高并发读写需求的提升,由于集中式数据库的横向扩展能力受根本性的架构限制, 难以满足业务瞬时高峰性能。因此,采用了分布式计算等新技术的分布式数据库通过将大规模负载分散到多个节点上,满足了计算量大、数据量大、读取数据和运算数据更快的需求,相较于集中式数据库具有更好的可扩展性。 表2:关系型数据库和非关系型数据库的区别 关系型数据库 非关系型数据库 存储方式 以行和列构成二维表格。表格之间存在联系,方便查询 数据