中国信通院 云原生数据库 白皮书 华为云计算技术有限公司 中国信息通信研究院云计算与大数据研究所 2022年8月 编委会前言 参与单位 华为云计算技术有限公司中国信息通信研究院 编写组成员 华为云计算技术有限公司:苏光牛、庄乾锋、CalvinSun、ChongChen、 ManyiLu、朱冠宇、彭立勋、屈道刚、张浩、王立、杨锐、肖永、曾庆聪、周家恩、张玉筱 中国信息通信研究院:齐丹阳、马鹏玮、刘思源、魏凯、姜春宇、闫树、 王蕴韬 随着信息技术的飞速发展以及智能终端的不断普及,全球数据量呈现爆发式增长,数据库作为支撑数据处理的核心技术需要不断创新变革。云原生数据库能够充分结合云基础设施的优势能力和特点构建数据处理和管理能力,使得企业数据管理模式迈入新台阶。高效、经济、安全成为云原生数据库受到热捧的重要原因。 本报告首先阐述了云原生数据库的发展趋势与现状,之后从云原生数据库应用场景、技术架构、关键技术以及不同场景下的生产实践详细地介绍了云原生数据库的技术模式,最后通过结合当前应用现状及问题,指明了未来云原生数据库的技术方向,力求梳理云原生数据库全流程概念及方法。白皮书由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正,意见建议请发送至qidanyang@caict.ac.cn。 版权声明 本报告版权属于华为云计算技术有限公司和中国信息通信研究院云计算与大数据研究所,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:华为云计算技术有限公司和中国信息通信研究院云计算与大数据研究所”。违反上述声明者,编者将追究其相关法律责任。 目录 一、云原生数据库概述01 (一)云原生理念的诞生02(二)云原生数据库的历史演进02 (五)结合全密态和防篡改技术,保障云上数据安全32 六、附录:典型行业客户案例34 (三)云原生数据库迈向新时代 03 电商——梦饷集团35 社交文娱——龙图游戏37 二、云原生数据库产业现状04 (一)概念源于国外,国内发展迅猛05(二)行业分布广泛,应用场景多样05(三)云原生数据库市场潜力可观09 制造——一汽红旗39金融——永安保险41 三、云原生数据库架构 10 图目录 (一)云原生数据库架构特点11(二)云原生数据库典型架构示例14 四、云原生数据库关键技术16 (一)云原生Serverless,让企业摆脱服务器的束缚17(二)多可用区强一致部署,数据访问更加可靠19 图1云原生数据库应用企业行业分布05 图2企业应用云原生数据库意愿09 图3云原生数据库整体架构11 图4云原生数据库开放架构13 图5华为云GaussDB(forMySQL)架构图14 (三)GlobalDatabase,数据全球就近访问和实时灾备20 图6传统部署与Serverless部署对比 18 (四)NDPQ近数据并行查询,充分利用每一份资源21 图7云原生Serverless技术栈依赖 19 (五)日志即数据,极大降低网络开销23 图8华为云GaussDB(forMySQL)的NDP特性架构 22 (六)云原生HTAP,海量数据分析更快、更稳、更准24 图9多线程并行查询提高查询性能方案22 (七)全局一致性读,简化应用业务逻辑 26 图10华为云GaussDB(forMySQL)写日志结构图24 (八)云原生多主技术,打破单点写入瓶颈26 五、云原生数据库技术发展趋势28 (一)内存池化,全栈解耦,追求极致的弹性伸缩29 图11华为云GaussDB(forMySQL)HTAP解决方案25图12华为云GaussDB(forMySQL)云原生多主架构27 图13内存池化示意图29 图14基于MemoryPool云原生HTAP架构图30 (二)基于内存池的HTAP,释放软硬协同的潜能 29 图15AIforDB总体框架31 (三)智能弹性,实现更细粒度、更精准的资源调度30 (四)全场景智能数据库,发挥AI与数据库的融合价值31 图16DBforAI功能模块与全流程32 云原生数据库白皮书 (一)云原生理念的诞生 一 云原生数据库概述 云原生的概念由CNCF(CloudNativeComputingFoundation,云原生计算基金会)在2015年正式提出,即:云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。 云原生的本意是指应用“生于云,长于云”,“原生”要求应用或服务从一开始就基于云架构来设计和构建。早在容器技术流行之前,Netflix这样的互联网公司就已经在实践云原生的技术和应用构建方式,云原生数据库基于这个理念应运而生。云原生数据库是指为云架构而设计和构建的数据库,云架构场景下要求有更高的扩展性、多租户、分布式部署等能力。 (二)云原生数据库的历史演进 “数据库”诞生于20世纪60年代,其随后的发展大致经历了这样几个阶段:一、网状数据库和层次数据库,它是数据库历史上的第一代产品,成功地将数据从应用程序中独立出来并进行集中管理。二、关系型数据库,这是数据库发展史上具有划时代意义的里程碑,开启了关系型数据库发展的新时代。三、NoSQL数据库,它解决了大规模数据集合和多种数据类型带来的挑战。四、分布式数据库,它把数据库同时部署在多台机器,满足日益增长的数据和业务规模。五、基于云模式提供的数据库服务即云数据库,近几年随着云基础设施的高速发展而得到蓬勃发展,并因为按需扩展、按需付费等优异特性获得中小企业及互联网客户的青睐。然而,云数据库本质上并不是针对云场景或者云环境来设计和构建的,只是用到了云的资源,因此存在一些天然的问题,比如:存储空间浪费、计算资源浪费、较大的恢复时间目标和数据滞后、系统性能受限、网络带宽消耗大等,从而限制了业务的发展。Amazon首先意识到上述问题,推出的云数据库Aurora就是为云计算时代而专门定制的一款关系型数据库。从此数据库又进入了一个崭新的阶段,云原生数据库。其目标主要是最小化网络IO,充分利用云基础设施来提升系统的可扩展性与可用性。Aurora的设计哲学是LogIsDatabase(日志即数据),对数据的更改只写日志,不刷脏页,极大地简化恢复子系统。华为云在2019年也推出了首款云原生的数据库GaussDB(forMySQL),有别于Aurora的设计思路,GaussDB(forMySQL)针对用户痛点进行了多项技术革新,对比云数据库,其优点更是相当明显。 2 云原生数据库概述 (三)云原生数据库迈向新时代 随着市场需求的升级和技术的成熟,云原生2.0的时代已经到来。企业智能升级进入新的阶段,企业云化从“ONCloud”走向“INCloud”,“以资源为中心”演进到“以应用为中心”。 以应用为中心的云原生数据库,不再是简单的资源供给,在架构和技术能力上要能感知应用特征,一切设计围绕应用出发,让应用能更智能、更高效地使用数据库,构建敏捷智能的企业数字化业务。云原生2.0应用驱动数据库从资源为中心到应用为中心,从地域为中心到流量为中心,从负载为中心到数据为中心,能够从以下方面为企业带来新的价值: 一是弹性成本。通过多层级的资源弹性以及与之匹配的多样化的计费模式,实现真正的按需使用。二是安全可靠易扩展。结合云平台的高可用和规模化能力,保障企业应用的安全运行,支撑业务快速增长。三是降低企业使用门槛。通过架构上、技术上的融合创新,让应用在架构设计、业务处理、业务切换、运维监控等方面完全透明,提升业务应用的敏捷程度,一站式数据处理,满足企业多元化需求。 3 二 云原生数据库产业现状 (一)概念源于国外,国内发展迅猛 云原生数据库起源于Amazon,随之受到国内厂商的广泛关注。以华为云、阿里云、腾讯云等为代表的头部厂商投入大量资源进行研发。仅三年左右的时间,市场已经形成较为成熟的云原生数据库应用模式并应用在不同的场景中。 根据中国信息通信研究院面向国内企业的调研,受访组织认为云原生数据库领域较有影响力的厂商和产品排名前四位的分别是华为云GaussDB、阿里云PolarDB、腾讯云TDSQL-C以及AWS的Aurora。可以看出,国产云原生数据库虽然起步较国外稍晚,但在国内的发展迅猛,影响力已逐步超过国外云原生数据库。 进入工业4.0新时代后,传统制造升级为智能制造,数据成为制造业的核心价值体现,智能制造IT系统的数据重心从支持在线交易后移到运营分析,这对于承载企业数据的核心软件——数据库系统就提出了数据实时更新、自动化、智能化及高性能等个性化业务需求,而这些特点正是云原生数据库所擅长的,从真正意义上为智能制造的发展提供数据库系统和硬件资源自动化管理的一站式解决方案。 来自泛消费类和传媒行业的占比分别是8.5%和7.5%,在云原生数据库使用场景上,这两个行业和互联网行业基本类似。 来自金融行业的占比5.9%,金融领域是使用云原生数据库的另一个重要场景。近年来,随着互联网经济的发展和金融行业数字化转型的不断推进,金融应用系统面临处理海量数据、超高并发、超高峰值等一系列挑战,促使银行等企业加快建立互联网金融核心数据库体系。采用云原生数据库,不仅能帮助金融企业平滑完成云化分布式改造,满足业务创新需求,同时还可利用云原生数据库的架构和技术优势为金融行业节约大量的运维开发成本。 (二)行业分布广泛,应用场景多样 在互联网和云计算快速发展的时代背景下,各行各业对于数据库的需求在不断增加 60.0% 50.0% 40.0% 55.4% 据中国信通院调研,使用云原生数据库的企业2021年在数据库上投入的资金从50万左右到 500万以上不等,企业人数从10到10万人以上均有,以上可以看出云原生数据库适用于不同规模的企业。其智能运维、性能优越的特性受到大型企业的追捧;其弹性伸缩、按需计费的特性也使得小型企业能够按需使用,降低运营成本。 和变化,随着这些新的需求越来越广泛地被 提出,用户意识到,采用传统单一的数据库 30.0% 20.0% 尚未使用云原生数据库的企业中,25%以上的企业是由于对于云原生数据库不够了解。相关 来应对各类场景的时代已经过去,数据库需 10.0% 11.3%8.5% 7.5%5.9%4.1%7.3% 技术企业在完善云原生数据库产品的同时仍需在宣传方面加大投入力度,使得云原生数据库获得 0.0% 要从多方位实现资源规格的灵活控制、应用 ο㖁㑾ᮧ㘪ݣ䕍∈⊵䉦ㆨэ྿͇䛾㲺͇ႄᩬᏉڣЃ 更多的市场认可。 的多模、更优的弹性扩展能力、更好的成本控制方式等。 *来源:中国信息通信研究院 图1云原生数据库应用企业行业分布 -典型业务需求场景 云原生数据库的应用场景广泛,使用方式多样。信通院对云数据库的使用者进行调研后发现, 云原生数据库的使用者行业分布广泛,其中来自互联网行业的占比55.4%,这里面包含了互联网电商、社交文娱、计算机软件、信息技术服务等多个细分行业。互联网一直是走在信息化前沿的行业,也是率先使用云原生数据库的领域。互联网的主要特点有:业务快速更新迭代、应用场景变化多样、重视企业运营成本。因此,企业在进行选型时较看重云原生数据库的扩展性、易用性和运维运营成本。 来自智能制造行业的占比11.3%,主要是已经完成或者正在进行数字化转型的大型制造企业。 (1)时效性要求高的业务 现如今,高并发且多变的业务场景对数据库的时效性要求越来越高。在日常运维方面,云原生数据库可通过控制台在几分种内就完成安装,较传统数据库的线下部署快得多,同时版本升级的时效性也远高于线下传统数据库。数据库运行期间,当业务负载比较大的时候,以业务报表查询为例,高峰时段的业务量是平时业务的十倍左右。为了满足查询效率,传统线下数据库需要堆砌更多的硬件资源,还必须预留充足的服务器,这种解决方法不仅成本高,而且扩容速度也非常慢。云原生数据库却可以快速扩容,满足业务高峰需求,很好地支持业务的快速变化。 56 在性能方面,云