您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OCEANBASE]:原生分布式数据库引领数据管理技术发展趋势白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

原生分布式数据库引领数据管理技术发展趋势白皮书

2023-08-03-OCEANBASEx***
原生分布式数据库引领数据管理技术发展趋势白皮书

发展趋势 原引领生数分布据式管数理据技库术 原生分布式数据库正在成为企业核心系统升级首选 原数生据分管布理式技数术据发库展引趋领势 内容变化 原生分布式数据库引领数据管理技术 发展趋势2 Gartner研究: 如何规划最佳多云和跨云部署数据管理11 关于OceanBase17 移动互联网蓬勃发展 根据中国工业和信息化部发布的2021年前三季度通信业经济运行情况的数据显示,截至2021年9月末,三家基础电信企业的移动电话用户总数达16.4亿户。其中,5G手机终端连接数达4.45亿户,与2020年末相比净增 2.47亿户。 与此同时,中国5G网络建设步伐加快。截至9月末,移动电话基站总数达 2 969万个,同比增长5.7%,比上年末净增37.7万个。其中,4G基站总数为 586万个,占比为60.4%;5G基站总数115.9万个,占移动基站总数的12%。 此外,三家基础电信企业发展蜂窝物联网终端用户13.64亿户,比上年末净增2.29亿户,其中应用于智能制造、智慧交通、智慧公共事业的终端用户占比分别为17.5%、16.6%、22.4%,智慧公共事业终端用户同比增长25.5%,增势最为突出。 随着全球移动互联网的快速发展,不仅带来更多的终端数量,与此同时,基于移动互联网将产生诸如智慧公共事业等更加广泛的智能应用。人工智能类的非结构化数据应用(如:人脸识别等),需要强大的数据计算能力。传统基于小型机的数据库技术,难以满足存储和计算这些海量数据的要求,亟需新一代的数据处理技术来破解困局。 移动互联网的蓬勃发展不仅带来丰富的业务种类(如:手机购物、短视频、移动社交等),而且明显延长了业务服务时长(用户随时在线、随时使用),这对数据库系统的高可用提出了更加迫切的要求。 的介入或影响。如需了解Gartner调研报告的独立性和完整性的详细信息,请参阅其网站上的“独立性和目标的指导原则”。 公司或基金可能与Gartner调研报告中涉及的实体有财务利益关系。Gartner的董事会成员可能包括这些公司或基金的高级管理人员。Gartner调研报告是由其调研机构独立完成的,并没有受到这些公司、基金或其管理人员 随时可能更改,恕不另行通知。虽然Gartner调研报告可能会讨论相关的法律问题,但Gartner并不提供法律建议或法律服务,不应将其调研报告解释为或用作法律建议或法律服务。Gartner是一家上市公司,其股东拥有的 包含的信息均取自公认的可靠来源。Gartner不对此类信息的准确性、完整性或适当性作出任何保证。并且不对此类信息中的错误、遗漏或不适当承担任何责任,也不对此类信息的任何解读承担任何责任。此处表明的观点 OceanBase发布了原生分布式数据库引领数据管理技术发展趋势。由蚂蚁集团提供的编辑内容与Gartner的分析结果相互独立。Gartner的所有调研报告的版权均为Gartner,Inc.所有。©2021Gartner,Inc.保留所有权利。 所有Gartner资料在本出版物中的使用均已获得授权。使用或者出版Gartner的调研报告并不表示Gartner认可OceanBase的产品和/或策略。未经Gartner事先书面许可,不得以任何形式复制或分发本出版物。本出版物中 2 数据量爆发增长,数据挖掘需求增加 随着5G及IOT技术的发展,以人工智能、区块链、云计算、大数据、边缘计算 等代表的新型技术兴起,全球联网设备数呈稳定增长态势,万物互联成为全球网络未来发展的重要方向。 物联网的发展,将带动面向企业(toB)的产业互联网的发展,进而产生类似指数级的数据爆炸式增长。 如何存储这些数据?如何挖掘这些数据的价值?成为摆在企业IT管理者面前的一道难题。 与此同时,移动互联网的蓬勃发展带来了更多的业务种类、更长的服务时间,这些都对数据库系统的高可用性提出了更加严峻的挑战。 IT基础架构上云解决算力和存储问题 随着移动互联网的业务发展和数据量的飞速增长,企业的IT基础架构面临 更多挑战。不仅要存储这些海量数据,还要挖掘、计算出这些数据所包含的知识和隐藏的价值。 上世纪九十年代,企业的业务种类很少,数据量更少,使用传统数据库产生报表就能完成基本的数据处理和分析工作;进入二十一世纪初,互联网等业务种类开始增多,数据量逐渐攀升,开始使用数据仓库对数据进行汇聚和分析;近年来,随着企业业务与移动互联网的紧密结合,业务量和数据量迅猛增长,借助云计算架构解决存储和算力方面的问题成为明智之选。 借助云计算技术,企业的IT基础架构可以弹性伸缩地进行并行计算,在保证安全性的前提下,提供了更高的可靠性以及更低的价格。 企业数据上云成为趋势 根据Gartner统计,“数据库管理系统(DBMS)市场在2020年出现了17.1% 的强劲增长,主要是由云数据库平台即服务(dbPaaS)增长约50%所驱动。这意味着在2020年,超过90%的DBMS增长来自dbPaaS。”1Gartner还预测,“到2022年,75%的数据库将被部署或迁移到云平台,只有5%的数据库会考虑本地部署。”2 云计算好比是发电厂,在供电的发展历史中,最初每个企业自己使用发电机发电,不仅要购买柴油等燃料,还要维修发电机、变电站等设备,培养专门的发电人员等,成本居高不下。后来,发电厂诞生了,每个企业只需要拉根电线,就可以按照使用的电量进行付费,不需要再去购买设备、购买燃料,更无需考虑运维成本。 在数据计算的市场上,也将面临类似的演变过程。企业不用直接购买服务器等硬件,就可以直接使用计算资源,并根据其所使用的存储和CPU等资源的量进行付费。 云计算不仅能够帮助企业降低计算成本,根据需求随意扩展算力,借助专业人才保障数据安全,及时更新各种工具软件,而且还能更快获得计算结果。 某电信运营商的数据仓库已经收集了超过600PB容量的数据,自2010年起该运营商就展开研究和试点,将这些数据逐步迁移到云数据库平台之上。 企业数据上云,无疑是未来IT架构的主要发展趋势。 挑战 目前,在数据处理的过程中,企业正在面临诸多困境: 首先,传统数据库的扩展能力在集群节点数量等方面有很大的局限性,数据量增长之后如何扩展系统能力是一大难题;其次,数据分布在不同的业务系统中,如何打通这些数据进行整合亦是困难重重;此外,传统的数据分析工具价格偏高,且软件升级不及时,如何选择数据分析工具来提升数据分析能力是大多数企业必须面对的问题。 传统的数据(仓)库系统已经无法满足当下数据量急速增长的处理要求。例如,某运营商曾经购买知名厂商基于小型机的数据仓库产品,单点超过 10PB容量,已经达到了其在全球的传统数据仓库的最大存储容量。虽然该运营商耗费巨资,但是传统数仓的处理能力并不能保证线性增长,在处理 大量非结构化数据方面,尤其是在深度学习算法的人工智能应用方面更是无能为力。 于此可见,传统数据仓库难以满足当下企业数据处理容量不断增长的需求,同时,由于这类数据仓库系统建立在小型机的基础之上,成本远高于X86机器,不具备性价比方面的优势。 Curabituratnibh Consectetueradipiscingelittortorlacusnonummypurus 1Gartner:<市场份额分析:2020年全球数据库管理系统> 3 2Gartner:<云数据库管理系统魔力象限> 扩展能力不足 数据量增长需要相应的存储和算力支撑,因此对扩展性的要求更高。为了应对可预知的流量洪峰,企业的数据库系统需要具备扩展后再收缩的能力。 随着业务的不断发展,数据库系统也要不断扩展,及时跟上业务发展的需要。前期企业可以采用小成本投入的方式,不必准确预估业务的未来发展规模。但后期随着业务的快速发展,势必提出更多数据库设备扩展能力方面的需求。 例如:二十年前,某电信运营商的业务以2G为主,业务比较单一,数据仓库容量仅有10TB,分析形式以报表为主;引入4G后,业务范围扩展了政企对 公业务、视频内容业务、公有云业务、物联网业务等,数据容量已超800PB。该运营商应用的数据分析技术包括数据挖掘、深度学习算法等,分析内容 覆盖客户、产品、网络等领域的方方面面,因此,对大数据系统提出了迫切的扩展性要求。 传统的数据(仓)库系统,需要扩展小型机服务器,不仅成本高昂,系统扩展的瓶颈也会越发凸显,无法提供与设备和能力对应的扩展曲线。 数据孤岛 受制于传统数据库架构扩展性不足等缺陷,为了满足业务需求,企业往往需要采用多套不同类型的数据库,导致业务数据分布在众多业务系统的数据库中,彼此割裂,合并困难,形成一座座数据孤岛。 数据孤岛问题,不仅意味着数据管理困难,以及高额的维护成本,还有巨大的数据治理成本。在数据孤岛面前,各个业务部门给出的数据定义口径差异巨大,导致数据分析结果常常大相径庭,因此,企业管理者常常无法得到准确的数据分析结果。 某电信运营商构建数据仓库系统的初衷,就是为了整合各个业务系统的数据,形成企业级大数据中心,不仅要解决数据不一致的问题,通过数据各个维度整合更要发挥数据分析的显著价值。例如:财务系统计算某个宽带产品的收入,与计费系统计算该宽带产品的收入情况对不上,根本原因是两者的定义口径不一致。数据整合之后,口径统一,计算时段相同,其计算结果就能达成一致,降低了企业管理方面的数据困惑。 分析能力欠缺 随着数据量的快速增加,数据分析能力显得越来越重要。对于传统的结构化 数据而言,EXCEL报表足以满足大部分人的使用需求。随着竞争的加剧,数据挖掘等分析需求显著增长。引入非结构化数据后,会对深度学习等人工智能算法提出更高的要求。 这些数据分析需求,都会对系统的算力提出更高要求。数据分析技术从传统的数据库,发展到数据仓库,进而发展到原生分布式数据库,数据处理能力也在逐步提升! 2021年10月26日,中国信通院发布的《2021-2022中国人工智能计算力发展评估报告》指出:AI与云的融合是必然趋势,预计到2025年,中国人工智能服务器公有云的占比将超过50%,预示了数据库云化的发展趋势。 向公有云迁移困难 企业在前期的信息化建设过程中,产生了很多以传统数据库为基础的各类信息化系统,涉及多个业务领域。同时,很多企业或多或少地构建了自己的传统数据(仓)库系统。这些历史形成的数据库系统,向云数据库迁移将十分困难。 虽然云服务提供数据库服务,但是对于多数企业而言,为了保证产品交付的一致性,实现灵活的管理,无法使用通用数据库,只能基于云基础自建云数据库,导致投入巨大。 另外,很多企业在向云数据库迁移的过程中,担心被单个云产品绑定,导致后期云数据库升级成本过高、工具绑定成本过高等一系列问题。 企业进行数据迁移的成本将十分巨大,不仅涉及到数据模型的重新梳理,而且涉及业务合规性、数据安全性、系统兼容性等相关问题。 从技术的角度出发,传统数据库的云迁移路线可以采用“私有云-混合云-多云”的实现路径。国内的大型企业前期一般会采用私有云的模式,保障数 据的安全性;中小企业后续会采用混合云(私有云+公有云)提升业务的扩展能力,降低系统投资的成本;最终,大部分企业会过渡到多云的环境,从而降低自身信息化成本支出,快速适应业务领域的各种变化。 从战略发展的角度来看,企业现在就需要提前考虑云服务的迁移规划,而原生分布式数据库是目前为止数据库系统理想的目标架构。 某电信运营商,历经近10年时间,才完成主要数据从数据仓库到云分布式数据库系统的迁移工作,期间涉及数据模型重塑、数据处理流程重建、业务系统改造、数据治理体系调整等各类繁杂的工作。 趋势 对企业信息系统底层的基础设施进行“云化”之后,给上层的数据库系统 带来了新的挑战和机遇,只有更好地将底层资源池化、资源解耦的优势发挥出来,才能给用户带来高可用、可拓展、弹性计算等方面的优势。 目前的云数据库大多是基于开源软件进行二次开发,企业在遇到相关产品问题时,很难获得持续的技术支持,后期的运