出版日期 2022年7月19日 作者 布拉德利Shimmin首席分析师 现代数据分析平台 ,2022年 年代 由Informa技术 由Informa技术 总结 催化剂 随着公司继续与前所未有的市场混乱作斗争,将原始信息转化为有影响力的商业洞察力的热潮已经达到了狂热的速度。作为这些努力的核心,久经考验的真实分析数据库正在演变为能够处理从BI仪表板到机器学习 (ML)的所有内容的现代数据分析平台——所有这些都是为了保持公司运营并允许他们通过创新向前发展的目标。 图1:现代数据分析平台的Omdia宇宙 来源:Omdia Omdia视图 40多年来,数据仓库一直为企业提供良好的服务,通过查看来自众多运营业务系统的历史(主要是表格)数据流,帮助公司响应和预测市场变化。其有效性已在企业市场的各个方面反复得到证明,用例范围从基本的季度收益报告到近乎实时的信用卡欺诈预防。为了大规模物理支持这种广泛的功能,数据仓库历来依赖于几个高性能的架构特征,包括大规模并行处理(MPP)、内存中处理和查询优化,以提供大规模数据驱动的见解。 2000年代初,云的到来和大数据的概念颠覆了这种方法,引入了分析超出传统结构化行和列的数据的能力,并且可以在极端规模下进行分析。得益于经济高效且灵活的存储技术(例如,在对象存储上运行的文件系统 ),这些平台(品牌数据湖)在推动新的市场进步方面发挥了重要作用,尤其是在客户体验管理等领域。然而,虽然功能强大,但结合Hadoop,HIVE和Presto的早期数据湖平台是出了名的难以实现和优化。 从那时起,数据和分析市场一直在追逐能够统一表格数据库查询和对象级文件检索这两个看似不同的世界的解决方案。 拥有数据湖的市场参与者和拥有更传统数据仓库的市场参与者同样寻求云原生架构的进步,例如分离存储和计算处理,以简化部署并优化IT支出。这催生了许多新的基于云的分析数据库平台,这些平台能够扩展以满足任何需求,同时支持一键购买和配置。 不幸的是,这种趋势导致了数据环境更加破碎,部门数据仓库的激增既难以管理,也无法为整个企业提供单一版本的真实信息。使这种担忧更加严重的是数据源的持续扩散。市场现在希望IT超越数据库,整合来自新的,不同的来源的新数据类型,无论是制造机器日志还是手机地理位置历史。而且有充分的理由。如果说COVID-19大流行给人类上了一堂奇异的课,那就是精心策划的历史数据不足以保护企业运营免受远远超出企业防火墙的命运变幻莫测的影响。 当今的业务需要的分析数据库不仅仅是集中式数据仓库或部门数据湖。当今的业务需要一种分析解决方案,该解决方案可以回答“发生了什么?”之外的问题,以达到“可能发生什么以及我们应该怎么做?为了回答这类问题,企业需要一个分析数据库,该数据库可以同时使用数据湖和数据仓库的语言,完全是云原生的,由人工智能(AI)自动化和增强推动,旨在构建AI结果,并且能够容纳不同的数据类型(文档,地理空间,时间序列等)。 以这种方式,分析数据库存在身份问题,这实际上是一个变相的机会。当他们伸出援手支持广泛的分析工作负载(例如,时间序列预测、 地理空间分析、图形分析、数据科学等),它们正在超越传统数据仓库的范围。出于同样的原因,它们不再是数据湖,甚至不再是最近关于术语数据湖屋的流传。他们正在绘制新的水域,即Omdia所说的现代数据分析平台,该解决方案远远超出了分析数据库的范围,可以进行转换以适应每个客户需求的目的 ,位置和范围。 当今市场上是否有这样的全能平台能够大规模地完全统一整个企业的分析,并支持广泛的用例和用户需求?是的,但也不是。这最终取决于客户的需求与给定解决方案的功能的一致性。在本报告中,Omdia评估了几种领先的数据仓库解决方案,这些解决方案迅速演变为这个现代数据分析平台,以了解它们在以下概述的几个关键功能措施中实现的演进路径走了多远。 关键信息 •数据推动所有企业努力;数据存放在一系列互不相干的分析数据库中,这些数据库难以管理,甚至更难用作洞察力的来源。 •现代数据分析平台寻求通过提供具有广泛部署足迹和处理各种分析用例的能力的统一分析平台来解决这种情况,同时在不破坏安全性、管理和总拥有成本(TCO)预期的情况下大规模满足高性能要求。 •围绕基础设施现代化、数字化转型云迁移、人工智能的采用、流程自动化等的一系列市场趋势推动了现代数据分析平台的发展。 •当前的市场解决方案满足了五个关键投资领域的这些需求:支持核心基础架构功能、提供云原生功能、扩展数据仓库工作负载、集成不同的数据以及为业务提供见解。 •虽然在这个宇宙中审查的所有供应商在实践中都能够满足这些要求,但根据公司历史、技术专长/实力和市场重点,每个供应商都以非常不同的方式做到这一点。 •尽管评分非常接近,但市场领导者在前瞻性功能方面投入了大量资金,例如对不同数据类型(时间序列、图形、地理空间、文档等)的本机支持以及数据库内ML模型训练和执行。 •虽然仍处于起步阶段,尚未在所有供应商中主流使用,但使用人工智能来自动化和增强人类决策将定义现代数据和分析平台的下一个十年创新。 •在某些方面,平台本身不再重要,大多数解决方案都支持混合/多云部署或查询联合功能。但是,超大规模供应商 仍然享受来自能够透明扩展解决方案功能的大量相邻技术组合的优势(例如,数据科学平台、运营数据库、数据治理工具以及隐私和安全解决方案)。 分析现代数据分析平台领域 如何使用这个报告吗 OmdiaUniverse报告并非旨在倡导单个供应商,而是指导和告知选择过程,以确保有效地考虑和评估所有相关选项。该报告的发现倾向于客户的观点和可能的要求,典型的大中型跨国公司(5,000+员工)。通常,全球范围内考虑金融服务、TMT(技术、媒体和电信)和政府部门的部署。 市场的定义 Omdia认为,五个主要功能定义了成功的现代数据分析平台(参见图2).总之,它们超越了正统数据仓库、数据湖和其他专业数据库中的功能。这些结合在一起,构成了一个能够在整个企业中提供有价值的见解的平台。 图2:主要解决方案标准 来源:Omdia 支持核心基础设施功能 如果现代数据分析平台无法在高并发用户负载下大规模交付数据,那么它就什么都不是。这些平台面临的挑战是将其内在性能功能(MPP、内存计算、缓存、压缩等)扩展到更复杂的环境中,例如,支持不同的数据类型、不同的数据索引方法和新的工作负载。 交付进行功能 尽管本地部署仍然严重影响分析数据库市场,但技术提供商已坚定地将其前景转向云。他们不仅通过现代化数据库使其在一个或多个公共云上运行,还通过转变数据库的架构性质,使其充当云原生的容器化服务结构 ,使业务从业者能够跨云、本地和多云部署统一软件和工作负载。 扩展数据仓库工作负载 在超越基本的关系表格数据方面,现代数据分析平台正在遵循两条不同的演变路线。首先,他们正在寻求适应不同的数据类型,例如包含半结构化信息(例如用户配置文件)的文档(通常是JSON文件),时间序列数据,支持物联网(IoT)预测性维护等用例。 检测设备和图形分析,以归因社交网络等实体之间的关系。其次,他们试图以历史和实时的方式处理数据摄取,从而实现实时消费者订单跟踪等用例。 集成不同的数据 尽管现代数据仓库正在不断发展,将不同的数据类型引入中央数据存储库,但它们不再需要这种集中化来提供价值。恰恰相反,现代解决方案欢迎异构性,认识到所有部署都需要与外部操作数据源和分析平台进行一定程度的集成。为此,现代解决方案提供了一组丰富的内部连接器,使用元数据存储库并跨外部数据存储联合查询,以创建所有公司数据的统一视图。 提供见解 现代数据分析平台不再受IT部门和数据库管理员(DBA)的束缚,现在强调自助访问数据以供消费和作为创建工具。换句话说,现代解决方案允许用户带来他们的问题和数据。此外,解决方案现在迎合了传统商业智能(BI)消费者和业务用户之外的用户角色,通过基于应用程序接口(API)的数据访问扩展到包括数据工程师、数据科学家、数据分析师、ML工程师、DataOps专业人员,甚至软件开发人员。 市场动态 总体而言,企业需要以更多方式访问更多数据,用户定义了现代数据分析平台的市场。数据仓库和数据湖供应商,尤其是那些由超大规模云提供商(AmazonWebServices(AWS)、微软和谷歌)构建或与之结盟的供应商,主要为市场提供动力。然而,这个市场的实际形态和范围来自遥远的地方,来自数据管理和集成、数据隐私、数据科学以及数据可视化和发现等邻接关系。例如,有BI和数据分析平台,如Domo,能够作为一个全面的现代数据分析平台。像GoodData这样的数据集成和管理解决方案可以创建一个统一的、API驱动的数据结构。独特的分析数据库服务,如实时数据库提供商RockSet,也可以满足大多数现代数据分析平台的要求 。 这种活力可能会使水变得有些浑浊,模糊历史上不同的解决方案之间的界限。只需回顾几年,就可以看到市场从基本数据仓库到拥抱新工作负载和新机遇(例如数据科学和数据交换)的速度有多快(参见图3). 图3:绘制通往现代数据分析平台的道路 来源:Omdia 随着现代数据分析解决方案迅速采用数据库内ML开发、培训、推理和管理功能,企业购买者可能会发现自己在数据库和数据科学平台之间进行选择时处于十字路口。对于寻求构建公司范围的数据目录/数据中心的用户来说,情况可能也是如此。他们应该从MarkLogic购买一些独特的东西,还是购买更广泛的数据分析平台?与大多数企业细分市场一样,这个问题的答案将完全落在买方的肩上。没有完全自主或完全可扩展的全能数据分析平台。将需要组装,特别是对于寻求处理混合/多云操作或适应高度专业化工作负载的公司,这些工作负载可能需要比更广泛平台提供的更大程度的功能。 也就是说,一些普遍真理正在塑造领先的数据仓库和数据湖供应商所支持的市场。首先,解决方案正在从传统的数据专业人员向企业堆栈上游发展,面向更广泛的买家和用户,包括数据科学家、业务分析师、信息工作者、首席信息官(CIO)、开发人员和其他业务决策者。其次,解决方案正在关注几个高度专业化的水平用例,涵盖数据仓库和数据湖现代化、客户分析、欺诈检测、流分析、地理空间分析、数据共享和数据科学 。第三,凭借其满足大规模和性能要求的能力,解决方案现在正在寻求为更多的业务用户提供能够在IT治理环境中安全地查找、分析和共享数据的低代码/无代码工具。 图4:供应商的整体性能 来源:Omdia 这种动态在Omdia对本报告中审查的现代数据分析平台的排名中发挥了重要作用,支持性能、安全性和可用性的基本功能也是如此(参见图4).考虑到所有参与供应商的成熟度,这并不奇怪。也就是说,一般来说,没有一个解决方案完全满足Ombia的所有要求。只有少数供应商(例如SAP,AWS,Microsoft,Google)维护 数据库内数据市场,支持发布和订阅。数据科学和元数据等新兴投资领域也是如此。在这里,得分差异很大 ,具体取决于供应商是否优先考虑该领域的支持性投资。评分也各不相同,具体取决于公司历史、技术专长 /实力和市场重点。 从这次评估中,Omdia确定了几位能够在所有Omdia措施中始终如一地交付的领导者(参见图5),提供基本功能并投资于新兴产品 技术。即便如此,挑战者和潜在客户仍有很大的空间成功运营以支持离散用户选择标准。市场领导者与市场前景之间只有三个百分点,这表明了巨大的平价,即使是Omdia的成熟度权重,优先考虑前瞻性功能,例如使用人工智能自动化解决方案运营任务。 剩下的就是让潜在客户确定最符合内部要求的供应商。例如,致力于给定数据处理技术(如ApacheSpark)的客户最好与ApacheSpark专家(如Databricks)合作。同样,需要底层数据库原生的生命周期完整的数据科学用户体验的客户可能会选择像Cloudera这样的供应商。或者,那些不寻求花里胡哨的东西,而是寻找易于消费的性价比解决方案的客户可能会选择Ac