IDCMarketScape IDCMarketScape:中国实时湖仓市场2024年厂商评估 LeoLi IDCMARKETSCAPE图 图1 IDCMarketScape:中国实时湖仓市场,2024 来源:IDC,2024 请参照附录的详细研究方法,市场定义和评分标准。 本摘录内容 本摘录内容直接取自IDCMarketScape:中国实时湖仓市场2024年厂商评估(Doc#CHC51768224)。本摘录包含以下全部或部分内容:IDC观点、IDCMarketScape厂商入选标准、对技术买家的建议、推荐厂商概况、附录和进一步研究。 IDC观点 未来12个月,选择外部合作来构建数据管理服务的企业比例将从58%快速增长至85%。数据量的快速增长、对数据管理需求的升级以及技术架构复杂度和独立开发成本的上升,都推动企业开始越来越多地考虑湖仓一体的管理解决方案。同时,多模数据管理、实时化将会是数据管理服务演进的两个重要方向。 作为支撑企业数字化转型、发展新质生产力的统一数据底座,实时湖仓解决方案具备低运维、低成本、多模态、多功能、高价值、高敏捷、更安全、更灵活的特性,缩短数据流通和价值挖掘流程,金融、互联网、制造、能源、零售、供应链管理将在未来五年完成大规模落地。未来五年,利用数据管理解决方案实现资产绩效管理、创新和研发智能、数据挖掘与分析将是企业最重要的方向。 在此背景下,为了更清晰地展示厂商的综合实力,IDC启动《IDCMarketScape:中国实时湖仓市场 2024年厂商评估》市场研究报告,本次研究的主要市场发现包括:从终端用户需求来看: Iceberg、Hudi在市场上拥有更多支持者,技术供应商也多选择主动适配Iceberg或Hudi的其中一款,或两种全部兼容。但版本的选择也是用户在实际开发运维中顾虑的问题,技术厂商通常会随着Iceberg和Hudi版本的更新而更新,而最新的版本可能在数据性能和接口上存在与已有架构的问题,终端用户更偏好于成熟版本,对产品的更新敏感度更底。因此技术供应商在为用户提供服务时,可提供多个版本供用户自行选择。 当前市场主要需求来自于金融、能源、电力、运营商、国央企、消费、水务环境等,同时在制造、智能驾驶将会在今年产生更多新的需求,驱动因素一方面来源于政策的支持和市场更多的关注,另一方面是过去几年数据量的激增使得企业不得不更加积极地解决数据壁垒的问题。 IDC调研显示,当前整体市场实时数据处理需求占比在15%–20%左右,而互联网、电商零售领域的实时、近实时需求可以接近50%,制造业、能源电力也在出现更多时序处理需求,但这也要同步考虑市场预算和规模体量,所以其在早期阶段。具体来看,以电信运营商为例,作为湖仓一体的主要用户,当前所管理的数据以结构化数据为主,其中对旅游景区、热门景点的位置应用、用户流量分析、短信服务的实时性要求更高,而对于经营指标、市场动态、卡号销量等,还在T+1的需求阶段,但也随着决策层要求的增强,逐步转向实时或近实时。再以电力能源为例,场景需求包括数字能源平台、应用营销、生产监控、数据资产、定期审计、监控快报、灾害预测、调度预测、生产数据分析,需求时效性从月度缩短至天级、小时级或秒级。 从实际落地来看,部分厂商在2023年就提供了相对完备的实时和近实时数据采集和分析能力,但底层数据采集设备往往多源且不统一,无法或无法免费提供数据采集和上报能力,但随着更多体统和采集设备的升级换代,以及工具融合和中间件的出现,逐渐有更多的行业支持数据实时上传,因此对数据实时管理的需求也会增高。 市场采购需求走向融合,端到端成为客户提及最多的关键词之一,尤其是对银行券商、大型国央企等数字化建设程度更高的行业客户而言,他们往往拥有人工智能部、大数据部、数据管理部等多个部门,而面对预算紧张的压力和业务融合的上层需求,终端用户也希望建设一套架构来满足各个部门的实际需求。 数据治理工作还在长期进行,包括统一代码、统一主数据工作,实现结构化数据和非结构化数据的统一存储管理、统一访问多样数据源、增加交互式统一访问接口,公司或专门成立数据指标部门来管理指标体系,现在指标层层嵌套,维护管理更加麻烦,需要血缘分析来定位问题链路,同时不同的部门和组织对数据的读取要求也不尽相同,所以需要不同权限、不同单位对应不同的数据服务,提供一个专有参数工具来生成多样化API。 在用户调研中发现,产品积木的概念被反复提及,终端用户在选择产品时会重点考虑两个问题,一是终端用户在测试部署时关心对存量应用的适配性,二是技术供应商提供的一套解决方案需要可解耦性,避免全部推翻的可能性,要与已经建设的数据解析、报表应用等结合。 多湖联邦存在一定市场但需求不明朗,由于大型国央企包含总部和各地区分部,通常分部管理自有业务数据,总部汇总重点数据指标,数据无法实现物理集中管理,因此需要在各地打造多个数据湖,并实现数据湖之间的统一管理和联邦查询。但这种需求目前只存在于大型跨地区集团中,市场前景还要观察后续数据的流通需求,数据要素的政策可能会加速这一趋势。 从技术供应商最新动作来看: 数据要素治理、数据资产管理成为各厂商重点,但整体来看市场还在早期阶段。当前厂商侧重于确权授权流程的开发、价值评估平台的开发。目前价值评估多以成本法来做参考,包括考虑研发成本、硬件成本、外采投入,基于已有财务数据和业务指标。但还有两点需要注意,一是与财务系统和台账数据打通,二是增强数据血缘分析能力,终端用户现有数据架构还没有将数据采集、存储、清洗、开发、应用的全周期跨链条、跨平台、跨部门联合起来,这种情况下仅靠安全可信并不适用,权限管理仍然最有效,其中一种解决办法是基于用户访问日志来确定数据是否被查询调用。但还有一点值得注意,数据要素在各行业间强调重点不同,数据要素、数据资产管理平台建设介于标准化和行业化之间,需要依据垂直场景进行需求切分,例如政府强调数据目录和门户,制造业更强调主数据和行业属性。 生成式AI作为近两年最受关注的话题,会率先落地容错性高的业务场景。当前生成式AI投资回报收益还未显现,用户顾虑包括高算力和人力投资和低ROI,以及数据安全和隐私保护。因此现在多选择容错性更高的场景进行探索落地,例如智能问答、元数据补齐、AIAgent等。同时随着各厂商在2024年3月开始对开源大模型的新一轮更新,技术供应商多提供涵盖 Llama、通义千问、ChatGLM等开源模型在内的ModelStore供用户进行选择。但从实际用户需求来看,ModelStore不能为其带来实际的市场竞争力的提升,也不会受到用户青睐。拥有自研大模型的厂商才有更多话语权,并在提供解决方案时将自研大模型与ModelStore组合使 用。 从DataforAI角度来看,技术供应商不应仅考虑自己是大数据服务公司,而是应当从智能化平台支撑的更大范围角度来看,考虑如何为大模型供数、在结构化数据基础上做好非结构化数据管理、做好数据目录、提取元数据、指定数据质量标准、数据标注、结构化与非结构化统一等问题。知识库是落地最快的产品形式,厂商提供的AICopilot包含项目计费、Tokens计费和订阅式等多种方式,终端用户则更希望选择订阅式服务。 大数据技术本身创新并不频繁,更多的企业将研发重点放在资源隔离和高并发上,大型金融、国央企用户每天任务处理量达到数十万条,还可能涉及分支结构的数据查询和调用,如果集群任务被卡则多个共享任务无法查询,因此技术供应商在满足数据库能力之上,也在重点考虑并发设计、资源隔离、大规模节点建设、队列资源分配、任务资源性价比的竞争优势。 从市场竞争来看,虽规模较小,但中小厂商多选择搭建一站式统一平台来抢占市场份额。相较于云厂商和大型大数据厂商的产品丰富度和市场占有率,中小厂商更强调拥有统一的数据存储、元管理和数据分析能力,无须跨平台、跨产品流转,保证数据一致性和实时性,从数据处理形式来看,以结构化数据为主。 自助数据科学平台需求将持续增加,数据处理的需求无疑会持续上升,定制化需求也越来越多,同时GenAI也在重塑BI查询分析产品,为开发者、工程师、业务人员、管理人员提供自助的数据分析体验,使不同角色自行搭建数据流转、分析和应用,减少数据部门不必要的支撑工作。 IDCMARKETSCAPE厂商入选标准 入选《IDCMarketScape:中国实时湖仓市场2024年厂商评估》报告的厂商需符合如下标准: 作为数据湖仓项目主供应商为客户提供整体解决方案,包括数据存储、数据管理、数据开发、数据安全等,产品和实施服务可以部分来源于合作伙伴。 覆盖的行业包括金融、政府、互联网、能源、工业等关键领域,或为企业新兴业务提供支撑。 该解决方案必须在中国有落地项目,拥有2个以上企业级用户案例。 给技术买家的建议 为生成式AI做好准备,选择拥有自研大模型的厂商,不要仅考虑数据服务商提供底层的数据存储和管理,这些非常容易被替代掉,还要从数据链路管理、行业专业性、数据分析能力、大模型能力等维度考虑评估,融合打造端到端解决方案。 尽快加强数据的实时处理能力,数据实时处理需求将会迅速增加,充分考虑自身架构的可拆解性,可以自由选择Apache社区能力进行组合,并自研提升产品的独特优势,打造更快的查询计算引擎。 选择具备统一元数据、血缘分析能力的厂商,这将更有利于后续的数据治理和数据分析工作,利用其提供的标准化平台,来搭建企业自身知识库和统一指标平台,追踪数据链路情况,制定数据资产台账,并尽快打通业务、财务数据壁垒。 厂商综合概况 本章节简要地解释了IDC通过厂商在IDCMarketScape中的位置得出的关键发现。在附录中概述了对各个厂商基于各项标准的评估,该处展示了对各厂商的优势与挑战的总结。 腾讯云 腾讯云在"IDCMarketScape:中国实时湖仓市场2024年厂商评估"中属于领导者类别。 腾讯云实时湖仓方案通过腾讯云数仓TCHouse和数据湖计算DLC来构建,整体使用腾讯云DLCServerlessSpark快速构建高灵活性的统一数据湖基座,TCHouse可直接访问DLC湖存储并提供毫秒级高性能查询,过程无需经过任何数据复制和同步,从而使用户能同时享受到数据湖的灵活性、低成本一体化存储的优势以及云数仓TCHouse提供的高性能查询优势。数据开发治理平台WeData,融合了包含数据集成、DataOps数据开发,运维能力,以及数据建模、数据资产、数据质量、数据安全、数据服务等一系列数据管理和治理能力。 同时,面向金融、政企等行业,腾讯云TBDS全新升级云原生湖仓一体架构,在超大集群扩展、资源租户级隔离、存算分离下性能、金融级安全及自主技术创新等方面显著提升。支持私有化、混合云等灵活交付模式,为企业提供稳定可靠、高性能、易运维,灵活可控的大数据解决方案。 优势 一体化服务优势:腾讯云实时湖仓可以更好地将大数据服务与生成式AI能力融合,DLC/EMR的分布式计算框架提供了面向AIGC场景大规模数据预处理的参数优化,可以支撑大模型数据预处理算法的并行化执行来提升整个链路的效率,实现从几百TB甚至PB级原始数据到高质量的训练数据的加工清洗,已为头部大模型公司如百川智能、Minmax、元象、光年之外等客户提供算力。 市场增长快速:截至目前,2024年腾讯云实时湖仓解决方案市场客户新增超过100家,覆盖政府、汽车、网络、AI、证券、审计、医疗等众多行业,市场认可度不断提升。 挑战 腾讯云在大规模集群支持能力、湖+仓一体化能力、Wedata能力丰富度上仍有提升空间。 附录 解读IDCMarketScape图 基于该分析的目的,IDC将成功的潜在关键因素分为两大类:能力和战略。 Y轴反映了厂商目前的能力、服务菜单、及该厂商与客户需求的匹配程度。能力范畴集中讨论企业和产品此时此刻的能力。在该范畴中,IDC的分析师将着眼于那些使厂商能够实现其在该市场中已确定的