1|湖仓一体市场厂商评估-科杰科技 目录 1.研究范围定义1 2.湖仓一体市场分析5 3.厂商评估:科杰科技9 4.入选证书14 关于爱分析15 研究与咨询服务16 法律声明17 3|湖仓一体市场厂商评估-科杰科技 研究范围定义 1.研究范围定义 在中央及地方政府的信创政策推动下,我国信创部分领域正在从“试点验证”迈向“规模推广”阶段。随着信创替换的深化,爱分析观察到,在需求侧,企业对信创产品的需求逐渐融合更丰富的业务诉求以及未来数智规划,正从“同类替换”转向“迭代升级”;而在供给侧,信创产品已经跨过“要用”、“能用”,正进入实力比拼的“好用”阶段。企业对信创产品迭代升级的具体需求表现为: 1、软件基础设施 数据库是基础软件的替换重点,企业对数据库的替换需求具体为,在功能和性能上可同等替换IOE数据库外,还要满足企业上云、资源弹性伸缩、混合事务分析、多模数据管理和查询等需求,因此企业对数据库的替换也开始考虑云原生、存算分离、HTAP、超融合等功能特点。 与此同时,在数据架构方面,企业需要解决异构数据源架构下的数据开发及运维难度,湖仓一体架构正成为大数据平台架构替换新方向。 2、应用端 OA是企业最核心的办公软件,也位列全面替换软件的首位。以OA系统的文档管理为例,企业在进行国产替换时,新增知识体系构建、员工办公效率提升以及办公流程自动化等业务场景需求,因此融合AI大模型、知识图谱等技术的文档管理中台成为企业选型偏好。 在客户信息管理方面,企业传统的客户信息管理主要通过Oracle、SAP等系统进行管理,但在本次国产化替换中,在实现客户信息管理功能的基础上,企业会考虑业务的成长性以及未来数智化对业务系统互联互通的需求,因此具有平台化特点的CDP引发关注。 本次报告中,爱分析按照IT架构,自下而上将信创市场划分为:基础硬件、基础软件、技术支撑层、数据层、上层应用软件等五个层级。其中基础硬件包含芯片、服务器、PC、打印机、存储等;基础软件包含操作系统、数据库与中间件;技术支撑层包含低代码/无代码平台、数据科学与 机器学习平台、隐私计算、信创云、云原生、安全等;数据层包含数据中台、大数据平台、数仓、湖仓一体等;上层应用分为通用应用软件与工业软件,涉及办公、管理及应用、研发设计、生产制造等多个细分场景。 本报告面向公司决策层及数字化部门负责人、信息技术部门负责人、业务负责人,通过对各特定市场的需求定义和代表厂商能力解读,为企业国产化适配规划与选型提供参考。 本评估报告聚焦数据层的湖仓一体市场,爱分析重点选取了湖仓一体厂商科杰科技进行能力评估。 4|湖仓一体市场厂商评估-科杰科技 湖仓一体市场分析 2.湖仓一体市场分析 市场定义: 湖仓一体是基于湖仓一体架构,提供多模异构数据统一存储、管理和计算,支持BI、数据科学、AI/ML、实时分析等数据应用场景,实现数据自由流动和共享、降低数据开发和运维复杂度的解决方案。 甲方终端用户: 企业数据部门、IT部门 甲方核心需求: 云计算、大数据、IoT等技术发展催生企业数据体量爆发式增长,数据类型也异常丰富。企业对半结构化、非结构化数据的存储、加工和应用提出了新要求,无论是数据仓库还是数据湖都难以满足企业需求。在此背景下,湖仓一体数据架构能融合数据仓库和数据湖的优势,成为企业数据架构演进新方向。企业对湖仓一体解决方案的需求具体如下: 实现海量异构数据的统一存储和批流一体的开发范式,降低数据存储、计算和运维成本。企业在历史构建数据平台的过程中,多形成数据仓库和数据湖共存的数据架构,以及“离线计算”和“实时计算”共存的双链路。数据在数据仓库和数据湖之间的存储和调用带来存储冗余;同时数据在离线链路、实时链路中的存储、清洗、转换会同时带来存储和计算冗余。而双链路和数据湖也使得企业的数据架构异常复杂,系统监控、性能优化、故障排除等运维工作量成倍增加。此外,传统的数据仓库和大数据平台架构中存储和计算资源耦合,面对大数据集时,极易出现存储资源冗余而计算资源不足的情况,企业需要花费数小时或更长时间来查询数据,大数据分析性能受限制。 实现多模异构数据的统一管理,提高数据质量。一方面,数据湖本身容易由于缺乏数据质量和数据治理形成数据沼泽,降低数据可用性。另一方面,在常见的数据仓库、数据湖共建的数据架构中,数据在数据仓库和数据湖之间的流转调用需要通过多个引擎实现,操作复杂,可靠性难以保证,极易产生数据一致性问题。 可同时支撑数据分析、数据挖掘、机器学习、RPA等工作负载,适应全域数据融合分析场 景。针对全域数据的联合分析,以电商平台为例,电商平台需要对图片、评论、视频等非结构化数据与商品销量、用户行为等结构化数据开展联合分析,由于数据仓库和数据湖在数据格式、查询语言以及元数据管理等多方面存在差异性,两者之间难以实现数据流通。如数据仓库使用SQL代码处理结构化数据,适用于BI分析场景,数据湖使用非SQL代码处理非结构化数据,适用于机器学习、知识图谱等场景。 满足政府单位、国央企和金融等领域的国产化要求。湖仓一体架构对接服务器、芯片、操作系统、数据库、中间件等多种基础设施,应支持国产化适配,满足企业自主可控需求。 厂商能力要求: 具备多类型异构数据的统一存储和管理能力。湖仓一体数据架构底层支持结构化、时序、文档、图像等多模数据自动冷热分级存储,并且在存储层基础上支持将多模数据存储为ApacheHudi、DeltaLake、ApacheIceberg三种数据湖表格式中的一种或多种,实现统一元数据管理,支持诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。 具备批流一体技术。厂商应支持以一套开发范式实现大数据的流计算和批计算,降低数据开发和运维的难度。其中针对数据采集,厂商应降低批流采集任务配置复杂度,一次配置后,程序可自动进行批和流的数据采集。针对数据分析,厂商湖仓一体解决方案应提供流式分析能力, 支撑业务实时决策。 支持存算分离架构,可实现海量数据的低成本存储。支持存算分离,可按需分别对计算资源、存储资源进行弹性扩缩容。其中,资源调度系统应融合机器学习算法综合任务优先级、资源需求、系统健康状况等因素对资源分配进行智能决策,通过灵活任务调度提高资源利用率。 支持多种工作负载。湖仓一体数据架构应支持集成批处理引擎、流处理引擎、交互式查询引擎、交互式分析引擎、机器学习引擎等通用数据处理引擎,或是以统一引擎支持以上多种工作负载,适应数据分析人员以一种语言对多模异构数据进行融合分析的场景。 厂商应具备国产信创适配能力。符合信创标准,实现国产化替代。厂商需要能与国产主流软硬件兼容适配,包括不限于国产化芯片、服务器、操作系统、中间件等,满足企业国产化需求。 入选标准说明: 1.符合数据中台全部厂商能力要求; 2.2023Q1至2023Q4该市场付费客户数量≥5个; 3.2023Q1至2023Q4该市场合同收入≥1000万元。 8|湖仓一体市场厂商评估-科杰科技 厂商评估:科杰科技 3.厂商评估:科杰科技 厂商介绍: 科杰科技成立于2019年,是国内领先的大数据基础软件供应商,致力于自主可控的大数据底座产品研发与应用,推动企业全面实现数据驱动型组织转型升级。科杰科技自研的湖仓一体数据智能平台KeenDataLakehouse,具备云原生、批流一体、低代码特点,可为组织提供数据管理、开发挖掘、运维一体化的一站式全流程数据能力建设方案。 产品服务介绍: 科杰科技核心产品湖仓一体数据智能平台KeenDataLakehouse是基于云原生技术自主研发的数据底座产品,提供端到端的一站式大数据基础软件解决方案。底层湖仓一体架构具备ACID事务性、批流一体、存算分离等特征,上层产品融合DataFabric、ActiveMetadataManagement、DataMesh等技术,提供覆盖数据生命周期的一系列产品及功能,包括不限于数据开发管理、数据同步、实时计算、数据标准、数据质量、数据资产、数据服务等。 图1:科杰科技湖仓一体数据智能平台KeenDataLakehouse架构示意图 厂商评估: 科杰科技湖仓一体数据智能平台KeenDataLakehouse在查询性能、简单易用、存算分离等方面具有明显优势,此外,科杰科技信创生态体系完善,可全面适配国产化软硬件产品,已经在央国企、政府、能源、工业等行业积累了丰富案例经验。 KeenDataLakehouse提供增强的湖仓一体引擎,具备高效的查询性能。KeenDataLakehouse具备批流一体能力,可灵活支持批处理、实时计算、批处理分析实时数据流以及批流联动和转换等场景。除灵活性外,KeenDataLakehouse也对湖仓一体查询性能进行了 优化。其中,针对实时查询,科杰自动数据治理服务可基于数据生命周期管理主动提供小文件及元数据的合并,如针对实时链路中小文件数量过多造成的查询性能低下问题,KeenData Lakehouse能按照预定策略自动触发对小文件的异步压缩、合并和清理。针对离线查询,KeenDataLakehouse提供自动索引构建服务,对高频查询的数据列优先构建索引,提高查询性能。而在多维聚合分析中,科杰通过预计算对文件进行重分布,加速多维查询性能。 基于统一元数据服务提供统一SQL查询引擎,简单易用,降低开发人员使用门槛。在具备 ACID特性,保证元数据一致性基础上,科杰科技提供统一元数据服务,其中元数据引擎可对接Oracle、MySQL、SQLServer、Elasticsearch以及NoSQL数据源等异构数据源,兼容Spark、Presto、Flink等多种数据处理引擎;元数据联合视图可对数据湖、数据仓库以及外部数据源等数据生态进行统一管理。在统一元数据基础上,KeenDataLakehouse支持以统一SQL查询引擎进行跨源联邦查询,降低使用门槛的同时也帮用户实现对全域数据的全局分析。 KeenDataLakehouse支持存算分离架构,为客户实现低成本、简便存储。在KeenDataLakehouse中,数据可存储在HDFS、S3以及OSS中,科杰科技提供统一资源标识符,使数据存储格式对用户完全透明,用户可直观的使用数据资源。针对存算分离架构性能,科杰通过元数据缓存解决元数据rename等性能问题,以及通过数据缓存提升对底层数据的调用性能。此外,存算分离架构支持计算资源弹性伸缩以及数据冷热分层存储,降低数据存储成本。 行业经验丰富,广受行业认可。科杰科技在存算分离、湖仓一体等领先技术架构基础上,融合DataOps、数据编织理念,提出一套企业立体化数据能力建设方法论,包含多架构融合的湖仓一体引擎、数据工程的构建、数据自治理、集中式管控分散式赋能的服务体系以及数据驱动型组织等,助力企业实现组织驱动型组织转型升级。目前科杰科技已在央国企、政府、能源、工业、金融和零售等行业积累了一批丰富案例,如中国联通、中国石化、中国一汽、国家电 网、中国人寿、中国航天等。与此同时,科杰科技成为首批通过信通院云原生湖仓一体能力专项评测的厂商。 信创生态体系完善,全面适配国产化软硬件产品。科杰科技坚持自主研发,围绕KeenDataLakehouse湖仓一体数据智能平台已申请相关大数据相关领域软著及专利150余项。与此同时,科杰也在持续完善信创生态体系,目前已经与麒麟软件、飞腾、人大金仓等企业完成技术兼容认证,并通过鲲鹏芯片、鲲鹏云、鲲鹏技术全栈信创标准认证,尤为值得一提的是, KeenDataLakehouse产品已通过工信部5所软件产品“可信卓越级”权威认证,彰显了科杰科技在大数据技术研发和产品安全性、可靠性的卓越成就,以及积极推动信创产业链协同发展的决心和实力。 典型客户: 中金公司、中国一汽、中石化勘探院 入选证书 13|湖仓一体市场厂商评估-科杰科技 4.入选证书 关于爱分析 爱分析致力于成为中国领先的数字化市场专业