您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[火山引擎]:2024分析型数据库市场厂商评估报告 - 发现报告
当前位置:首页/行业研究/报告详情/

2024分析型数据库市场厂商评估报告

信息技术2024-07-09-火山引擎申***
2024分析型数据库市场厂商评估报告

1|分析型数据库市场厂商评估报告火山引擎 目录 1.研究范围定义1 2.分析型关系数据库市场5 3.厂商评估:火山引擎9 4.入选证书14 关于爱分析14 研究与咨询服务15 法律声明16 3|分析型数据库市场厂商评估报告火山引擎 研究范围定义 1.研究范围定义 在信创政策、技术创新和业务需求等因素共同驱动下,我国数据库市场保持快速发展,据大数据技术标准推进委员会测算,2022年中国数据库市场规模为403.6亿元,预计2027年将达到1286.8亿元,年复合增长率为26.1%。 政策端:信创自主可控推动数据库国产化加速 信创已经成为国家战略之一,通过发展信创产业实现信息技术领域的自主可控,保障国家信息安全是国家经济稳定发展的前提。随着大量中央及地方信创相关政策的出台,信创在“2+8+N”行业加速落地。其中数据库作为承载企业数据存储和管理的基础设施,是信创基础软件的替换重点,国产数据库市场迎来加速发展的黄金时期。 在信创政策推动下,以金融、电信、政府、制造、交通为代表的行业对国产数据库需求旺盛,未来,随着信创在更多行业的落地,国产数据库厂商将迎来巨大的市场空间,这也为国产数据库突破核心技术、储备技术人才、丰富产品形态提供发展契机。 技术端:AI、云计算与数据库融合加深,大数据、IoT技术催生数据库品类日益丰富 随着大模型落地加快,大模型与数据库的融合场景愈加成熟,如将生成式AI技术与数据库结构设计、架构设计、数据分析挖掘等场景结合,能有效提升数据库开发、运维和分析效率,正成为数据库厂商智能工具开发新方向。 上云是企业数字化转型的重要战略。为适应云应用的研发需求,数据库厂商正联合云厂商推出云数据库产品,以为用户提供高效、便捷的数据库服务,如基于云计算的数据库即服务(DBaaS),支持用户在云端访问和使用数据库系统,可提供灵活的数据库管理解决方案。企业使用DBaaS,无需购买或配置数据库,能显著降低企业成本。进一步,云计算中的无服务架构(Serverless)技术和服务模式逐渐成熟,使具备Serverless服务的云原生数据库成为厂商重点布局。Serverless云服务基于计算与存储分离的理念,具备自动扩缩容、按需付费的特点,能有效解决用户业务扩张数据库扩容问题,提升用户体验。 此外,大数据、IoT技术的快速发展,使企业数据体量呈爆炸式增长,同时带来异常丰富的数据类型,如时序、GIS、图像、视频、文本等数据类型日益丰富,推动图数据库、时序数据库、时空数据库、文档数据库等各种专用数据库涌现并快速发展。 需求端:企业场景多元化促进数据库技术更新迭代 差异化的业务场景决定了企业对数据库类型和能力要求各不相同,也驱动数据库性能和技术加速突破。如金融行业业务具有连续性,对数据一致性要求极高,且分析场景日益复杂,因此会同时部署关系型数据库和分析型数据库,对两类数据库均要求数据库具备高并发和实时性,同时能灵活满足业务增长的扩容需求。制造业中机器设备和传感器采集了大量的时间序列数据,需要实时提供故障诊断、需求预测、产品优化等决策支持,因此对时序数据库、库内机器学习等技术有强烈需求。 此外,实时数据分析和决策支持场景下同时支持事务和分析的HTAP技术、适应多套业务系统联合分析场景的数据库联邦技术、满足多类型数据处理需求的多模技术以及同时支持对大数据进行BI分析和机器学习预测的湖仓一体技术等多种数据库前沿技术正随着业务应用落地逐渐完善成熟。 本次报告中,爱分析将数据库市场从上至下划分为数据库服务、数据库运维管理产品、数据库产品三层。数据库服务包括咨询规划服务、实施部署服务、运维运营服务;数据库运维管理产品包括数据库云管理、数据迁移备份、数据库开发测试、数据库监控和性能分析工具等;数据库产品包括事务型关系数据库、分析型关系数据、实时云原生数据库、混合型关系数据库、非关系型数据库、超融合数据库等多个细分场景。 图1数据库市场全景地图 本评估报告聚焦数据库产品层的分析型关系数据库市场,爱分析重点选取了分析型关系数据库厂商火山引擎进行能力评估。 4|分析型数据库市场厂商评估报告火山引擎 分析型关系数据库市场分析 2.分析型关系数据库市场 市场定义: 分析型关系数据库是指能够对各种来源的结构化数据,以及半结构化和非结构化数据进行存储和计算分析的数据管理系统。分析型数据库能够执行即席查询和复杂分析,满足业务分析或商业智能的需求。 甲方终端用户: 企业数据部门、IT部门 甲方核心需求: 企业数据分析的应用场景正变得更广泛和更复杂。一方面,通过数据分析和洞察提升经营效率、改善客户体验已经成为企业共识,企业正将数据分析应用在经营、供应链、产品、营销、服务等多种场景中,如通过数据实现精准营销、提供个性化推荐、提升供应链效率等。另一方面,企业数据分析场景也日益复杂,时效性从T+1离线分析转向实时分析,分析难度从简单聚合到即席分析、机器学习等复杂分析,数据体量也从小数据体量转向PB级大数据体量。在以上背景下,企业对分析型数据库提出了更高要求。企业对分析型数据库的核心需求包括: 提供高效的查询分析性能。一方面,分析型数据库要能支持企业内部逐渐增长的实时分析场景。面对激烈的市场竞争和快速变化的客户需求,如何提高“用数”效率,以实时或准实时的数据处理速度进行决策、开展服务以及优化运营,正成为企业获取竞争优势的关键。目前越来越多行业和场景开始要求高时效性,除金融业的实时决策、实时风控外,电商的实时推荐、用户行为分析、广告投放,制造业的生产过程监控,以及运输业的供应链监控等均要求秒级或毫秒级的时效性,来优化体验、提高效率、降低成本。传统企业基于Oracle、MySQL搭建的传统查询分析引擎在面对海量数据高并发、实时查询场景响应缓慢。企业需要分析型数据库支持实时数据分析场景。 另一方面,分析型数据库要对离线数据有较高的查询分析性能。在企业对PB级历史数据进行即席分析、机器学习等复杂分析时,企业需要分析型数据库具备完成复杂运算的能力,并在尽可能短的时间内获取查询结果。 具备存算分离架构,资源弹性可扩展,降低资源成本。企业数字化转型日益深入,业务规模持续扩张,以及在移动应用、IoT等技术的推动下,企业数据体量持续增长。由于多数传统企业的数据库多 基于MPP架构,存储与计算耦合,无法随业务发展而灵活扩展,极易导致系统性能下降或服务中断,需要数据库具备存算分离架构。并且由于OLAP应用的负载通常具有峰谷特性和随机性,要求分析星数据库具备资源弹性共享和资源隔离的能力,在保证性能和SLA的情况下降低资源成本。 降低开发运维成本和难度。传统企业常面临着复杂的数据分析链路的开发和运维。首先,企业数据源多样,除企业ERP、财务、人力、供应链等业务系统造成的数据孤岛外,企业数据基础建设中引入的数据库、数据仓库、数据湖、消息队列等设施也构成部分数据源。其次,数据集成由批处理线路和流处理构成,开发运维人员需要在集成过程中保证数据质量、数据一致性以及转化数据格式等,技术门槛高。此外,在对数据进行分析时,需要针对不同的业务场景,提供星型、雪花型、宽表等不同的建模方式,开发运维人员需要监控维护不同的数据模型,又带来额外的工作量。 厂商能力 基于上述甲方企业核心需求,分析型数据库厂商应具备以下能力: 厂商提供的分析型数据库应提供高性能支持。一方面针对实时数据分析场景,厂商应对高并发、高吞吐、复杂查询等不同场景进行针对性性能优化,包括不限于全局字典、物化视图、优化器、自研引擎等,以提高数据库实时场景下的查询分析效率。另一方面,针对离线分析场景,厂商提供的分析型数据库应提供高效的列式存储和高性能的数据存取,具备跨多表、多维聚合能力,支持即席分析、复杂分析、机器学习等多种复杂分析场景。 支持云原生架构和资源隔离。厂商分析型数据库产品应支持云原生架构,支持存储计算分离,并且支持动态扩缩容,以应对业务峰谷波动。此外,厂商应提供读写分离、计算资源隔离、配额和限额、优先级管理等技术,确保一个应用的高负载不会影响其他应用。 支持多数据源集成和多种建模方式。厂商提供的分析型数据库应支持多种数据源接口,对接多种数据源,如离线数据源Oracle、MySQL、HDFS,以及实时数据源Kafka、Flink等,进行读取和集成,并保证集成过程中的数据一致性。或者厂商产品能够支持数据联邦,在不需要对数据进行整合的前提下对多源异构数据的进行统一的查询分析。此外,厂商产品应提供了星型、雪花、大宽表、预聚合等方多种数据建模方式,简化数据管理和维护,优化查询性能。 支持通过Web界面开展开发和运维。厂商产品应提供Web界面支持开发和运维人员使用,其中开发人员可以通过Web界面访问开发工具、集成开发环境(IDE)或代码编辑器,进行软件编写、调试和测试,运维团队可以通过Web界面监控系统的运行状态、性能指标和日志,实施故障排查和性能优化。 入选标准说明: 符合分析型关系数据库全部厂商能力要求;2023Q1至2023Q4该市场付费客户数量≥10个; 2023Q1至2023Q4该市场合同收入≥1000万元。 8|分析型数据库市场厂商评估报告火山引擎 厂商评估:火山引擎 3.厂商评估:火山引擎 厂商介绍: 火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,提供云基础、数据库、大数据、人工智能等产品,帮助企业构建体验创新、数据驱动和敏捷迭代等数字化能力,实现业务可持续增长。 产品服务介绍: ByteHouse是火山引擎旗下的一款云原生数据仓库,继承了开源ClickHouse的高性能和强大的分析能力,并在架构上遵循新一代云原生理念进行全面重构,实现了容器化、存储计算分离、多租户管理和读写分离等功能。ByteHouse能同时支撑实时数据分析和海量数据离线分析,尤其对高吞吐、高并发、复杂查询等多种实时数据分析场景进行优化,能为用户提供极速分析体验。 厂商评估: ByteHouse在ClickHouse基础上进行重构和优化,能为实时数据场景提供极致性能,其云原生架构支持存算分离、弹性扩缩容,具备高灵活性和可靠性。进一步,ByteHouse在数据库的部署、运维方面提供企业级工具支持,简单易用。基于内外部的广泛应用,ByteHouse将为用户提供持续的服务支持。 ByteHouse具备高性能,支持用户在实时数仓、复杂查询、宽表查询、高并发等数据分析场景中实现毫秒、秒级延迟。ByteHouse针对不同的数据分析场景进行了一系列优化,来缩短查询执行时间、优化资源利用,提供更流畅的数据分析体验。 如在高吞吐的实时数仓场景下,针对实时数据流的接入,ByteHouse自研表引擎HaKafkaEngine具备高可用性,保证了At-least-once消费语义,保障数据消费过程中的可靠性和完整性,以及提供FlinkConnector将Flink数据加载到ByteHouse,可支持每秒220万的实时数据读写。针对CDC实增量数据同步,ByteHouse提供DES数据快车服务实现多元异构数据秒级同步到目标端,同步性能可达到25万record/s以上,并引入了MaterializedMySQL数据库引擎,实 现基于MySQLBinlog机制的业务数据库实时同步功能。针对数据写入环节,ByteHouse自研了unique引擎,支持每秒百万级的实时数据的upsert场景。 针对复杂查询场景,为提高查询效率,减少资源消耗,提升系统性能,ByteHouse进行了RBO(基于规则的优化能力),CBO(基于代的的优化能力),分布式计划优化来优化查询执行计划,以及执行层的优化。 针对宽表查询场景,ByteHouse通过提供物化视图,优化Zerocopy、Projection,支持全局字典等方式提升宽表查询性能。 针对高并发点查场景,ByteHouse在纯列存模式上通过TopN短路计算、唯一键索引、读链路优化等提升点查场景的查询