您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:2022年中国数据管理解决方案产品策略解析概览(摘要版) - 发现报告
当前位置:首页/宏观策略/报告详情/

2022年中国数据管理解决方案产品策略解析概览(摘要版)

2022-06-16胡竣杰头豹研究院机构上传
2022年中国数据管理解决方案产品策略解析概览(摘要版)

报告要点速览 本报告为2022年中国数据管理解决方率增长逻辑解析概览,将对数据湖,数据合库,湖合一体等产品面向的市场动向、前沿技术、企业需求等信息进行重点梳理,并从技术发展维度出发对市场发展前景做出推测或预判。 此研究将会回答的关键问题: 大数据技术栈的发展历程是怎样的? 湖仓一体是什么? 数据仓库和数据湖有什么技术进展? 观点提炼 数据管理解决方案发展及策略思路 在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、赋能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术蓬勃发展的根源。 数据管理解决方案技术趋势 湖仓一体进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利性。 数据仓库可根据建模方式进行分类,也可根据架构方式完成分类;而根据实时性,通过批处 理完成离线分析的是Hadoop仓库,流处理完成实时分析的主要是MPP数据仓库; 数据湖从Lambda架构开始完成离线与实时计算的融合,Kappa架构统一了数据口径简化数据几余。IOTA架构通过边缘下发和统一数据模型取消了ETL,进一步加速了数据湖效率。 大数据技术的选代变迁 在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、赋能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术蓬勃发展的根源 口大数据技术 大数据(BigData)在字面上的理解是海量数据,但这个角度是象的。在 网络信息时代,大数据产生的客观意义并不在于其宏大的数据规模,而在于如何数据进行专业存储和处理,并从中挖掘和提取所需要的知识价值。 技术突破通常来源于市场对产品的实质求,互联网、云、AI的不断发展 与大数据技术融合满足了商业需求。在大数据产业中,降低存储成本、提升计算速度、对数据进行多维度的分析加工、能企业利用数据价值,是大数据产业实现盈利的关键,也是大数据技术勃发展的根源。 大数据技术的选代变迁 产品特征 阶段 发展历程 时间线 系统营运数据为主 数据规模小。数据复杂性低,离线 用户输入数据为主: 大数据产品有各自的数据处理引擎,相对独立 传感器数据加入, 依托开源技术栈的大数据产品涌现,开始集成融合 关注数据价值提取 分散的引季技术栈继续收效,并向高安全、高可用等企业级要求延伸 [阿里云 DLF 商 滴普科技 FastData TAPDATA Tapclata Enterprise ESENSOFT PetaBase-V PetaBase-s 亿信华辰 GBASE GBase GCDW GBase 8a mpp cluster 来累:各公司言网,头的研究院 亚马逊云科技 Amazon Redshift S3+Lake Formation Redshift Spectrum Azure Synapse Azure Synapse Analytics Dataplex Cloud Pak Teradata Vantage Lakehouse Platform Cloudera Data CLOUDERA Platform Autonomous Data ORACLE Oracle Data Flow OCI Warehouse Hive Hudi TneApache Hadoop Iceberg 开源 Greenplum Dw Greenplum 来谭:各公司官网,买研究既 湖仓一体化 湖仓一体进一步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的便利性 数据管理平合的技术演变分类 GFS、BigTable Hadoop Spark] MapReduce 仅有少量行业信息化 互联网兴起 移动互联网兴起 少量的,结构化数据分析处理 大量的,非结构化数据的高效分析处理 大量的,非结构数据分析处理 采要:中国信通院,头药研究院 口湖仓一体化趋势 大数据技术的内涵伴随着传统信息技术和数据应用的发展不断滨进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术, 在大数据技术发展的60多年之间,数据应用经历了互联网、移动互联网蓬 勃的发展与需求变革。数据库与数据仓库基于事务分析处理等传统优势依然是当前信息技术的中流碳柱,但也在目益增长的数据复杂度需求以及海量弹性的数据规模面前难以匹配。 分布式架构的突破与云计算的兴起奠定了数据湖的概念,湖仓一体则进步取消了用户的选型困难,为用户提供的数据管理平台兼具数据仓库的结构和治理优点与数据湖的扩展性和为机器学习提供的使利性。 据集市 数 架构 数据集市 数据验证 ETL 湖仓 ETL 数据湖 生产数据 外部数据 结构化、举结构化、非结构化数据 结构化、半结构化、非结化数据 数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储,包括原始系统所产生的原始数据拷贝以及为了报表、可视化,高级分析和机器学习等各类任务而产生的转换数据。 湖仓一体将数据湖的语义灵活性与数据仓库的生产优化和交付相结合。它是一个融合的基础设施环境,支持从原始数据到精炼数据的整个过程,并最终提供优化后的数据以供消费。 数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理。 定义 ·对数据的并发读写·具有数据管理机制·可直接访问原数据·计算和存储的分离·标准化的数据格式·结构化非结构化数据·端到端的流处理 *内置的存储系统,数据通过抽 象方式提供,不暴露文件系统·数据需要清洗和转化,通常采 ·统一的存储系统存储原始数据 特 征 用ETL/ELT方式 ·丰富的计算模型/范式·数据湖与上云无关 强调建模和数据管理,供商业智能决策 收集和摄入所有数据源,获得整个无孤岛的数据集合 ·引擎深度理解数据,存储和计算可做深度优化 ·更强大的数据治理能力·更丰富的数据种类·更优的数据安全体系·更具弹性扩展的应用 支持对实时和高速数据流执行 ·数据全生命周期管理,完善的血缘体系 优势 ETL(抽取-转置-加载)功能 可扩展性和灵活性 ·具有人工智能的高级分析 ·低成本,使用相对廉价的PC服务器就能搭建起大数据集群, ·细粒度的数据管理和治理 ·完善的元数据管理能力,易于构建企业级数据中台 ·更低难度的数据、作业迁移·更统一的数据管理系统 ·无法处理非结构化数据*扩展性差 手务一致性差 事务一致性技术处理方面存在不足 劣 ·用户对设计、部署和维护能力也不成熟 ·从数据源到数据仓库之间的路 径较长,低并发性能,造成数 势 +数据治理存在挑战 ·数仓业务负载管理功能不完善 据孤岛 末源:头的研究院 口湖仓一体的产品类别 基于公有云上数据湖架构集成计算引擎的湖仓一体架构有:阿里云 MaxCompute湖仓一体和华为云Fusionlnsight智能数据湖; 基于开源Hadoop生态的组件如DeltaLake、Hudi、Iceberg作为数据存储中 间层的湖仓一体架构有Amazon智能湖仓架构、AzureSynapseAnalytics。 数据仓库不同于数据库,并非一门纯粹的技术,核心是为了对数据整合形成的一种体系结构 数据库与数据仓库的负载特点 OLTP PostgreSQL 分布式DB MySQL 数据库 +数据量 百万级 百亿级 Apache Drill Hive 数据仓库 PrestoImpala Spark GreenPlum OLAP 口数据库与数据仓库 数据库和数据仓库都是基于传统的关系数据库理论进行物理设计。但数据仓库不同于数据库,并非一门纯粹的技术,核心是为了对数据整合形成的 一种体系结构。 数据库侧重OLTP,数据仓库侧重OLAP。数据仓库是传统的关系型数据库如SQLServer、Oracle等,经过严格的数据模型设计或参数调整就可以变 成很好的数据仓库实体,而纯粹的数据仓库如Terradata、SybaselQ若要用 来适应OLTP系统则不合适。 趋势中,OLAP与OLTP正在走向统一融合成HTAP,数据库对AP分析能力的加强将使数据库与数据仓库的界限将逐渐模糊。 数据仓库构建流程数据库 数据仓库 ODS操作数据层 数据仓库的分析探作 通过ETL清洗过的干净的数据) (装影式) (数据分类建模) 钻取Drill-down 上要 Roll-up 分类进1 /分类雄2 ETL 切块Dice 旋转Pivot 分类N 分类好3 结果集 OLAP服务 ROLAP 数据仓库-执行模型与架构 数据仓库本身以及ETL的性能取决于通信、I/O能力和硬件性 能,执行架构则决定了数据仓库的支撑能力 数据仓库本身以及ETL的性能取决于通信、1/O能力和硬件性能,执行架构则决定了数据仓库的支撑能力。 三种不同的执行架构 Scatter/Gather模型 MapReduce模型 Massively Parallel Processing (MPP) 映射-归约 大规模并行处理 分散-聚集 Reduce Reduce Task Dlsk Gather Task Task Map Map 架构 Disk Task Reduce Reduce Task Task Task Disk Task Map Map 在多个缓冲区上实现一个简单的I/O操作,比如从通道中读取数 据到多个缓冲区,或从多个缓冲区中写入数据到通道 通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的返回它所完成的工作和最新的状态。 采用Shared-nothing架构,每个 定义 节点使用单独资源,拥有最佳运行环境。流水线执行无需等待, 数据内存存储。无磁盘IO。 ·Hadoop中的一种处理海量数据 Shared Nothing架构 ·单节点汇聚 特征 的并行编程模型 *分布式并行执行 ·相当于MapReduce中的一趟 ·数据分布式存储(本地化)*横向线性扩展 ·任务之间酱要等待中间数据落盘,存在磁盘IO Map和Reduce ·在计算资源无限、数据无相关 性的情况下很容易具有良好的扩展性 ·强调数据计算实时性,更大的 优势 1/O能力 从本地/O获取最大性能优势 ·采用列式存储.节约存储空间·兼顾易用性和扩展能力 ?低成本 可用低端服务器扩展 不支持非结构化教据的处理 完整版受录www.leadleo.com 文本分析等 等架构,性能瓶 搜案《2022年中国数据普理解决方案产品策略解析概胜》 劣 产 品 求源:Doris、CSDN.买豹新究院 低 传统数仓 高 中 低 高 中 结构化 数据仓库-开源组件对比 数据仓库可根据建模方式进行分类,也可根据架构方式完成分类;而根据实时性,通过批处理完成离线分析的是Hadoop仓库,流处理完成实时分析的主要是MPP数据仓库 数据仓库的分类根据建模方式分为MOLAP、ROLAP、HOLAP:根据架构方式主要分为HadOOp架构和MPP架 构;而根据实时性,通过批处理完成离线分析的是Hadoop仓库,流处理完成实时分析的主要是MPP数据仓库。对于厂商选型而言,根据需求可以选择众多不同方案的开源OLAP引擎组件优化数据仓库的表现。 简单查询与复杂查询场景的对比 简单查询 复杂查询 点查、简单聚合查询或者数据查询能够命中索引或物化视图(物化视图指的是物化的查询中间结 头的 千级 千级 性分析 能 *