您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放原子开源基金会&X-lab&阿里巴巴开源]:2022开源大数据热力报告 - 发现报告
当前位置:首页/其他报告/报告详情/

2022开源大数据热力报告

2022开源大数据热力报告

开源大数据热力报告 2022 研究目标和研究模型 热力“摩尔定律”和热力图谱 热力趋势:多元化、一体化、云原生 热力值TOP30和热力跃迁逻辑研究致谢 研究目标 Hadoop作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进 入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。 使用热力值进行定量分析 开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。 具体来讲,主要来自于几个方面: (1)开发者对开源项目的关注度,以及应用场景的广度和深度 (2)开发者参与项目开发的贡献活跃度 (3)开发者在开发过程中展现出的协作关联度 (4)项目和社区的可持续发展的健康度 这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。 本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。 数据来源 采集时间为2022年10月1日。 通过GitHublog获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、OpenPR,ReviewComment,MergePR等)。通过Jiraapi获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。 热力值表征开源项目开发者参与热度 开发者参与开源项目一般遵从规律:关注项目(Star)->参与问题反馈(提Issue)->参与开发协作(提交PR和Review、活跃Contributor等)。因此, 热力值由该规律中的3个关键指标加权而来。 •项目关注:每年新增Star数量,来自于GitHub公开数据 •社区反馈:每年新增Issue数量,来自于GitHub与Jira公开数据 •开发协作:每年OpenRank值,OpenRank由GitHub公开数据(OpenPR,ReviewComment,MergePR)计算所得,算法来自X-Lab开放实验室 #说明: 因开源大数据项目中有超过40%的项目,使用Jira进行Issue提交和反馈,因此将X-Lab原有的OpenRank算法进行了修正,将Issue剔除出来,不参与OpenRank计算。而将GitHub与Jira公开数据中的 Issue数单独列出作为社区反馈维度进行计算。 热力值计算公式 把2015年作为基期,2015年所有开源项目平均热力值作为基数,赋值为100。将三个关键指标做归一化处理,赋予对应权重比例,并由此确立了三个关键指 标的归一化系数。详见下表: 2015年所有项目 原始值 归一化系数 归一化后的值 归一化后的权重 平均新增Star数 772.48 0.03 25 25% 平均新增Issue数 1137.80 0.03 35 35% 平均OpenRank值 14.37 2.78 40 40% 热力值 ~ ~ 100 100% 某项目某年热力值=年度新增Star原始值*归一化系数+年度新增Issue原始值*归一化系数+年度OpenRank原始值*归一化系数 #说明: 所有大数据项目数据合计来看,新增Star数8年增长倍数为3,Issue数8年增长倍数为1.8,OpenRank值8年增长倍数为8。因此将基期中三个核心指标的权重比例设置为:25%:35%:40%。第8期的权重比例将变化为:15%:15%:70%。表征开发协作的比重大幅提升,这也与开源项目的生命源动力来自于更广泛的社区开发协作保持一致性。 热力值计算详见:https://github.com/X-lab2017/open-digger/tree/master/cooperations 每隔40个月,热力值提升1倍 我们按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括「数据集成」、「数据存储」、 数据可视化 「批处理」、「流处理」、「数据查询与分析」、「数据可视化」、「数据调度与编排」、「数据开发与管 理」8个类别。2022年开源大数据总热力值,增长到2015年的4倍。每隔40个月,热力值提升1倍。 热力变迁反映技术趋势 •开发者对「数据查询与分析」保持了长期的开发热情,连续8年位于热力值榜首。 •2017年「流处理」热力值超过「批处理」,大数据处理进入实时阶段。 •数据规模越来越大,数据结构更多样化,「数据集成」从2020年开始爆发式增长。 •近2年来,活跃的新兴项目为「数据调度与编排」、「数据开发与管理」注入新的活力。 2025年总热力值将突破3万 按照目前热力增长趋势预测,到2025年,总热力值将突破3万,「数据集成」、「数据调度与编排」、「数据开发与管理」将成为强劲的热力增长点。 60% 30% 12% 15% 22% 16% -9%-3% 2022年热力值年同比增速 2022年 热力值 汇总计算每个技术类别的开源项目热力值,用区域面积表征技术类别热力值大小,得到了基于数据生命周期的热力全景图。 2021年 14,801 17,103 我们抽取了2015年、2018年和2022年三个时间截面的热力全景图,如下所示: 2019年 11,778 2020年 12,914 2016年 7,148 2017年 8,359 2018年 9,029 批处理 2015年 4,620 批处理 数据集成 数据存储 数据查询与分析 数据可视化 数数据据集存成储 批处理 数据查询与分析 数据可视化 x2 数据集成 数据存储 数据查询与分析 数据可视化 流处理 流处理 x2 流处理 数据调度与编排数据开发与管理 2015年热力全景图 数据调度与编排数据开发与管理 2018年热力全景图 数据调度与编排数据开发与管理 2022年热力全景图 批处理 数据查询与分析 流处理 数据开发与管理 数据存储 数据调度与编排 数据集成 一套复杂体系分化为六大热点技术 经过10年发展,以Hadoop为核心的开源大数据体系,从2015年开始,转变为多元化技术并行发展,开发者的热情分别涌向「搜索与分析」、「流处理」、 「数据可视化」、「交互式分析」、「DataOps」、「数据湖」六大技术热点领域,每个热点领域集中解决某个特定场景问题。其中,「数据湖」以34%的热力值年均复合增长率高居第一位,「交互式分析」、「DataOps」紧随其后,分列第二、三位。而原有Hadoop体系的产品迭代则趋于稳定,热力值年均复合增长率为1%。部分Hadoop生态项目(如HDFS)成为其他新兴技术的基础依赖,另一部分项目(如Sqoop)则逐渐退出舞台。 热力跃迁更加频繁,彼此交替推动 与大数据应用场景和规模变化趋势相呼应,热点领域的热力跃迁(热力值大幅度跳变)遵循了从上层数据可视化应用普及,到数据处理技术升级,再到数据存 储和管理的结构性演变,最终,数据基础设施能力的提升又反过来推动上层应用的技术革新。具体表现为,「数据可视化」在2016和2021年经历了两次热力跃迁,「搜索与分析」和「流处理」在2019年热力跃迁,「交互式分析」和「DataOps」从2018年和2021年经历了两次热力跃迁,「数据湖」在2020年热力跃迁。 热力值 4000 2000 0 热点技术领域的热力值趋势 Hadoop体系搜索与分析流处理数据可视化交互式分析DataOps数据湖 热点技术领域的热力跃迁历程 2020 2015年2016年2017年2018年2019年2020年2021年2022年 热点领域 热力值年均复合增长率 代表项目 Hadoop体系 1% Hadoop、Spark、Hive、HBase 搜索与分析 14% Elasticsearch、Lucene、Solr、Opensearch 流处理 19% Flink、Beam、Kafka、Pulsar 数据可视化 24% Superset、Kibana、Grafana、Metabase 交互式分析 25% ClickHouse、Presto、StarRocks、Doris DataOps 27% Airbyte、Airflow、Dolphinscheduler、Atlas 数据湖 34% Iceberg、Hudi、DeltaLake、Alluxio 2021 底层技术演进,推动上层技术更新 「数据可视化」、「交互式分析」、「DataOps」热力跃迁 热力跃迁 2019 需要更低成本的管理、存储、分析数据 「数据湖」热力跃迁 2018 需要更快速的处理数据 「流处理」、「搜索与分析」热力跃迁 2016 需要更灵活的数据查询和数据调度技术 「交互式分析」、「DataOps」第一次热力跃迁 「数据可视化」第一次热力跃迁 上层应用的普及 从计算一体化到存储一体化 在对热力变迁数据的观察中,我们发现,从2015年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在2019年出现第一个热力峰 值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,并在2021年前后进入了开发迭代的热力高速增长期,在此期间,涌现了DeltaLake、Iceberg和Hudi等热点项目。 流批一体 数据湖存储 2019 基于ApacheFlink流批一体技术架构在阿里巴巴双11项目大规模应用落地 2022 ApacheFlink TableStore流式数仓发布 2017 ApacheBeam捐献给Apache基金会,统一批处理和流处理编程范式 2015 ApacheSpark 提出流批一体 2022 DeltaLake全部开源 一体化1.0 2019 DeltaLake 成为Linux基金会项目 2020 Hudi、Iceberg 从Apache孵化器毕业 一体化2.0 热力变迁背后是用户使用痛点的转移 多元化技术的蓬勃发展,在一定程度上增加了开源生态体系的复杂性,系统架构也存在性能瓶颈,且扩展能力有限。业界需要统一、融合的大数据系统,能够 将多种计算模式有机地融合在一起,易于扩展,能够支持新的模式,降低开源软件的开发、运维复杂度。 以「流批一体」为例,这种计算融合技术最早提出于2015年,它的初衷是让开发人员能够使用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。使用统一的计算框架,用户可以不用区分实时和离线计算的场景,减少用户的学习成本,减少开发和维护两套框架的运维成本。流批一体技术演进过程中的几个关键时间节点,2015年Spark提出流批一体,到2019年基于ApacheFlink在阿里巴巴双11项目中大规模落地流批一体应用,再到2022年FlinkTableStore流式数仓发布,每一次重大技术更迭,都会牵引大量开发者关注和参与,促使流处理领域热力值显著提升。 开发者在初尝了计算一体化带来的技术红利之后,开始在其他技术领域进行一体化的尝试。而另一方面,为多种不同的计算模型管理多套不同的存储已经成为了一个新的痛点。开发者深刻体会到传统数仓的难以逾越的缺陷,比如数据更新较为昂贵,缺乏跨数据源的高效联邦查询等。从2019年开始,数据湖存储解决方案DeltaLake出现,以及后续的Iceberg和Hudi等,都致力于解决存储一体化问题。 2015年后出现的新项目在2022年的热力值占比 92% 82% 80% 56% 55% 48% 8% 0% 发轫于云端的技术重构 过去几年,数据源和数据存储正逐步迁移到云端,更多元化的计算负载也运行到了云端,计算 与存储分离已成为大数据平台的标准架构。越来越多的开发者在云端开发中,对开源大数据项目进行云原生改造适配。云原生作为技术创新的实验场,改变了大量开源大数据技术的走向。