热门搜索：

Apache Celeborn和数据湖计算引擎云原生实践

信息技术2023-07-12DataFunSummit2023：数据湖架构峰会L***

AI智能总结

Spark/Flink + Celeborn: 更快，更稳，更弹性

背景

传统Shuffle的缺陷：依赖大容量本地盘/云盘、IO放大、高网络连接、磁盘随机读、单副本限制、效率低下、稳定性不足、弹性不足。

Apache Celeborn (Incubating)

功能：大数据引擎统一中间数据服务，引擎无关，支持Shuffle和Spill数据。
贡献者：700+提交，33名贡献者（其中3名是新加入的），370+星。

性能

核心设计：推式Shuffle+Partition数据聚合，分区切分，存算分离，写放大，磁盘随机小IO，网络高连接小IO。
支持功能：Spark AQE、Partition合并、Join策略切换、Skew Join优化、Partition范围读、Map范围读、12 Split切分、Sort On Read、Range Read。
列式Shuffle：行列转换、代码生成、解释执行，行列转换开销低于5%，ShuffleSize缩减40%。
多层存储：支持内存、本地盘、OSS (HDFS)，可选择1/2/3层配置，使数据尽可能存放在快速存储中。

稳定性

原地快速升级：向前兼容，优雅重启。
流控：参考TCP拥塞控制，实现慢启动、拥塞避免、拥塞检测，还包括Credit-Based和其他Flink Shuffle Read实现。
负载均衡与磁盘监控：监控坏盘、刷盘速率、未来用量，隔离坏盘，尽量分配给快盘或大盘。

弹性

Spark on K8S：开源方案，设置spark.dynamicAllocation.shuffleTracking.enabled=true，但存在限制，几乎无法释放Pod。
典型场景：完全混部，提升性能和稳定性；Celeborn独立部署，提升性能和稳定性，源数据和Shuffle数据分离，部分弹性存算分离，计算、数据、临时数据分离，完全弹性。
超大作业：在混部场景中，大作业的稳定性和性能显著提升，Celeborn Worker数量可达1000+，压缩后Shuffle Data达4PB。
存算分离：存算分离场景下，Celeborn Worker数量可达100台，数万个Pod，性能和稳定性显著提升。
TPCDS：TPCDS测试中，性能提升约20%。

评价

完全混部：显著提升性能和稳定性。
独立部署：提升性能和稳定性，源数据和Shuffle数据分离，部分弹性存算分离。
超大作业：在混部场景中，稳定性及性能显著提升。
存算分离：性能和稳定性显著提升。

—2023— Spark/Flink+Celeborn:更快，更稳，更弹性演讲人：一锤—阿里云背景性能稳定弹性背景传统Shuffle的问题传统Shuffle的缺陷 •依赖大容量本地盘/云盘 •IO放大 •高网络连接 •磁盘随机读 •单副本限制 •不够高效 •不够稳定 •不够弹性 ApacheCeleborn(Incubating) Celeborn:大数据引擎统一中间数据服务 •引擎无关 •Shuffle+Spilleddata https://github.com/apache/incubator-celeborn •700+Commits •33Contributors,7Committers(3in-coming) •370+Stars 性能 •存算分离 •写放大 •磁盘随机小IO •网络高连接小IO 核心设计 PushShuffle+Partition数据聚合Partition切分 Partition范围读支持SparkAQE Partition合并 JoinStrategy切换SkewJoin优化 Map范围读 1 2 Split切分SortOnRead RangeRead 3 列式Shuffle •行列转换行列转换:(Int,String,Decimal) •代码生成•解释执行 •代码生成 •ShuffleSize缩减40%，行列转换开销低于5% 多层存储 •内存/本地盘/OSS(HDFS) •可任选1/2/3层配置 •让数据尽可能存在快存储稳定原地快速升级 •向前兼容 •优雅重启流控参考TCP的拥塞控制 •慢启动 •拥塞避免 •拥塞检测其他实现:CreditBased •FlinkShuffleRead 负载均衡 •隔离坏盘 •尽量分配给快盘/大盘磁盘监控 •坏盘 •刷盘速率 •未来用量弹性 SparkonK8S 开源方案:spark.dynamicAllocation.shuffleTracking.enabled=true限制：几乎无法释放pod Evaluation 典型场景完全混部 •提升性能&稳定性 Celeborn独立部署 •提升性能&稳定性 •源数据和Shuffle数据分离 •部分弹性 •提升性能&稳定性 •计算，数据，临时数据分离 •完全弹性存算分离超大作业 •混部场景：大作业稳定性&性能显著提升 •1000+CelebornWorker •压缩后4PBShuffleData 存算分离 •存算分离场景 •100台CelebornWorker •数万pods，极致弹性 •性能和稳定性显著提升 TPCDS •3TTPCDS20%性能提升感谢您的观看演讲人：一锤-阿里云

点击免费查看完整报告