行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

Doris Bitmap 精确去重优化实践

信息技术2023-08-08DataFunSummit2023：OLAP引擎架构峰会Z***

AI智能总结

精确去重优化实践

1. 去重场景与解决方案

去重指标：PV、UV、日活用户数、订单量等，相较于普通指标（如sum, avg）计算复杂度较高。
业界解决方案：
- 数仓生产：在数仓生产环节提前计算指标。
- 模糊去重：使用HyperLogLog算法。
- 精确去重：导入预聚合结果，减少现场计算量。

2. 精确去重技术

Roaring Bitmap：一种基于位图思想的数据结构，用于保存聚合后的明细数据。
- 数据结构：包括数组容器、位集容器、运行长度编码容器。
- 性能特点：支持灵活维度分析，但高基数场景下Bitmap本身较大，计算吞吐和数据分布强相关。

3. Bitmap聚合性能优化

现有瓶颈：基于输入数据布局和计算流程的优化需求。
输入数据布局优化：
- 字典编码：映射非数值类型到数值类型，处理低位连续离散值。
- 高基数字典：减少单个Bitmap容器的数量。
计算流程优化：
- 高基数场景：直接使用bitset，避免多次array container union操作。

4. 结合Doris向量化引擎优化

内存使用优化：
- Bitmap列拷贝：优化内存使用，减少大量内存拷贝带来的影响。
- Jemalloc替换Tcmalloc：提高内存管理效率。
Fast Union：延迟合并，减少数据移动。
聚合下推：缓解大范围scan造成的聚合瓶颈，提高聚合吞吐。

5. 优化效果总结

基于输入数据分布的优化：独立编码和正交编码，分别提升5倍和10倍的分区行数。
基于计算流程的优化：高基数不使用array container，提升端到端时延减少20~30%。
结合Doris引擎相关优化：
- Bitmap Copy On Write：提升QPS 50以上，端到端时延减少50%。
- Fast Union：提升Bitmap精确去重查询端到端时延减少20%。
- 聚合下推：提升分区时间范围超过1年的精确去重查询中端到端时延减少20%。

DorisBitmap精确去重优化实践魏翔-美团-OLAP引擎开发工程师 DataFunSummit#2023 01精确去重简介目录 CONTENT 03结合Doris向量化引擎优化 02Bitmap聚合性能优化04优化效果与总结 01 精确去重简介 DataFunSummit#2023 01 精确去重简介 •去重计算场景与业界解决方案 •MPP架构两阶段聚合 •RoaringBitmap简介 DataFunSummit#2023 •去重指标计算 PV，UV的计算日活用户数订单量客户留存(率) …… 去重指标相较于普通指标（sum,avg）计算上的复杂度较高因此比较容易成为指标计算的性能瓶颈 SELECT `dt`AS`dt`, first_entranceAS`first_entrance_code`,COUNT(DISTINCTdevice_id)AS`view_uv`,FROMTBLA wheredt=20230501andtype='view’ GROUPBYdt,first_entrance 业界已有的解决方案 1.数仓生产：将各种指标在数仓生产环节提前计算好 2.模糊去重：HyperLogLog 3.精确去重：导入预聚合,减少现场计算量 •指标计算层级完全依赖数仓生产指标 •维度组合指数增长 •新增指标周期长 •数仓加工逻辑臃肿原理 •内存桶和哈希函数：将输入数据哈希到多个内存桶中 •寻找最长前缀零位（LeadingZeroCount，LZC）：对每个哈希值计算LZC •估计基数：通过统计LZC的平均值来估计基数 m StdError≈1.04(m=bucketnum) •精确的必要性重要指标无法近似：金钱相关数据驱动决策：近似误差会带来误判灵活维度分析：不同维度下钻分析 •MPP架构下精确去重过程:两阶段聚合 -StreamingAgg -MergeAgg数据结构 -明细模型:HashSet -聚合模型:Bitmap（基于RoaringBitmap实现）去重指标计算去重指标计算优势缺点数仓生产 •查询时延很低 •非常不灵活•开发周期长模糊去重（HyperLogLog） •查询时延适中•支持上卷，灵活维度分析 •存在误差现场计算—明细模型:HashSet •支持灵活维度分析 •高基数场景查询时延很高现场计算—聚合模型:Bitmap •查询时延较高•支持上卷，灵活维度分析 •高基数场景Bitmap本身比较大•计算吞吐和数据分布强相关 •RoaringBitmap数据结构 Bitmap是一种基于位图思想的用于保存聚合后的明细数据（64位非负整数）的数据结构保存明细数据使得其能够支持rollup构建以及任意维度的上卷分析 •ContainerType ContainerType 数据结构大小 ArrayContainer unsignedshort数组 size*16bit BitsetContainer bitset 65536bit RunLenContainer Runlength编码当size>4096时: bitsetcontainer更省空间 •AddValueintoBitmap •Union时间复杂度 unioncontainer类型时间复杂度 arrayunionarray O(m+n) arrayunionbitset O(m) bitsetunionbitset O(1) runlenunionrunlen 接近O(1) •关于精确去重指标 1.精确去重指标计算的复杂度高 2.精确去重场景中Bitmap兼顾灵活分析和性能 •关于RoaringBitmap 1.面向空间优化的 2.尽量将计算卸载到BitsetContainerUnion常数时间开销上 3.数据不宜太离散，低位连续，减少Container数量膨胀 02 Bitmap聚合性能优化 DataFunSummit#2023 02 Bitmap聚合性能优化 •现有性能瓶颈 •基于输入数据布局的优化 •基于计算流程的优化 DataFunSummit#2023 为什么需要字典编码？ •映射非数值类型数值类型 •低位连续离散值连续值高基数字典 •M可能在十/百亿量级高基数字典 •Tablet编码列分布稀疏 •单个Bitmapcontainer数量多 •每个container内部元数数量少字典优化 •(按日)独立编码:每天一个字典表，减少基数优势：基数减少几个数量级缺点：无法解决跨天查询正交编码优化 •优势: 1.Container数据连续，计算高效 2.二阶段聚合优化 •劣势： 1.预聚合度降低 2.数据易倾斜 3.无法满足多列去重场景 4.Shuffle再聚合，优化效果不明显正交编码优化 •优势: 1.Container数据连续紧凑 2.二阶段聚合优化 •劣势： 1.预聚合度降低 2.数据易倾斜 3.无法满足多列去重场景 4.Shuffle再聚合，优化效果不明显高基数场景现状：整个bitmap聚合运算会经历如下阶段 1.多次的arraycontainerunion操作 2.基数超过4096会转bitsetcontainer 问题: 1.合并container时元素上涨导致额外内存分配 2.单个arraycontainer元素数量变多单次union变重解决方案: •高基数场景，直接使用bitset，跳过arraytype •bitmap序列化shuffle时，检查是否需要降级array 03 结合Doris向量化引擎 DataFunSummit#2023 03 结合Doris向量化引擎 •内存使用优化 •FastUnion •聚合下推 DataFunSummit#2023 触发列拷贝的case 1.表达式计算SELECTCOUNT(DISTINCT CASEWHEN`page_type`IN(‘AAA’,‘BBB’)THEN`device_id`END) FROMTBL 2.JoinProbe SELECT COUNT(DISTICNTa.user_id)FROMajoinb ONa.order_id=b.order_idWHEREb.city_name=‘BEIJING’ Bitmap列拷贝开销 •Bitmap对象比较大大量内存拷贝 TCMalloc释放内存加锁影响并发性能 •火焰图 Expr计算占比Aggnode56%实际聚合计算的时长不到一半 Bitmap列拷贝优化 •Jemalloc替换Tcmalloc •Bitmap开启CopyOnWrite expr计算时长占比从56%14% FastUnion 1.延迟合并 2.减少数据移动解决的问题 •AggNode和Scanner吞吐不匹配 •长范围查询AggNode节点瓶颈 Scan轻量聚合 •数据存储时有序 •无需HashTable •Block相邻行聚合优势 •缓解大范围scan造成的一阶段聚合瓶颈 •充分利用scanner线程并发，提高聚合吞吐劣势 •优化效果和查询模式相关 scanner扫描的数据是按照表keys列排序的 04 优化效果与总结 DataFunSummit#2023 •集群规模 •3FE+100BE •基于输入数据分布的优化独立编码:取决于基数减少的量级基数：十亿亿分区行数：十亿级提升:5倍正交编码: 基数：十亿千万分区行数:亿级提升：10倍 •基于计算流程的优化高基数不使用arraycontainer: 基数：亿级以上单分区行数：亿级别维度基数：十/百提升：端倒端时延减少20~30% •结合Doris引擎相关优化 BitmapCOW: bitmap相关衍生列指标，QPS50以上，端到端时延减少50% FastUnion: Bitmap精确去重查询端到端时延减少20% 聚合下推：分区时间范围超过1年，精确去重查询中端到端时延减少20% 总结

点击免费查看完整报告

Doris Bitmap 精确去重优化实践

精确去重优化实践

1. 去重场景与解决方案

2. 精确去重技术

3. Bitmap聚合性能优化

4. 结合Doris向量化引擎优化

5. 优化效果总结

你可能感兴趣

从Impala到Apache Doris，货拉拉用户画像优化实践

MySQL Oracle到Apache Doris数据实时同步技术实践

货拉拉大数据 Doris 稳定性保障实践

Apache Doris在天翼云的最佳实践

无锡锡商银行基于Flink+Apache Doris构建实时数仓实践