行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Apache Doris在知乎AB实验平台的使用实践

信息技术 2024-01-14 张潇鹤知乎静心悟动

知乎 AB 实验平台业务背景介绍

知乎 AB 实验平台是知乎主站、盐言故事、知乎知学堂等多条业务线的基础设施，每天运行上千个实验，处理日均百亿级进组用户数据。平台支持基础计算类、留存类、LTN 类等 4000 多个指标分析，具备离群值剔除、多维度下钻等功能。

知乎 AB 实验平台架构演进历程

知乎 - AB2.0 基于Clickhouse的平台架构

AB 2.0 平台采用预计算方式，将结果写入 ClickHouse，利用其单表查询能力。实验数据加工流程包括 AB 进组用户表和业务指标表，前者记录用户 ID、设备 ID、实验分组 ID 等信息，后者记录指标数据。

知乎 - AB 2.0 平台实验数据加工流程

AB 进组用户表包含 uid、cId、ab_id、enter_time、p_date 等字段，业务指标表包含 cId、frequency、content_consum_duration、content_consum_cnt、p_date 等字段。

知乎 - AB 2.0 架构的核心痛点

AB 2.0 架构存在三大痛点：

预计算资源消耗大，影响集群其他任务，只能做 Cube 剪枝。
ClickHouse 对多表或大表 Join 支持有限，无法满足部分业务场景。
已有指标数据无法复用，造成资源重复消耗。

知乎 - 新架构选型的二大核心目标

新 OLAP 引擎需满足：

AB 进组用户表和业务指标表进行即席关联查询，部分场景需 3-4 张表 Join。
支持每日百亿级数据量写入，支持事务导入，数据精准写入。

知乎 - 基于 Apache Doris 的 AB 数据流

切换到 Doris 后，数据流程清晰简单：

Hive 只做 AB 进组用户的落表和指标数据的加工。
通过 Broker Load / Steam Load 进行 Doris 的数据写入。
AB 平台直接对接 Doris 进行即席数据查询。

知乎 - 新旧 AB 平台功能与收益对比

Doris 新平台相比 ClickHouse 旧架构的优势：

Hadoop 资源消耗大幅降低。
Doris 在多表 Join 下性能表现优秀，实现相关性分析、归因分析、指标离群值剔除等功能。
业务可根据已有数据进行指标口径自定义，缩短数据加工链路。

知乎 AB 在 Doris 上的实践

知乎 - 表结构设计基本准则

利用前缀索引。
使用 zstd 压缩方式。
合理的 bucket 数量。
指定 Group，查询优先命中 Colocate Join。
排序列。

知乎 - 进组用户表设计

使用业务字段 exp_name 进行物理分区。
Spark 直接按照分区生成对应 parquet 文件，进行 broker load。
使用 AGG 模型，部分列更新，提升查询和写入效率。

知乎 - 精准进组用户分析（bitmap）

通过将用户的进组日期写到 Bitmap 里，使用 bitmap_and_count 函数与筛选日期做交叉查询，实现精准分析。

知乎 - 指标查询逻辑

指标拆解，按需查询。
归属同一张表的指标查询 SQL 合并。
缓存加速。

知乎 - 数据导入优化

参数调整：desired_max_waiting_jobs=200、async_pending_load_task_pool_size=15、async_loading_load_task_pool_size=15。
通过临时分区实现数据的原子导入。

知乎 - Join调优

根据不同场景选择合适的 Join 方式：

Broadcast Join：无网络开销，但物理算子条件限制。
Shuffle Join：网络开销较大，但适用范围广。
Bucket Shuffle Join：Join 条件中存在左表的分布式列，且左表执行时为单分区。
Colocate Join：Join 条件中存在左表的分布式列，且左表同属于一个 Clocate Group。

知乎 - Profiling

通过 Profiling 分析查询性能，优化查询计划。

知乎 - Apache Doris 调优后收益

查询耗时降低：SQL 执行总耗时降低了 35%。
查询性能提升：Doris 查询 P99 的用时，由 8s+ 降低到了 3s+，降幅 60%。

未来展望

数据冷热存储。
更多字段支持。
Local Shuffle 优化。

张潇鹤数据平台开发工程师目录知乎AB平台业务背景介绍01 知乎AB实验平台架构演进历程02 03知乎AB在ApacheDoris上的实践 04未来展望知乎AB实验平台业务背景介绍知乎-AB实验平台介绍 •知乎高质量的在线问答社区 •AB实验平台 AB实验的主要目的在于降低风险和分析策略结果。其基本思想是从大盘中取出一小部分流量，随机地将用户分给对照组和实验组，通过收集、分析不同分组用户行为指标数据，再结合统计学方法得出实验结论。知乎-AB平台的基本背景介绍 知乎AB实验平台支撑知乎主站、盐言故事、知乎知学堂等多条业务线，每天平台运行上千个实验。 实验进组用户表日均数据量百亿级。 支持实验分析场景多样：支持基础计算类、留存类、LTN类等4000多个指标分析，离群值剔除、多维度下钻等。知乎-AB平台进组用户生成逻辑介绍每天的实验进组用户数据量是DAU用户的数倍，一个用户携带的实验标签数量级介于数十~上百个不等。知乎AB实验平台架构演进历程知乎-AB2.0基于Clickhouse的平台架构 AB2.0平台采用了预计算的方式，最终将预计算结果写入到ClickHouse中，充分利用了ClickHouse的单表查询能力。知乎-AB2.0平台实验数据加工流程知乎-AB2.0架构的核心痛点老架构的三大痛点 痛点1：预计算资源消耗大，影响集群其他任务，只能对做Cube剪枝 痛点2：ClickHouse对多表或大表Join支持有限，很多业务场景无法满足 痛点3：已有指标数据无法复用，造成资源重复消耗知乎-新架构选型的二大核心目标 新的选型产品在海量数据同步和多表关联查询性能两个场景下同时满足业务诉求 •需要支持每日百亿级数据量写入，支持事务导入，数据精准写入。 •新的OLAP引擎需要满足AB进组用户表和业务指标表进行即席关联查询，部分业务场景需要3-4张表的Join。知乎-基于ApacheDoris的AB数据流切换到Doris后数据流程清晰简单： Hive中只做AB进组用户的落表和指标数据的加工，不再与AB业务耦合通过BrokerLoad/SteamLoad进行Doris的数据写入AB平台直接对接Doris进行即席数据查询知乎-新旧AB平台功能与收益对比 Hadoop资源消耗大幅降低 Doris在多个大表Join下性能表现优秀，新版AB实现了相关性分析、归因分析、指标离群值剔除等实验功能业务可根据已有数据进行指标口径自定义，缩短数据加工链路知乎AB在Doris上的实践知乎-表结构设计基本准则 •利用好Doris默认提供的前缀索引•zstd压缩方式•合理的bucket数量•指定Group，查询优先命中ColocateJoin•排序列知乎-进组用户表设计 •使用业务字段exp_name进行物理分区•Spark直接按照分区生成对应parquet文件，进行brokerload•使用AGG模型，部分列更新，提升查询和写入效率知乎-精准进组用户分析（bitmap）在精准分析业务中，会对用户进组/出组时间的滑动窗口查询，有两种实现方式： •记录每日明细数据，通过明细数据进行过滤•将用户的进组日期写到Bitmap里，通过bitmap_and_count函数与筛选日期做交叉查询知乎-指标查询逻辑 •指标拆解，按需查询•归属同一张表的指标查询SQL合并•缓存加速知乎-数据导入优化 •参数调整：desired_max_waiting_jobs=200async_pending_load_task_pool_size=15async_loading_load_task_pool_size=15•通过临时分区实现数据的原子导入知乎-Join调优 •当不确定两张表的大小时，可以使用sqlhint，让Doris自己去决定采用JoinReordersetenable_cost_based_join_reorder=true SELECTa.*FROMaINNERJOIN[shuffle]bona.user_id=b.user_id 知乎-Profiling 知乎-ApacheDoris调优后收益 1.查询耗时降低：每周查询总耗时，在统计执行的SQL数量略有增加的情况下，SQL执行总耗时降低了35%。2.查询性能提升：Doris查询P99的用时，由8s+降低到了3s+，降幅60%。 ThanksforWatching！

点击免费查看完整报告

Apache Doris在知乎AB实验平台的使用实践

知乎 AB 实验平台业务背景介绍

知乎 AB 实验平台架构演进历程

知乎 - AB2.0 基于Clickhouse的平台架构

知乎 - AB 2.0 平台实验数据加工流程

知乎 - AB 2.0 架构的核心痛点

知乎 - 新架构选型的二大核心目标

知乎 - 基于 Apache Doris 的 AB 数据流

知乎 - 新旧 AB 平台功能与收益对比

知乎 AB 在 Doris 上的实践

知乎 - 表结构设计基本准则

知乎 - 进组用户表设计

知乎 - 精准进组用户分析（bitmap）

知乎 - 指标查询逻辑

知乎 - 数据导入优化

知乎 - Join调优

知乎 - Profiling

知乎 - Apache Doris 调优后收益

未来展望

你可能感兴趣

Apache Doris在天翼云的最佳实践

1-5 Apache Doris 在同程数科数仓建设中的实践

Apache Doris在正泰集团数据中台的应用实践

7-2 基于 Doris 的知乎 DMP 平台的架构与实践

基于 Apache Doris 的传统行业实时数仓建设实践

小米集团基于 Apache Doris 的 OLAP 实践

Apache Doris在任子行的应用实践

1-2 基于 Apache Doris 构建实时统一的现代数据分析平台

Apache Doris在福特中国的应用

Apache Doris与Elasticsearch：在分析场景下的深度对比