您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[货拉拉]:从Impala到Apache Doris,货拉拉用户画像优化实践 - 发现报告
当前位置:首页/行业研究/报告详情/

从Impala到Apache Doris,货拉拉用户画像优化实践

信息技术2024-04-25于敬晖、张斌货拉拉见***
AI智能总结
查看更多
从Impala到Apache Doris,货拉拉用户画像优化实践

orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 从Impala到ApacheDoris,货拉拉用户画像优化实践 Asia2024 DorisSummit 资深大数据工程师于敬晖 Asia2024 高级大数据工程师张斌 DorisSummit 目录01 02 Asia2024 DorisSummit 03 货拉拉画像服务现状货拉拉画像架构痛点 Asia2024 DorisSummit Impala>ApacheDoris迁移实践 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia2024 Asia202 04后续规划 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 01 Asia2024 DorisSummit Asia2024 画像平台早期现状 Asia2024 DorisSummit 货拉拉介绍 Asia2024 Asia2024 363座 100万 1350万 orisSummit DorisSummit mit Asia2024 A DorisSummit DorisSummit Asia202 DorisSummit Asia2024 国内货运开城数量月活司机数月活用户数 Asia2024 DorisSummit 画像平台价值&人群数量 20000. 18000. 16000. 19000. DorisSummit 17000. 人群数量 Asia2024 DorisSummit 画像应用场景 支撑货拉拉司机派券/邀约、用户满意度、估价等业务 Asia2024 14000. 12000. DorisSummit 12000. 13000. 画像人群增长情况 Asia2024 用户圈选人群的量级逐年增加 orisSummit mit A Asia202 10000. Asia2024 DorisSummit 2021202220232024 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 画像平台应用规模 Asia2024 DorisSummit DorisSummit Asia2024 DorisSummit 200+3000+5万 Asia2024 接入业务方数量标签数人群数 Asia2024 DorisSummit 用户体感 DorisSummit DorisSummit Asia2024 DorisSummit 人群计算慢 人群/标签灵活性差 人群推送不稳定 orisSummit Asia2024 mit Asia2024 A DorisSummit Asia2024 Asia202 人群量级过大,经常不跑或算不出数据 标签开发周期长,用户自定义标签使用门槛高 人群偶尔不推送,或者推送是历史数据 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 02 Asia2024 DorisSummit Asia2024 货拉拉画像架构痛点 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 画像平台架构图 DorisSummit 画像平台 Asia2024 DorisSummit Persona-BE:建造基于大数据体系的用户标签链路及系统,用于在特定业务形态下描述业务主体; Asia2024 DorisSummit Asia2024 Persona-API:基于重点使用场景/对接系统搭建画像服务,从而精准地生成用户画像,给到对接业务方使用。 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia2024 Asia202 货拉拉画像平台 DorisSummit Asia2024 DorisSummit 第三方组件维护难数据链路导入慢推送服务稳定性差 •Impala是神策采集服务组件之一,早期出于成本原因,接入神策 •神策针对Impala做过语法优化,画像服务不得不依赖 •强依赖神策相关的接口 •Impala+ES引擎组合:引擎SQL差异大,工程适配大量代码逻辑,新功能开发成本高 •数仓导入Impala耗时长,经常超时不能及时产出人群数据,使用神策Impala导入数据耗时90+min •人群计算耗时长,计算时长10+min,高峰期30+min •大批量推送人群,Impala容易发生OOM,由此产生一次隐患影响业务动作; Asia2024 DorisSummit 画像平台历史故障回顾 DorisSummit Asia2024 DorisSummit 20232024 Impala服务器内存OOM导致,画像任务数据延迟产出 网约车Impala服务重启,UDF失效,人群推送失败 Asia2024 DorisSummit Impala内存OOM导致,画像任务数据延迟查出 Impala升级,Impala及其服务接口变更,人群推送失败 orisSummit mit A Asia202 Asia2024 DorisSummit Asia2024 20222024 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 03 Asia2024 DorisSummit Asia2024 Impala>ApacheDoris迁移实践 Asia2024 DorisSummit 1.组件选型 orisSummit Asia2024 DorisSummit DorisSummit Asia2024 A DorisSummit Asia202 ApacheDruid 使用场景:监控APP线上性能数据,Bug管理、预警 mit Asia2024 存在痛点:学习成本高、角色较多、维护难度大 ClickHouse 使用场景:司机在线工作状态分析,大宽表查询 DorisSummit 存在痛点:学习成本高、并发能力较差 ApacheDoris Asia2024 使用场景:AB实验效果评估、数据分析 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 2.迁移方案 Asia2024 DorisSummit 2.迁移方案 阶段1:完成ApacheDoris相关链路,功能走通 DorisSummit 1.Doris建表2.数据导入 orisSummit mit A Asia202 建表调优: •表模型确认 •建表语句优化 Asia2024 DorisSummit •标签BitMap,交、并、差集操作,实现人群圈选 BrokerLoad导入任务: Asia2024 DorisSummit •导入任务数:50+ •任务数据量:4亿 •导入耗时:<30min Asia2024 任务配置: •定时调度 •同步任务状态信息 Asia2024 DorisSummit •监控告警 orisSummit Asia2024 mit DorisSummit A Asia202 2.迁移方案 阶段2:双跑,以Impala为主,Doris接入线上流量 DorisSummit Asia2024 DorisSummit 数据质量: •Doris和神策查询结果全量比对,发现存在差异 •Doris和Hive进行抽样比对 Asia2024 DorisSummit 稳定性: Asia2024 •调整查询并发度,探测集群水位、瓶颈 •Doris和Hive进行抽样比对 Asia2024 DorisSummit •监控大盘,制定告警规则,定期巡检 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 2.迁移方案 阶段3:双跑,以ApacheDoris为主,逐步下线Impala DorisSummit 以ApacheDoris为主 Asia2024 DorisSummit 1.以Doris为主引擎,计算、查询流量路由至Doris Asia2024 DorisSummit Asia2024 2.增量人群以Doris计算为主,存量人群通过人群引擎参数逐步迁移至Doris并计算 3.断开神策Impala连接和相关API调用 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 迁移前后架构图对比 orisSummit Asia2024 mit DorisSummit A Asia202 3.调优经验分享 DorisSummit Asia2024 DorisSummit 问题1:1.1.1版本,查询bitmap类型字段返回结果为null,不是预期值(预期返回0) 该问题是在版本升级后出现的,定位到相应参数return_object_data_as_binary不生效,此次版本升级重点是支持了向量化执行,而向量化执行会将bitmap类型的输出结果转为null,需要通过调整特定参数解决该问题。 Asia2024 DorisSummit 参数调整: Asia2024 •setreturn_object_data_as_binary=true; Asia2024 DorisSummit •setenable_vectorized_engine=false; orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia2024 Asia202 3.调优经验分享 问题2:集群升级至1.2.4版本,出现计算结果异常、数据质量问题 DorisSummit Asia2024 解法: DorisSummit 1.2.x版本低基数优化功能存在bug,对于varchar/char/string类型的比较运算可能存在数据质量问题;关闭该功能:enable_low_cardinality_optimize orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 4.数据质量保障 数据质量保障 DorisSummit Asia2024 DorisSummit 通过复盘分析结合以往经验:需提升、完善Doris数据质量保障能力 Asia2024 DorisSummit Asia2024 细节数据待补充 orisSummit Asia2024 mit DorisSummit A Asia202 5.数据质量保障 DorisSummit Asia2024 DorisSummit 增强能力 自动化回归测试能力(SQL集、数据集、自动化比对、回归测试报告) A

你可能感兴趣

hot

2-1 从 Apache Doris 存算分离到 PALO 的湖仓一体

金融
DataFunSummit2022:现代数据栈技术峰会2022-11-02
hot

Apache Doris在天翼云的最佳实践

信息技术
天翼云2024-04-25
hot

货拉拉大数据 Doris 稳定性保障实践

信息技术
DataFunSummit2023:OLAP引擎架构峰会2023-08-09