您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国数据智能管理峰会]:哔哩哔哩OLAP平台引擎演进实践 - 发现报告
当前位置:首页/其他报告/报告详情/

哔哩哔哩OLAP平台引擎演进实践

2023-04-15李呈祥中国数据智能管理峰会持***
哔哩哔哩OLAP平台引擎演进实践

哔哩哔哩OLAP平台引擎演进实践 演讲人:李呈祥 01OLAP平台介绍 03湖仓一体 目录 02ClickHouse 04总结 1.业务分散自建 2.没有统一OLAP平台建设 3.缺乏完善的接入工具和 标准 4.多种OLAP引擎并存,维护使用成本高 阶段一:数据服务引擎收敛到ClickHouse 1.性能强大 2.功能丰富 3.支持各种场景 4.业界大规模使用,社区活跃,稳定可靠。 典型的使用场景: 1.用户行为分析 2.人群圈选 3.Up主/稿件分析 64节点ClickHouse集群 用户行为分析平台的业务特点: 5PB数据量 1.数据量超大,超千亿条数据/天。 P904s响应 2.大量天/周/月级别的分组UV统计/留存/漏斗/路径/用户分群分析等。3.数据业务来源较多,公共属性字段和业务私有属性字段并存。 问题一:超大规模数据写入导致的CK集群稳定性问题。 ClickHouseBulkLoad: 1.将写入资源消耗移出ClickHouse,为查询提供稳定的资源保证。 2.Spark任务可scale-out扩展,不受clickhouse节点限制。 问题二:如何达到交互式的查询性能。 主要的性能优化手段: 1.统一的UserID字典映射,从String映射为bigint 2.ByUserID分shard存储,将分布式CountDistinct 转化为LocalCountDistinct。 3.通过数据聚合物化,将UV/漏斗/人群分组等操作转化为RoaringBitMap的交并差计算。 B站基于ClickHouse的海量用户行为分析应用实践 阶段二:文本检索迁移到ClickHouse ES部分场景的迁移 文本检索 搜索排序 基于ElasticSearch日志平台的相关问题: 1.写吞吐量上有着明显的瓶颈,分词耗CPU且难以 解决热点问题。 2.由于压缩率不高的原因,ES的存储成本较高,对内存有着较高的要求 3.数据分析能力较弱,入一份数据进大数据平台代价又太大。 案例二:日志平台 日志平台从ElasticSearch迁移到ClickHouse的收益 写入性能提 升10倍 存储成本降 低至1/3 结构化字段查询性能提升2倍 P903s ClickHouse内核层面主要的增强 B站基于Clickhouse的下一代日志体系建设实践 MapV2隐式列 业务场景涵盖: 1.用户行为分析 2.人群圈选 3.广告DMP 4.电商交易分析 5.OGV内容分析 6.日志/Trace分析 读写访问模式涵盖: 1.多维分析 2.文本检索 3.中低频点查 4.时序数据 5.CDC更新 6.灵活Schema 千万查询/天 P90200ms 超万亿条写入/天 阶段三:湖仓一体降本增效 什么是湖仓一体? 1.开放的查询引擎(Spark/Presto/Trino) 2.开放的存储格式(Iceberg) 3.统一的存储和元数据管理(HDFS/HMS) 4.高阶数仓引擎的能力(dataclustering/索 引/预计算/实时/upsert) •数据接入:Spark(离线), Flink(实时) •数据管理:Magnus/Spark •数据缓存:Alluxio •查询引擎:Trino •异步的数据组织优化。 •基于策略的数据组织 优化任务调度 湖仓一体适用场景 离线分析 收益: 1.更好的查询性能。 2.ACID。 3.数据近实时可见。 场景: 1.BI报表。 2.近实时分析。 3.数仓分析层建模。 湖仓一体 收益: 1.无需数据同步冗余。 2.计算存储分离。 3.工具链完 备。 场景: 1.历史数据低频访问。 2.低成本数据副本。 3.低频秒级数 据服务。 OLAP引擎 DataClustering •文件间和文件内排序 •Z-Order数据排序 Index •BloomFilter •BitMap •TokenBloomFilter •TokenBitMap 预计算 •Min/Max/Count/Avg •CountDistinct/ApproximateCountDistinct •TopN 报表数据产品在线服务运营 指标服务 •Iceberg成本最低, 满足大部分需求。 •ClickHouse满足部分 查询性能要求较高 的数据产品需求。 •KV灵活性最差,满足超高QPS在线服务需求。 KV 20W查询/天 P901.2s ClickHouse Iceberg B站数据平台:数据服务之路 日志平台1.0日志平台2.0 资源成本比ClickHouse降低50%以上。 日志平台3.0 搜索排序 文本检索数据分析 秒级到分钟级响应,小于100QPS 毫秒级到秒级响应,小于1000QPS 在良好的数据建模下,ClickHouse可以满足大部分OLAP场景需求(点查/明细查询/多维分析/预计算/时序) 文本检索(如日志)场景,ClickHouse可能是一个成本更 低的方案 湖仓一体和ClickHouse是互相补充的关系,湖仓一体是成本更低的加速离线数据分析的方案。 湖仓和ClickHouse的查询引擎的统一会是下一步我们引擎演进的方向。 THANKYOU!