登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稳定币
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
王鹏哲 转转- Clickhouse 在自助分析场景中的探索及实践
休闲服务
2022-05-18
DataFunSummit2022:大数据计算架构峰会
董***
AI智能总结
查看更多
ClickHouse在自助分析场景中的探索及实践
一、转转自助分析场景下OLAP选型
性能数据量级
:亿级/百亿级/千亿级
数据时效性
:毫秒级/秒级/分钟级
灵活性
:支持聚合结果/明细数据
数据链路
:支持离线/实时查询
查询支撑
:高并发、即席查询
二、OLAP引擎选型
自身存储
Kylin
: 亚秒级查询速度,支持高并发;维度多时预计算结果膨胀;灵活性差。
Druid
: 实时数据摄入,高性能;OLAP场景支持有限。
Impala
: 计算基于内存,支持窗口函数和UDF;内存依赖大。
Presto
: 跨数据源联邦查询,支持多表join;容易发生OOM。
ClickHouse
: 列式存储,向量化引擎;单机性能彪悍;支持数据复制和完整性。
三、ClickHouse特性
完备的DBMS功能
:支持复杂的SQL操作。
列式存储
:提高查询效率。
向量化引擎
:提高CPU利用率。
亚秒级查询响应
:支持实时分析。
支持数据复制
:保障数据完整性。
多样化的表引擎
:灵活支持不同场景。
四、高斯平台自助分析场景
埋点数据管理
:统一管理和监控埋点数据。
自助分析
:多维度、多指标交叉分析,支持多种业务需求。
系统架构
:
数据接入
:离线数据通过Hive ETL,实时数据通过Flink写入ClickHouse。
数据服务
:提供封装服务供外部调用。
数据清洗
:提供客户端工具进行数据清洗。
高可用架构
:由ReplicatedMergeTree表引擎管理数据副本,依赖Zookeeper。
五、业务场景
行为分析
:通过MATERIALIZEDVIEW进行实时查询。
AB TEST分析
:支持实时实验指标观察。
亿级数据JOIN
:通过分桶JOIN技术提高效率。
六、ClickHouse优化实践
内存优化
:配置max_memory_usage限制内存使用,使用预估函数减少内存消耗。
Zookeeper优化
:调整MaxSessionTimeout参数,分离dataLogDir和dataDir目录,使用SSD存储。
性能调优
:建议使用数值型或日期时间型字段,避免使用Nullable类型,合理使用列裁剪和分区裁剪。
七、未来规划与展望
业务方易用性
:提升易用性和多租户隔离。
服务平台化
:实现故障规范化和存算分离。
ClickHouse容器化部署
:根据业务场景选择合适的引擎。
服务架构智能化
:实现实时写入一致性保证,分布式事务支持。
内核级优化
:移除Zookeeper服务依赖,进行内核级优化。
你可能感兴趣
张尧 AI Agents在On-call助手场景中的探索与实践
信息技术
DataFunSummit2024:数据产品在线峰会
2024-12-06
EB_级数据治理在蚂蚁安全的探索与实践_康树鹏
信息技术
ArchSummit深圳2022|全球架构师峰会
2022-07-19
5-4 Apache Spark 在自助分析系统的应用实践与优化
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
大模型在运维低容错场景下的应用实践探索 - 傅建新
信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站
2024-10-21
2-4 隐私计算在医疗大数据共享中的探索实践 - 包仁义
信息技术
DataFunSummit2022:数据安全与隐私计算峰会
2022-07-18