登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
2-3 大数据存储加速与服务化在Shopee的实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
张***
AI智能总结
查看更多
存储现状
集群规模
:数千台
存储规模
:数百PB
文件数量
:数十亿
最大QPS
:数十万
存储加速
Presto 现状
集群规模
:数千实例
TP90
:约2分钟
输入数据量
:数十PB/天
查询次数
:数十万/天
Presto 优化
问题
:HDFS性能不稳定,Presto查询抖动
解决方案
:引入Alluxio缓存HDFS数据
Alluxio+Presto 经典解决方案
架构
:HDFS挂载在Alluxio目录上,Presto通过Alluxio访问HDFS
问题
:缓存容量有限,需要特定策略;首次数据不在Alluxio中时需额外导入
CacheManager 架构
组件
:Kafka、HDFS、Audit、HMS、计算应用、操作员、热表、缓存管理器、Alluxio、HDFS
功能
:监控热点表、更新缓存策略
CacheManager:热点表
机制
:按日期分区,统计每个表某一天的热度(访问次数)
CacheManager:更新策略
机制
:每天定时任务,选取最近七天访问最频繁的表进行缓存
CacheManager:HMS标签
标签格式
:
key:cache, value:${DC}/Alluxio/ebj@${Alluxio_nameservice}
CacheManager:REST API
功能
:挂载、卸载、加载、查询等
效果
社区贡献
:6个合并,2个进行中,1个修复
存储服务化
业务痛点
主要问题
:大多数业务数据存储于HDFS,不同业务使用不同的开发语言,HDFS非Java客户端不完善
解决方案
Alluxio Fuse
:物理机部署Alluxio Fuse服务,Kubernetes部署Alluxio Fuse服务
S3 for HDFS
:通过S3 API访问Alluxio服务
Alluxio Fuse原理
组成
:内核模块、用户空间守护进程
实现
:JNR-Fuse、JNI-Fuse
部署
:集成到worker进程、独立进程
K8s CSI部署Alluxio Fuse
优势
:节省资源,节点异常影响所有服务
K8s Sidecar模式部署Alluxio Fuse
特点
:灵活性高,互不影响
S3基础概念
桶
:存储对象的容器
对象
:存储桶中的基本实体
键
:对象的唯一标识符
区域
:选择区域创建桶
服务架构
Proxy映射关系
:Alluxio首级目录作为桶,子目录及文件路径作为键
认证
:签名计算、认证解析、验证器、密钥管理
社区贡献
合并
:4个,1个进行中,1个关闭
未来规划
存储加速
:Spark、Hive加速,CacheManager缓存自适应调整
存储服务化
:Alluxio Fuse支持更多POSIX接口,Alluxio CSI优化
你可能感兴趣
2-2 小米大数据存储服务的数据治理实践 - 李经纶
信息技术
DataFunSummit2022:数据治理在线峰会
2022-09-15
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
1-5 云原生开源分布式存储CubeFS在数据湖的探索与实践
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19
5 Shopee -StarRocks 在 Shopee 的应用和实践
信息技术
StarRocks 2024 年度技术峰会
2024-12-17
金融大数据服务转型的探索与实践
东方证券
2021-08-15