登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
4-5 JuiceFS 在数据湖存储架构上的一些探索
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
光***
AI智能总结
查看更多
JuiceFS在数据湖存储架构上的探索
大数据存储架构概览
数据仓库
:用于分析历史数据,但存在数据孤岛、数据格式多样、分散管理等问题。
数据湖
:提供了一个存储原始数据的系统,支持多种数据格式,具有较低的成本和弹性,便于管理和处理大量数据。
湖仓一体
:结合了数据仓库和数据湖的优点,提供统一的数据管理方式,支持机器学习和深度学习。
JuiceFS简介
概述
:开源云原生分布式文件系统,基于Apache2.0协议,支持多种存储系统和协议。
特点
:插件化的元数据引擎,支持多种存储系统(对象存储、Ceph、Ozone等),多协议支持(POSIX、HDFS、S3、NFS、Samba等),多系统兼容(Linux、macOS、Windows),Kubernetes CSI驱动,提供数据缓存、加密、压缩、回收站、配额等功能。
用户
:小米、理想汽车、Shopee、知乎、火山引擎、网易游戏等。
JuiceFS与HDFS、对象存储的比较
特性
HDFS
对象存储
JuiceFS
存储规模(单命名空间)
亿级
万亿级
百亿级
一致性
强一致性
部分强一致性
高一致性
容量管理
手动
弹性
弹性
原子重命名
支持
支持
支持
List 性能
低
高
高
随机写
不支持
支持
支持
缓存加速
不支持
支持
支持
兼容性
不支持
完全兼容
完全兼容
JuiceFS与Lakehouse
依赖
:Lakehouse需要文件系统的支持,包括List、原子重命名、并发写、强一致性等。
对象存储限制
:基于key前缀的请求限制和API请求成本较高。
优化方法
:JuiceFS通过增加多级前缀来优化对象存储的API依赖。
JuiceFS与其他工具
与Hudi
:Hudi 0.10.0已支持JuiceFS,相关使用文档见
官方文档
。
与Fluid
:Fluid是一个开源的Kubernetes原生分布式数据集调度器和加速器,已添加JuiceFS Runtime引擎,相关使用文档见
官方文档
,项目地址见
GitHub
。
非常感谢您的观看。
你可能感兴趣
1-5 云原生开源分布式存储CubeFS在数据湖的探索与实践
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19
云原生数据湖存储的架构发展和数据治理-程力
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
高性能、云原生湖仓体存储架构探秘
信息技术
DataFunSummit2023:数据湖架构峰会
2023-07-12
混合存储架构中的数据编排
信息技术
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09