登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
1-5 云原生开源分布式存储CubeFS在数据湖的探索与实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
王***
AI智能总结
查看更多
CubeFS设计原理
CubeFS简介
:CubeFS是CNCF开源的云原生分布式存储系统,提供多种访问协议(S3、HDFS、POSIX),适用于大数据、AI、容器平台、数据共享与备份等场景。自2019年开源以来,持续更新并加入CNCF沙箱项目。
关键特性
:
小文件友好,随机读写友好
兼容POSIX、S3、HDFS接口
多租户资源隔离
强一致性
弹性扩展和分层存储
系统架构
:
元数据子系统
:采用静态和动态子树分区,支持PB级元数据管理,提高扩展性和本地性。
数据布局
:支持小文件聚合、高效垃圾回收、顺序写副本复制。
CubeFS在数据湖存储的探索
数据湖定义
:统一存储原始数据(结构化、非结构化、半结构化),支持AI+大数据分析。
当前挑战
:
大数据存储现状:HDFS集群存在单点故障、元数据节点性能瓶颈等问题。
对象存储缺乏文件语义,操作成本高。
解决方案
:
纠删码子系统
:支持EB级规模,数据耐久性达11个9。
湖加速
:包括数据加速和元数据加速,优化访问速度和成本。
CubeFS在OPPO的应用实践
应用情况
:应用于文件共享、数据备份、分布式编译、大数据分析、机器学习等。
机器学习
:
集群规模:数十PB存储量,近百亿文件。
性能提升:元数据性能显著提高至1毫秒。
可用性提升:从99.9%提升至99.99%。
Spark Shuffle
:支持远程shuffle,优化集群资源利用。
后续计划
数据编排
、
数据压缩/重删
、
快照
、
QoS
等方向持续改进。
你可能感兴趣
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生数据湖存储的架构发展和数据治理-程力
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
字节跳动云原生微服务架构原理与开源实践
信息技术
CloudWeGO
2023-11-07
2024年云原生体系在中小金融机构的实践与创新报告
无锡农商行
2024-08-29
云原生安全可观测性探索与实践_江国龙
信息技术
ArchSummit深圳2022|全球架构师峰会
2022-07-19