行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享

信息技术 2023-06-06 ArchSummit上海2023|全球架构师峰会光影

CubeFS产品介绍

CubeFS是云原生计算基金会(CNCF)孵化的新一代云原生开源存储产品，具备完整的文件和对象存储能力，支持S3、POSIX、HDFS等多种协议，可水平扩展至PB或EB级规模。

系统组件

资源管理子系统：包含多副本引擎和纠删码引擎，支持大小文件优化和高效回收机制。
元数据子系统：采用全内存缓存，支持线性扩展、定期快照、Raft wal日志，保证高可靠性和强一致性。
数据子系统：包含数据节点和对象子系统，支持多AZ部署和容灾。

多协议接入

CubeFS支持S3、POSIX、HDFS协议，实现多协议共享同一套元数据和数据，提升数据复用效率和资源利用率。

核心特性

可扩展性：支持水平扩展，各模块可独立扩展。
高性能：元数据全内存存储，支持多级缓存，大小文件优化。
多租户：支持细粒度的租户隔离策略。
云原生：基于CSI插件快速在Kubernetes上使用。

CubeFS在机器学习的应用

问题背景

传统CephFS存在MDS性能瓶颈、稳定性问题、多集群管理复杂、弹性资源差等问题，影响大规模训练效果。

CubeFS解决方案

多级缓存：缓存inode和dentry信息，减少客户端开销；利用GPU本地云盘缓存数据。
元数据优化：mp随机打散，避免热点数据；支持水平扩展的metaNode保证高可用。
混合云优化：公有云部署CubeFS配合本地缓存，解决跨AZ时延问题。

性能测试

RESNET18在Dataloader worker=1、16时，性能分别提升360%、114%。
AlexNet在Dataloader worker=16、24时，性能分别提升130%、80%。
相比私有云部署，公有云GPU加速性能提升12%-27%。

CubeFS在大数据中的应用

问题背景

传统HDFS集群存在NameNode单点瓶颈、多集群管理复杂、弹性资源差、成本高等问题。

CubeFS解决方案

统一存储：承接大数据冷热数据，降低TCO。
纠删码存储：存储超过100PB冷数据，在线降冷流程更快。
多副本引擎：副本数量弹性可调，支持1、2、3副本模式。
高耐久度：提供12个9的数据耐久度保证，支持跨AZ容灾。

成本效益

降低单位存储成本约30%，降低单位存储功耗。
存算机型区分，扩容成本更低，实现低碳存储。

性能优化

多副本引擎：作为缓存使用，加速访问。
小文件优化：聚合小文件，填充方式处理小文件。
shuffle优化：单副本降低成本，异步删除加速清理。

关键数据

相比HDFS，CubeFS在shuffle场景下稳定性提升，总TCO下降，shuffle效率提升至0.9999。

CubeFS未来演进

智能分层
多版本快照
混合云
多云加解密
QoS
回收站
GDS

官方资源

产品官网：https://cubefs.io
代码仓库：https://github.com/cubefs
公众号：涵盖架构设计、业务实践、源码剖析等内容
微信小助手：提供产品交流、技术讨论等

点击免费查看完整报告

你可能感兴趣

1-5 云原生开源分布式存储CubeFS在数据湖的探索与实践

信息技术DataFunSummit2022：大数据存储架构峰会2022-07-19

04-美团大数据及机器学习基础设施云原生改造实践-吴通

信息技术ArchSummit北京2023|全球架构师峰会2023-06-06

字节跳动云原生机器学习离线训练实践_单既喜

文化传媒ArchSummit深圳2022|全球架构师峰会2022-07-19

张云尧 - 火山引擎云原生大数据在金融行业的实践

金融DataFunSummit2022：智能金融在线峰会2022-11-24

云原生技术体系在寿险行业的规划和落地实践-周建华

金融ArchSummit上海2023|全球架构师峰会2023-06-06

云原生应用管理在阿里云的实践和挑战_胡志广

信息技术ArchSummit深圳2022|全球架构师峰会2022-07-19

孙勇福-云原生数据库管控探索和实践

信息技术ArchSummit北京2022|全球架构师峰会2022-11-02

InfoQ：云原生的技术探索与落地实践 | 研究报告

信息技术刘晖2020-11-19

检测城市道路安全线索：在世界银行交通项目中利用大数据和机器学习

信息技术世界银行2021-11-30

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊

信息技术ArchSummit上海2023|全球架构师峰会2023-06-06