混合存储架构中的数据编排 Saiguang|Alluxio 1数据访问的主要命题 内容列表 2Alluxio最佳适用场景 3Alluxio的缓存加速、命名空间、接口转换 4基于Alluxio的数据管理 5基于Alluxio的数据联邦 数据访问的主要命题 多系统,多中心架构的优势---大势所趋 多个自建数据中心 读写性能 命名空间 接口转换 数据管理其他功能 (安全,审计,监控...) 单一数据中心不能满足扩容需求;数据异地灾备;在采集端进行数据预加工后再汇总 自建数据中心+云服务提供商 单台服务器 当前时代,上述命题不能依靠特定的存储或者计算厂商去解决,Alluxio应运而生! 单一分布式系统多系统,多中心 云上资源的可伸缩性;使用云上最新的服务和技术;公有云对象存储极低的边际成本;按用量付费 多云服务提供商 单一服务不能正常提供服务导致业务被“一锅端”;厂商锁死;不同云厂商对同一服务的定价和运维的能力不同;竞价优势 多系统,多中心架构的挑战---机遇伴随挑战 存算分离的网络瓶颈 不同数据中心之间、数据中心和云之间、不同云服务区之间,网络为珍稀资源;对象存储对高并发读写限流;对象存储egress高成本 linux,mysqlhadoophdfs,objstore,presto,ml 缺乏数据本地性 •内存,L1/L2缓存 •文件系统命名空间 •VirtualFileSystem •数据备份,FS日志 •datalocality •HDFSRBF •hdfs-fuse •distcp •跨网络传输 •对象存储不能挂载HDFS •异构存储系统接口不同 •异构存储同步/备份/分层 Presto对接不同的数据源,架构设计限制了计算和数据的本地性;依赖GPU资源的PyTorch,TensorFlow等任务不能在其他节点执行;对象存储系统有成本、运维的优势,但是与HDFS不同,不支持在数据服务器上运行计算程序 Alluxio的最佳适用场景 Alluxio解决特定场景 中的数据访问命题 编排数据贴近计算, 在存算分离场景下保证数据读写性能 联邦异构存储系统, 让用户通过统一命名空间访问数据 降低接口适配成本, 为复杂系统提供通用协议转换方案 屏蔽数据物理位移, 为运维人员提供自动化数据管理方案 Alluxio的数据缓存,命名空间,接口转换 命名空间 •统一混合存储命名空间(UnifiedNamespace) •同一个挂载点挂载异构存储(UnionMount) 接口转换 •引入新类型的存储系统(HDFS+S3) •统一ML和BigData的存储系统(HDFS+Fuse) •配合统一命名空间实现文件目录(HDFS/NAS+REST) •集群缓存&客户端缓存 •TTL,pin/unpin,缓存类型 •无需管理持久化数据 •数据缓存&元数据缓存 •RAM、SSD、HDD •资源自控,无限流 数据缓存 基于Alluxio的数据管理 应用场景:热数据放在HDFS中,冷数据放在对象存储中分层策略:超过6个月的文件由HDFS迁移至对象存储 执行引擎:根据分层策略扫描目录树、迁移文件、错误重试等 数据转移:数据的物理路径被UnionMount屏蔽,物理位置的改变对应用层无影响 AlluxioPDDM 执行引擎 UnionMount 数据迁移 AlluxioMaster 应用程序 云-A 数据流 控制流 注册信息 IDC MetaStore MetaStore 云-B MetaStore 基于Alluxio的数据联邦 混合云中的数据自治和数据共享 •通过使用多云、多数据中心,企业的各个执行单位在数据化的进程中表现得更加敏捷 •数据系统围绕部门、子公司、区域公司等组织结构形成数据孤岛,妨碍数据资产的价值提升 •传统方法通过数据同步实现数据孤岛之间的数据共享,但是面临诸多挑战 •数据一致性(数据同步是否结束?) •数据高冗余(数据生命周期如何管理?) •运维复杂度(哪些数据需要同步?) •管理复杂度(如何找到共享数据?) 基于Alluxio的数据联邦 •为共享数据的注册、发现提供中心化管理平台 •在库、表、文件3个层级提供联邦访问 •允许用户同时访问自治数据和共享数据 •用户访问远程数据时,按需缓存数据,避免数据同步 •系统的改造为增量改造,业务部门仍然使用原有的工作模式来访问自治数据 加入社区,关注动态 关注公众号 访问项目Github github.com/Alluxio/alluxio 更多案例 加入社区Slack alluxio.io/slack 感谢聆听 saiguang@alluxio.com