您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱数]:AnyBackup Family 8 Hadoop 数据保护特性解读 - 发现报告
当前位置:首页/行业研究/报告详情/

AnyBackup Family 8 Hadoop 数据保护特性解读

信息技术2024-05-22-爱数J***
AnyBackup Family 8 Hadoop 数据保护特性解读

AnyBackupFamily8Hadoop数据保护特性解读 AnyBackup产品线 CONTENTS PART1 PART2 PART3 PART4 PART5 PART6 Hadoop简介与挑战Hadoop数据保护方案应用场景 技术原理竞争分析客户案例 PART01 Hadoop简介与挑战 Hadoop简介 大数据量存储 海量计算 日志处理 个性化广告推荐 ETL 数据分析 机器学习 数据挖掘 搜索引擎 用户行为特征建模 HDFSMapReduce 分布式基础设施 Hadoop是一套开源的用于大规模数据集的分布式存储和处理的工具平台。它最早由Yahoo的技术团队根据Google所发布的公开论文思想用JAVA语言开发,现在则隶属于apache基金会。 Hadoop以分布式文件系统HDFS(Hadoopdistributedfilesystem)和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设施。 Hadoop平台市场规模持续增长 400 350 中国大数据平台软件市场规模及预测(2019-2025) 全球Hadoop平台 软件市场规模 ¥4813.6亿 单300 位 : 亿250 元人民 币200 150 中国Hadoop平台软硬件市场规模 ¥677.3亿 100 50 0 2019 2020 2021F2022F2023F2024F 2025F 中国Hadoop平台软件市场规模 ¥92.2亿 预计未来5年我国Hadoop平台软件市场平均增长率为25% Source:IDC Hadoop已成为各行各业的重要性基础设施 中国大数据平台私有化部署市场份额 (2022) 金融 •千人千面 •智能投顾 •供应链金融 •信贷风险预测 •… 医疗 •疫情精准防控 •医疗物资调配 •临床决策支持 •… 62.5% 25.1% 5.0% 电力 •输电网规优化 •配电网络分析及优化 •用电负荷分析及预测 •电力调度模型分析及优化 •… 交通 •大数据深化“平安交通” •交通运输应急处置和调度指挥 •交通运输信用舆情监测 •… 1.6% 2.1% 1.9%1.8% ······· 其他华为阿里巴巴星环科技邦盛科技科杰科技柏瑞科技 数字化时代重要的基础设施 中国大数据平台部署每年保持高速增长,市场规模占比不断提高;其中作为大数据市场的代表性平台——Hadoop,广泛应用于各个行业 Source:IDC中国,2023 Hadoop为什么需要保护? 数据安全威胁严峻 停机导致巨大损失 国家政策法规驱动 随着Hadoop平台历史数据持续累积,保障数据安全面临的威胁愈发严峻: 1.安全事件频繁发生 2.勒索病毒日益猖狂 3.人为错误造成Hadoop平台数据丢失 •Hadoop作为业务平台的基础设施,一旦停机,导致其它业务也将无法正常运行 •Gartner一项调查中估计,以Hadoop为首的大数据平台经历一小时停机可能会给企业造成30万美元/小时的损失 GB/T22239-2019信息安全技术网络安全等级保护基本要求 (等保2.0) 8.1.4.9数据备份恢复 本项要求包括 a)云服务客户应在本地保存其业务数据的备份; b)应提供异地实时备份功能,利用通信网络将重要数据实时备份至备份场地; c)应提供重要数据处理系统的热冗余,保证 系统的高可用性 …… Hadoop平台数据保护面临的挑战 海量数据备份难 •PB级数据,如何有限的备份窗口内完成备份? •长时间保留海量数据备份副本,如何降低成本? 数据安全风险大 •如何确保备份数据的安全存储与合规保留? 核心数据无法定位 •如何快速定位核心业务数据,实现精准备份及按需恢复管理? 版本多样难以兼容 •面对各大厂商的多种商业发行版本,及复杂的多种主流组件,如何实现统一保护? Hadoop平台承载组织核心业务,数据一旦丢失,业务连续性将无法得到保障 Variety(多样) Volume(大量) Veracity(真实性) Velocity(高速)Value(低价值密度) PART02 Hadoop数据保护方案 PART2.1 Hadoop数据保护方案 AnyBackupFamily8Hadoop数据保护方案 生产环境 恢复环境 HBase Hive HDFS 华为 CLOUDERA 星环科技 虚拟化平台云平台物理服务器 表粒度备份 … 存储服务节点1 存储服务节点2 … 存储服务节点N Agent Agent Agent Propl yd分布式存 储 数据一致性保障 腾讯 永久增量备份多并发备份重复数据删除 表粒度恢复 数据可用性验证任意时间点恢复 多并发 多并发恢复跨集群恢复 HBase Hive … HDFS 华为 CLOUDERA 星环科技 腾讯 虚拟化平台云平台物理服务器 极致性能 •基于分布式架构的多点并发备份恢复、源端重删、无合成永久增量等技术,实现极致性能 安全合规 •全方位抵御勒索病毒,快速灾难恢 复保障业务连续性 •通过无代理备份,使生产业务安全备份 成本优化 •融合部署,节省客户端部署资源 •采用重删、永久增量技术,避免海量数据副本堆叠,节约存储资源 广泛兼容 •统一方案兼容多种衍生平台 •支持HDFS、Hive、HBase等主流组件备份 PART2.2 方案优势 …. Hadoop多节点集群 多节点 多通道 AnyBackupClient …. …. 弹性横向扩展 Proplyd分布式存储 Proplyd分布式存储,消除海量数据性能瓶颈 极致性能 多节点并发传输 AnyBackup备份集群不再成为性能瓶颈,可部署尽可能多的AnyBackup备份节点与客户端,提升数据传输性能 多通道并发传输 多通道并发备份/恢复,最大化资源利用率,提升备份数据读写与存储性能,减小备份/恢复时间窗口 无合成永久增量,提升96倍以上备份效率 154 周期性完备与永久增量备份效率对比(小时) AnyBackup永久增量 152 150 148 … 146 100 永久增量备份比传统备份快 96倍以上 … 0 123456 备份次数 周期性完备永久增量备份 测试环境说明: •网络环境为万兆网络 •6个备份周期 •首次备份总数据量为1PB •每次备份增量数据10TB •备份速度均为2GB/s 分布式重复数据删除,节约90%存储资源 AnyBackupFamily8 123 1 传统周期性全备 1 2 3 3 1 2 AnyBackup永久增量+重删备份 传统方案:每周全备 1 312 2 3 456 1 2 3 3 1 2 4 5 6 … V8数据保护方案:首次全备+每日增量备份 2 …使用AnyBackupHadoop数据保 12 31 456 nn+1 2 3 n n+1 n护方案可节约存储资源:90% 永久增量+重删备份副本堆叠 说明: •首次备份总数据量为1PB •每周增量数据10TB •备份副本保留28天 •首次重删率60% •重删+永久增量存储资源占用计算公式: (完备+Nx增量)*(1-首次重删率) •N为副本保留数 多种部署方式,降低部署成本,保障业务安全 部署方式一:融合部署部署方式二:无代理安全部署 Hadoop集群 AnyBackupClient …. …. Hadoop集群 …. AnyBackupFamily8分布式集群 AnyBackupClientAnyBackupClientAnyBackupClient 通过远程接口或命令调用,对Hadoop进行连接、访问与备份 存储服务 存储服务 存储服务 存储服务 融合部署,降低部署成本 利用内置客户端备份,节省服务器使用数量,降低部署成本 无代理备份,保障生产业务安全 将客户端部署在Hadoop生产集群以外,避免对用户生产环境造成不必要影响 全方位抵御勒索病毒,保障数据安全 Hadoop集群 …. 灾 自定义编排流程内置各种恢复流程模板自定义恢复策略 难恢复编排 事前:监控、备份、演练事中:识别勒索软件并恢复事后:溯源与增强 生产环境 …. 病杀毒引擎 毒 查杀毒引擎 杀 演 练内置/外接杀毒引擎 触发告警 病毒扫描病毒查杀 灾难恢复资源 恢复数据 内置/外接资源 实时监控 数据加密 副本数据 Air-Gap隔离 强制数据保留 不可变存储 •存储服务日志•云服务日志•网络日志 ····· 风险确认 追踪定位 监控预警 本地 存储 NAS 存储 对象 存储 SAN 全平台日志采集 海量日志长期留存 事后审计查询 存储 灾难恢复管理与演练确保数据安全数据不可变存储,防止备份数据被篡改日志合规留存,病毒攻击后溯源与优化 统一方案兼容多种衍生平台 主流产品 ApacheHadoop、星环TDH、华为云 MRS、ClouderaCDH… 海量应用推陈出新 复杂多样的大数据平台 基础架构愈发复杂 数据量爆炸式增长 平台组件 HDFS、HBase、Hive… 采用各平台通用的数据管理与读写接口/工具实现,“无视”平台之间差异 AnyBackupHadoop平台保护方案亮点 一句话介绍 基于创新的Proplyd分布式存储架构,消除了海量数据备份恢复性能瓶颈,采用分布式重删、无合成永久增量、不可变存储等关键技术,为Hadoop提供精准、高效、安全的数据保护方案 面临的 挑战 •PB级数据,如何在有限的备份窗 口内完成备份? •长时间保留海量数据备份副本,如何降低成本? •如何确保备份数据的安全存储与合 规保留? •如何快速定位核心业务数据,实现精准备份及按需恢复管理? •面对各大厂商的多种商业发行版本,如何实现统一保护? 方案 价值 •全方位抵御勒索病毒攻击 •数据不可变存储,防止数据被篡改 •无代理备份,使生产业务安全备份 •基于分布式架构的多点并发备份恢复、源端重删、无合成永久增量等技术,实现极致性能 •统一方案兼容多种衍生平台 •支持库/表级别的备份/恢复 •支持按文件目录过滤,可指定文件目录备份/恢复 •支持HDFS、Hive、HBase等主 流组件备份 竞争优势 •极致性能 采用可扩展的分布式架构和多并发备份恢复,提升备份数据读写与存储性能,减少备份/恢复时间窗口 •低风险与成本 融合部署,利用内置AnyBackupClient备份,无需“侵入”生产环境,降低备份对生产的影响;且在保障备份性能的同时最大化降低部署成本 •高容错 备份过程中,允许个别生产节点异常,异常节点上的代理工作会转交其他代理节点完成,备份任务仍可正常运行且备份成功 •广泛兼容 兼容开源Hadoop、华为、星环、Cloudera、腾讯大数据平台(腾讯TBDS备份即将发布) AnyBackupFamily8新增优势 AnyBackupFamily8相较于AnyBackupFamily7进行了全面的架构升级,显著提升了Hadoop数据保护方案对于 海量数据的处理、存储与管理能力 •全新升级的多节点并发备份/恢复 通过全新升级的多节点并发备份/恢复,提升备份数据读写与 存储性能,减小备份/恢复时间窗口 •无代理备份 通过无代理备份,将AnyBackupClient部署在Hadoop生产集群以外,降低对生产环境影响 •融合部署•兼容多种Hadoop发行版本 通过“融合部署”,节省服务器使用数量,降低部署成本 采用各平台通用的数据管理与读写接口/工具实现,统一方案应对多种Hadoop商业发行版本 PART03 应用场景 典型应用场景一:Hadoop平台本地备份及异地容灾 … … Hadoop平台 双授权双因子认证强制数据保留 本地生产中心异地灾备中心 本地备份 … 远程复制恢复 双授权 双因子认证 强制数据保留 恢复 Hadoop平台恢复 对象存储 本地设备 数据不可变存储 对象存储 本地设备 数据不可变存储 本地备份、异地容灾防止数据丢失 •通过本地备份,防止人为误操作、病毒感染、设备故障等造成的数据丢失