有数大数据基础平台 NetEaseDigitalSailYoushuDataHub(NDH) 主讲人:蒋鸿翔网易数帆资深大数据架构师 CONTENT 1NDH介绍 2为什么要做NDH 3NDH特性及核心能力 数字化基础软件自主创新分享周 01 DIGITALSAIL NDH介绍 数字化基础软件自主创新分享周 NDH介绍 NetEaseDigitalSailDataHub(NDH)网易数帆有数大数据基础平台 是网易数帆结合网易内部在大数据领域十多年的沉淀积累,最新推出的企业级大数据基础平台。NDH基于最 新开源技术打造,并在Hadoop、Spark、Impala等多个核心组件做了功能增强,在实现对核心组件源代码的完全掌控的同时,适配信创软硬件生态,推动实现大数据基础平台真正的自主可控;帮助企业更全面、更便捷、更智能、更安全地运用数据,加速企业数字化转型。网易数帆有数大数据基础平台7月初正式上线,对外发售。 数字化基础软件自主创新分享周 大数据系列产品全景图 数字化基础软件自主创新分享周 02 DIGITALSAIL 为什么要做NDH 数字化基础软件自主创新分享周 为什么要做NDH 中美贸易摩擦:美国商务部限制美国企业为华为 提供各种零部件,同时限制企业与华为进行各类交易,交易前必须获得美国政府许可。 俄乌战争:包括Oracle、Apple、Google、SAP等在内的公司断供俄罗斯 国家政策/法规密集发布 数字化基础软件自主创新分享周 为什么要做NDH 国产化操作系统国产化数据库 数字化基础软件自主创新分享周 国产应用软件 国产大数据平台 为什么要做NDH 关于Cloudera软件的访问获取 信通院2019年6月份数据 数字化基础软件自主创新分享周 从2021年1月31日开始,所有Cloudera软件都需要 国内发行版本分布 其他 6% Apache24% CDH&HDP70% CDH&HDPApache其他 有效的订阅进行访问。这包括以下产品的所有先前版本:包含ApacheHadoop的Cloudera发行版(CDH),HortonworksDataPlatform(HDP),DataFlow(HDF/CDF)和ClouderaDataScienceWorkbench(CDSW)。 为什么要做NDH 相关功能缺失: •开源组件搭建的平台管理不方便,缺少统一管理机制 •缺少统一问题排查工具,不具备快速问题定位能力 •部分开源组件功能存在功能和性能上的缺陷,无法满足大数据量计算需求 数字化基础软件自主创新分享周 03 DIGITALSAIL NDH五大核心特性 自主可控平滑迁移安全稳定开发便利智能运维 数字化基础软件自主创新分享周 自主可控 整套完全自主掌握核心代码的大数据基础平台 开源了安全回收站、元数据分析服务等特性,保障数据安全和平台稳定性 基于Zookeeper的多Coordinator负载均衡;虚拟数仓隔离;自动元数据同步;管理服务器等 Spark权限管控与Ranger兼容;基于Kyuubi提供SQLonSpark的能力 Metastore基于Zookeeper的高可用没解决Metastore的负载问题 离线可视化开发,降低复杂度,节省开发人力;支持字段级别血缘;多种不同任务调度模式 数字化基础软件自主创新分享周 自主可控 适配信创硬件,满足金融及政府行业信创要求 •硬件兼容,适配华为鲲鹏等系列芯片, •兼容麒麟操作系统(v10),满足所有组件在麒麟系统下部署和平稳运行 •兼容国产数据库,满足企业全信创类需求 •支持包括华为云、阿里云、腾讯云等场景下云化部署 数字化基础软件自主创新分享周 平滑迁移 平滑迁移的定义: 在对业务不影响或者影响时间较短(<10min)的情况下,完成整体平台迁移切换到有数大数据基础平台 平滑迁移 平滑迁移需要考虑的内容: 兼容性要求 •兼容当前组件,对上层业务不会有太多兼容影响 •对于同类组件不同版本需要有迁移验证方案 •不兼容组件需要具备完整的迁移切换方案,如:Ranger 迁移的内容 •元数据迁移,难点:元数据的一致性保障 •数据迁移,难点:迁移过程和集群切换时的数据一致性验证 •权限迁移,包括用户的库表和HDFSACL权限在内的所有相关权限 •任务迁移,对接调度平台 平滑迁移 网易数帆迁移经验: 完成多套集群的机房搬迁和版本迁移类工作,最大集群超过2000台,业务无影响 安全稳定 网易数帆有数大数据基础平台集成了包括Ranger、Kerberos、LDAP等整套安全管理模块,并且基于网易数帆10多年数据平台管理经验,对不同的组件进行了安全稳定上的优化和增强。 数字化基础软件自主创新分享周 安全稳定 基于Zookeeper的LoadBalance Impala原版不支持LoadBalance,业务连接指定节点宕机后,影响整个业务,LB自动选择新节点 管理服务器 保存最近几天的SQL和执行计划,便于SQL审计,对于超时的SQL自动Kill,减少部分查询对整体影响 用户权限代理 支持用户权限代理,严格区分不同用户对于库表的访问权限,区别于社区开源版一个超级用户的方式,用户代理能够更好地对用户数据进行分级权限管理 基于虚拟数仓的隔离 支持对于同一集群中的不同节点进行分组,不同workload的业务配置不同的分组,避免业务之间相互影响 高可用、隔离、审计应有尽有 数字化基础软件自主创新分享周 安全稳定 增强回收站设计 HDFS通过API进行数据删除时(如:HiveDropTable操作),数据不会进入回收站,导致数据开发在误操作(insertoverwrite/droptable)时,会误删数据,通过增强回收站功能确保数据会先被保存到回收站 元数据分析服务 通过加载FSImage和回放EditLog的形式把集群的元数据保存到HBase,通过查询HBase既可以获取集群数据下文件的基本信息,包括:数据量大小、文件组织结构等等。通过元数据服务,释放了NameNode在统计方面的压力,保障整个集群稳定。 数字化基础软件自主创新分享周 尽最大可能保障平台和数据安全 开发便利 SQLonSpark服务 Kyuubi为基于Spark计算引擎上构建的SQL查询引擎,支持多租户隔离等特性 细粒度权限控制 自研SparkAuthorizer插件进行数据细粒度权限控制、行级权限、数据加密和数据脱敏等 Session共享 对于同一用户发起的不同Session连接,在内核层面共享SparkContext对象,节省查询资源开销 Z-order支持 支持数据写入z-order排序写入,降低70%数据存储空间,并且提升30%以上查询性能 像使用HiveServer2一样开发SparkSQL 数字化基础软件自主创新分享周 智能运维 智能故障分析 当前大数据集群庞大,运行过程中出现问题较多,经常会出现部分任务运行失败等情况,根据任务日志大多数没法定位到具体原因,导致整个问题定位过程非常长。通过构建任务、主机、服务之间的映射关系,在集群出现异常时,快速分析导致异常的原因,进而进行快速处理。 例如:右边集群中,一个机器的I/O利用率持续100%导致上面的任务出现数据读取超时,进而导致任务失败。通过智能分析,能够快速定位到原因。 数字化基础软件自主创新分享周 让任务诊断不再遥不可及 THANKS 感谢观看