封面页 (此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿PDF版中做更新) 目录 ClouderaCDP产品介绍4 CDP/HDP何去何从23 Hive3新特性62 CDP平台的安全和治理78 CDP集群管理115 如何访问CDP集群142 如何迁移CDH/HDP到CDP148 HDFS迁移到CDP160 Hive迁移到CDP173 HBase迁移到CDP192 CDP之操作型数据库206 CDP之数据存储226 CDP之数据仓库255 ClouderaCDP产品介绍 一、阿里云+Cloudera产品介绍 1.阿里云+Cloudera大数据方案介绍 Cloudera公司的几款产品在2021年FORRESTERWAVES中的位置都是StrongPerformers或者Leader,展现出产品被市场认可的程度。 Cloudera公司的核心产品是ClouderaDataPlatform(CDP),它整合了CDH和HDP两者的优势,并根据业界的最新技术趋势形成的新平台,提供了业界首个混合数据云平台产品。 CDP在混合云和多云环境中可以提供强大的自助服务分析和弹性,给IT和数据管理员所需要的复杂性、细粒度的安全与治理策略。 Cloudera最新的许可政策 •Cloudera的许可政策类似于成熟的RedHat开源模型。 •该模型在市场上广为人知,并被全世界的企业所接受。 •所有产品源均将获得OSI批准的许可证(ApacheSoftwareLicense,ASL或 GNUAfferoGeneralPublicLicense,AGPL)的许可。 •访问从Cloudera获得的所有产品的二进制文件和源代码都需要订阅协议,获取到产品许可证和访问账户才能进行访问。 •由ApacheSoftwareFoundation托管的我们为之贡献的所有开源项目将继续是ASF管辖的项目。 •我们的源代码贡献模型保持不变,并且仍然是第三方项目的第一个上游。第三方项目存储库的公共资源仅在上游。 Cloudera终止提供社区版CDH和HDP的下载和维护 •2021年2月1日,Cloudera终止CDH和HDP社区版的免费下载,所有的CDH 和HDP产品也逐渐进入了结束生命周期的支持阶段。 •HDP2.6.x/CDH5.x覆盖了约70%的客户群,EOS时间2020年12月终止生命周期和支持。 •HDP3:2021年12月终止生命周期和支持。 •CDH6.3:2022年3月终止生命周期和支持。 售卖形态:基于阿里云如何售卖CDP? •公有云形态:半托管模式的CDP ClouderaCDP混合数据云平台是企业版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的半托管形态的大数据平台。该平台可以灵活地运行各种企业工作负载(包括实时摄取和分析、批处理、交互式SQL查询和分析、企业搜索、高级分析和机器学习等),支持从边缘计算到人工智能的多功能数据分析,提供企业级的安全模型来保障客户数据安全。 基于阿里云部署的ClouderaCDP企业数据云提供给用户开箱即用的CDP平台,减少了用户对平台搭建的时间成本和人工成本,并大幅度降低后续的运维成本。 •专有云On-Premise:线下转售三大套件(CDP、CDF、CDSW) 阿里云的交付模式: 公有云 线下输出 部署开通 阿里云 选项1:Cloudera原厂服务选项2:GTS 运维 Tier1/Tier2:阿里云Tier3:cloudera 产品默认带7*24原厂远程支持服务现场服务可购买PS 应用交付 合作伙伴 合作伙伴 二、公有云方案:云上CDP 1.基于阿里云部署的CDP 1)产品核心 •部署商业版CDP,包括完整的ClouderaManager及ClouderaRuntime。 •基于多种规格的ECS,开箱即用,支持云上集群扩展能力以及数据湖。 •与阿里云产品集成互通,提供高安全、合规和高可用的云上CDP平台,降低复杂性。 •无需配置的正版软件及正版license许可证。 2)产品引擎与服务 •100%兼容开源Hadoop生态,经阿里云与Cloudera联合研发性能优化。 •提供商业化SLA保障与7*24小时的阿里云和Cloudera专家支持服务。 •提供专家服务及咨询,如平台迁移、数据迁移、版本升级、参数调优等。 2.一致的安全与治理-SDX 1)专为随时随地进行多功能分析而设计 •安全性:动态细粒度的访问控制始终应用于所有云和数据中心。包括全栈加密 和密钥管理、动态行过滤和动态列掩码。 •治理:跨平台应用的企业级审计、数据血缘和治理功能,具有丰富的合作伙伴集成扩展性。 •元数据:利用所有元数据(结构、运营、业务和社交)建立信息资产,以提高可 用性、信任度和价值。 •目录:用于管理和使用跨越所有分析和部署的数据资产的单一窗格。 •智能:洞悉平台中如何使用数据、元数据和分析,从而为优化提供建议和自动 化。 2)SDX提供 •通过在所有云和数据中心中一致地应用动态细粒度访问控制实现安全性。包括 全栈加密和密钥管理。 •通过跨平台应用的企业级审计、沿袭和治理功能进行治理,并具有丰富的合作伙伴集成扩展性。 •还有智能,可以洞悉平台中如何使用数据,元数据和分析,从而为优化提供建 议和自动化。 •我们从最广泛的意义上利用元数据:不仅是您称为架构的结构类型,而且还包括运营、业务和社交方面的元数据,建立信息资产以提高可用性,信任度和价值。 •最后,SDX提供的数据目录是一个统一的窗格,用于管理和使用涵盖所有分析和部署的数据资产。 3.统一版本(CDP–ClouderaDataPlatform) CDP–整合CDH和HDP两者的优势。 CDPPVC基础版功能地图。 CDP针对CDH/HDP用户的新功能。 CDH客户的新功能 策略和授权 •动态行过滤和动态列掩码•基于属性的访问控制•SparkSQL细粒度的访问控制•Sentry到Ranger的迁移工具 数据治理 •元数据、血缘和监管链,高级数据发现和业务词汇表•Navigator到Atlas的迁移,提高了性能和可伸缩性 流媒体 •支持与HDFS,AWSS3和Kafka流的KafkaConnect •对Kafka集群的集群管理和复制支持•使用CruiseControl在集群之间存储和访问架构以及重新平衡集群 运营数据库 •支持具有完整ACID事务功能的标准SQL•二级索引•星型Schema支持•基于表的视图 数据仓库 •Hive-on-Tez提供更好的ETL性能•ACID事务,ANSI2016SQL支持,主要性能改进•查询结果缓存•物化视图•改进的CBO,矢量化覆盖率 存储 •ApacheOzone提供HDFS30倍的可扩展性,支持100亿个对象 •S3原生支持•与Kafka和Nifi的集成 安全 •使用Knox的基于网关的SSO•支持RangerKMS-KeyTrustee集成 •支持新的KeyHSM版本 HDP客户的新功能 管理 •虚拟私有集群(VPC) •自动传输加密设置•针对管理员的细粒度RBAC•简化的维护工作流程 搜索 •在非结构化数据上基于相关性的文本搜索(text,pdf,.jpg...) 数据仓库(Impala) •更适合DataMart迁移用例(交互式,BI样式查询)•能够查询大型集群中的大量数据(“大数据”)•集群环境中的分布式查询,方便扩展•与Kudu集成以获取快速数据并为策略提供Ranger•用于大数据处理和分析的单一系统,因此客户可以避免仅用于分析的昂贵的建模和ETL 查询编辑器 •内置SQL编辑器,可自动完成智能查询•共享查询,图表结果并下载任何数据库•轻松搜索,浏览,导入数据集或作业 存储 •ApacheKudu -更好的性能,可快速更改/更新数据。通过Kudu和Impala报告更新支持 -Kudu+Spark的实时和流式应用程序-时间序列分析,事件分析和实时数据仓库以最智能的自动完成功能提供最佳的查询体验 •ApacheOzone提供HDFS30倍的可扩展性,支持100亿个对象 •S3原生支持 加密 •Auto-TLS功能可自动执行启用TLS加密所需的所有步骤•RangerKMS与KeyTrusteeServer集成以提供额外的密钥提供程序存储•使用NavEncrypt进行静态加密 CDP大数据组件列表。 CDPPrivateCloudBase7.1 •ClouderaManager7.3•Hadoop3.1•Spark2.4.5/3•Hive3.1 •Impala3.4•Oozie5.1•Hue4.5•Ranger2.1•Atlas2.1•KafkaSchemaRegistry0.8 •HBase2.2•Phoenix5.1•Kudu1.13•Sqoop1.4.7•Parquet1.10•Avro1.8•ORC1.5•Zookeeper3.5•Solr8.4•CruiseControl2.0•Tez0.9 •KeyHSM7.1•Knox1.3•Livy0.7•NavigatorEncrypt7.1•RangerKMS7.1•Zeppelin0.8.2 •HiveWarehouseConnector1.0 •Kafka2.5•StreamsReplicationMgr2.1 •StreamsMessaging Mgr1.0 •KeyTrusteeServer7 •Ozone1.0•KafkaConnect2.4 •RHEL/CENTOS/OEL7.6,7.7,7.8,7.9•Ubuntu18.04 •SLES12SP5•JDK1.8/11 •MySQL5.7/8•OracleDB12.2/19.3•PostgreSQL10,11.x,12•MariaDB10.2 •从CDPPvCBase7.0升级•从CDH5.13-5.16升级 •从HDP2.6.5升级•从HDP3.1升级•从CDH6升级 CDP大数据组件列表–简化管理的紧密结合的平台。 公有云客户:1.2倍成本带来三大收益。 三、专有云方案:CDP、CDF、CDSW 1.CLOUDERA-混合数据云 On-Premise(专有云)整体方案,CDP/CDF/CDSW 2.ClouderaDataFlow–从边缘到云的实时流数据管理 •DATAFLOW:它由ApacheNiFi提供支持,使开发人员能够以任何结构连接到任何地方的任何数据源,对其进行处理,并使用低代码创作体验交付到任何目的地。 •STREAMPROCESSING:它由ApacheFlink和Kafka提供支持,提供完整的企业级流管理和状态处理解决方案。借助对SQL等行业标准接口的支持,开发人员、数据分析师和数据科学家可以轻松构建各种混合实时应用程序。 •CLOUDERASDX:使用ApacheRanger和ApacheAtlas使用相同的工具保护、监控和管理您的流式处理工作负载。 3.ClouderaDataScienceWorkbench(CDSW) CDSW-机器学习:覆盖从边缘到AI的场景。 专有云线下客户,弥补CDH三大不足。 •更多组件和更高版本 CDP新增组件包括Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger 和Atlas等等。 更多的企业管理。 •企业级安全和管理 CDP的ApacheRanger提供了新的安全功能(动态行过滤和列掩码)。同时借助ApacheAtlas,CDP改进了数据资产管理功能,帮助企业实现PCI和 GDPR标准。 更多的企业管理平台集成。 •版本持续更新更长时间 EoS时间比较: CDH6.3:2022年3月。后续仅有维护版本。 CDP7.1:2023年5月。产品线持续更新。 四、典型场景 1.为什么选择CDP