BIAnalytics/Graphs MLDL StreamingBIAnalytics/Graphs MLDL StreamingBIAnalytics/Graphs DataMartsDataWarehouse ODS->DWD->DMS->ADS DataPreparation DataCatalog|WorkloadManager|Governance DataMarts ETL DataSource HadoopDataLake ETL DataSource MPP/DW DataLakehouse DataSource ~PC时代,DW1.02000s~互联网时代,DW2.02010s~移动互联网,大数据+数据湖+DW3.02020s~云原生数据湖时代,湖仓一体 单机+小机集群+一体机,集中式高可靠分布式+通用X86服务器,分布式高扩展云原生,Lakehouse ••• ••• ••• • •••• •• • (7.1.9SP1) Cloudera Manager Replication Manager StreamsMessageMgr SchemaRegistry Hue Zeppelin Streams ReplicationMgr CruiseControl Spark Hive Solr Sqoop KafkaStreams Kafka Impala Tez Phoenix KafkaConnect Zookeeper Parquet Iceberg Livy YARN ORC Oozie Avro HMS Ranger Atlas Knox KeyTrusteeServer KeyHSM NavigatorEncrypt HDFS Kudu HBase Ozone ★ ★ ★ • • • ●Queíy Engines ● ●Metastoíe ● UnifiedľableÏoímat CLOUDERAICEBERGRESľCOMPAľIBLEMEľASľORE AnyCSPObjectStoíe ObjectStoíage ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● HiveMetastoreStarRocksHiveHiveStarRocksHive Cloudeíalakehouseengines 机器仪表板/ 学习分析应用 自助BI/即席查询 格式化报表 •批场景中,将Cloudera作为数据源,导入 StarRocks下游 •流式场景中,利用Cloudera的Flink/Kafka作为算力,将StarRocks作为存储 •使用时,将StarRocks作为流批一体查询的 OLAP引擎 CLOUDERA消费 人工智能&机器学习 固定报表 SDX 运营数据库数据仓库数据工程 流式处理和数据流 集成数据层运营数据存储数据处理 原始数据 摄取 采集着陆和发现区EDWDM 数据源1 Kafka Flink+SSB 实时报表 /大屏监控 数据源2 数据源N NiFi/CDF 编排 其他选项:SparkETLSqoop HiveStageTables Hive/SparkProcessing StarRocks EDW 受管表(ParquetonHDFS,Kudu) StarRocks CML 报表/交互分析 机器学习 •流和批场景中,都将ClouderaIceberg作为统一数据源,并利用Cloudera的算力,如Flink/Kafka/Spark处理数据 •使用时,将StarRocks用作OLAP引擎,查询位于 Cloudera中的Iceberg外表 机器仪表板/ 学习分析应用 自助BI/即席查询 格式化报表 CLOUDERA消费 人工智能&机器学习 固定报表 SDX 运营数据库数据仓库数据工程 流式处理和数据流 集成数据层运营数据存储数据处理 原始数据 摄取 采集着陆和发现区EDWDM 实时报表 /大屏监控 数据源1 Kafka Flink+SSBStaíRocks 数据源2 数据源N NiFi/CDF 编排 其他选项:SparkETLSqoop HiveStageTables Hive/SparkProcessing Iceberg EDW 受管表(Parqueton HDFS,Kudu) CML 报表/ 交互分析 机器学习 元数据服务 CDPHMS AtlasServer Distinguishentitiesbygloballyuniquenames SRCatalog UnifiedMetadata Syncschema UnifiedQueryEndUser DataStewards AccessschemaBrowse,curateandtagmetadata&lineage AtlasHooksCDP各组件StarRocks Producemetadata&lineage Messaging <Kafka> Consumemetadata&lineage MetadataManagementSystem CatalogService (metadatacaching) Syncschema Sync,getandenrichmetadata&lineage MetadataSources MetadataManagementSystem StarRocks Hook UIAtlasSDK Metadata&Index HBase Kafka Spark Hive Hook Hook Hook Hook Producemetadata&lineage Messaging <Kafka> Consumemetadata&lineage Extractandgetmetadata&lineage Atlas API<HTTP/REST> Core Ingest/ExportTypeSystemGraphEngine JanusGraph Impala Hook MetadataStore <HBase> IndexStore <Solr> NSS LDAP LDAP Server 集群1 HDFS RangerPlugin Hive RangerPlugin YARN Ranger Plugin 集群2 StarRocks RangerPlugin Kafka RangerPlugin 集群3 Impala RangerPlugin Trino RangerPlugin RangerPlugin Ozone HDFS RangerPlugin Ranger UserSync ExternalLoadBalancer TagSync RRaannggeerrAAddmminin Ranger DB RRMMSS (A(ACCLLSSyynncc)) User/Group ClassificationsofEntities Hive-HDFSMappings UnixSource EntitiesTopicsEntity& Classification Messages HHiviveeMMeetatasstotorere(H(HMMSS)) SSSD AAtltalassSSeervrveerr 场景特点 •SQL灵活随意 •外表联邦查询 固定报表自助分析 固定报表自助分析 既有架构 传统数仓和MPP迁移 升级架构 StarRocks解决方案 • 应用层 应用层 • • • • • • 数仓层 Query 转储转储转储 分析层 Query ExternaltableStarRocks外表 转储联邦查询 •数据源层 统一湖仓 • •