您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:Arctic 流式湖仓发布 - 发现报告
当前位置:首页/其他报告/报告详情/

Arctic 流式湖仓发布

2023-03-09网易L***
Arctic 流式湖仓发布

Arctic流式湖仓 主讲人:余利华 音乐 电商 教育 传媒 办公 邮箱 物流 农业 零售 制造 电力 教育 金融 医药 网易数帆大数据 工具产品平台公共数据建设数据建设方法论 网易数帆 Arctic流式湖仓 数据门户 算法开发平台 决策引擎 可视化报表 连接中心 标签工厂 自助取数 数据文化分享中心 指标系统 模型设计中心 数据质量中心 数据地图 数据资产中心 数据安全中心 数据标准 数据服务 元数据中心 数据传输中心 数据开发中心 数据测试中心 任务运维中心 流程协作中心 网易数帆大数据技术体系 数据产品 数据中台 数据研发 RDBMSMPPKafkaNDH(网易DataHub)CDH 基础设施 Arctic流式湖仓 Calcite/ Orac Spark Flink Flink Velox Parquet ORC ORC ORC Alluxio HDFS HDFS OSS 查询解析和优化 执行引擎 索引/记录管理 日志 缓冲池 存储 数帆大数据技术原则:开放式架构 能力全面生命力强建设成本低 使用复杂维护复杂 劣势 优点 封闭式数据库架构 开放式大数据架构 Arctic流式湖仓 Kyuubi Spark Flink Impala Parquet ORC Avro Alluxio HDFS S3 OSS 数帆大数据技术原则:开放式架构 开源三原则(按照优先级):优先采用开源、提倡社区贡献、自研开源 特色项目:Kyubbi,统一SQL网关 Spark:深度参与和长期回馈社区,累积逾600合入提交,公司现有国内少数的Sparkcommitter成员; 开源了自研的支持高可用、多租户隔离的SparkSQL服务Kyuubi 开源地址:https://github.com/apache/incubator-kyuubi ImpalaonIceberg:首次在Impala社区提出了支持Iceberg数据湖的方案,推动Impala社区对Iceberg数据湖的支持,并得到多位社区PMC参与,当前Impala3.4版本支持Iceberg表的创建、变更、读取、写入等操作。 开源地址:https://issues.apache.org/jira/browse/IMPALA-9621 Spark-ranger:开源了基于ApacheRanger统一鉴权中心的Spark权限管理插件Spark-ranger,填补了Spark在数据权限控制上的空白,基于Spark-ranger可以实现Spark任务下数据列权限控制。 开源地址:https://github.com/NetEase/spark-ranger Arctic流式湖仓 数帆大数据开源:kyuubi PPMCmembers:9位Committers:9+8位Contributors:83位 更多信息:https://github.com/apache/incubator-kyuubi/discussions/925 Arctic流式湖仓 实时数据中台面临的挑战 技术体系不统一 应用层:流批数据手工合并 Hive表 系统复杂运维难 冗余存储浪费成本 HBaseKudu 研发体系割裂 Spark Hive表 Flink 维表流表 HBaseKafka 数据研发人效低 应用开发复杂 数据源 数据复用差,带来指标和语义二义性 解决方案:流式湖仓——支持流式写入和消费,支持更新、高效批查询 Arctic流式湖仓 Impala Spark/Hive Hive表格式 Parquet ORC Avro CSV HDFS S3 OSS 基于数据湖的开放式架构 ApacheKyuubi 以SQL方式提供统一入口 表格式:定义文件与表之间的逻辑关系 文件格式:定义文件与数据之间的关系 文件系统:实现数据存储和访问 Arctic流式湖仓 ApacheKyuubi Impala Spark/Hive Hive表 Parquet ORC Avro CSV HDFS S3 OSS 新型表格式是否能解决问题 Iceberg Delta 更新 大表访问性能流式消费 小文件导致的性能问题 兼容性问题流式更新 遗留问题 解决问题 Arctic流式湖仓 切换发布动画(已设计) Impala Spark/Hive Hive表 Iceberg Delta Parquet ORC Avro CSV HDFS S3 OSS 自动优化小文件,自动数据清理兼容HIVE 增强流式更新 支持多种表格式 Arctic统一管理各类表格式,提供元数据 服务以及后台优化服务 Arctic表服务 ApacheKyuubi 有数流式湖仓开放架构 Arctic流式湖仓 应用层:流批数据手工合并 应用层 Spark Flink Impala Hive表 Spark Flink Spark Flink Hive表 维表 流表 Arctic表 Spark Flink 数据源 数据源 Kafka HBase Arctic表 开放架构 Arctic小结 流式沧湖 HBase Kudu 表服务 Arctic流式湖仓 THANKS 感谢观看