DataFunSummit 数据治理与安全 在线峰会 电商行业数据治理与安全论坛 2021 2021.08.28,09:00-17:30 DataFunSummit 2021 京东实时数仓治理与实战 韩立京东实时数据治理专家 目录 CONTENTS 01 实时数仓概述 Subject 03 02 流批一体探索 Subject 架构演变历程 Subject 01 题目京东实时数仓概述 Subject 京东实时数仓概述——概述 随着京东业务的快速发展,企业内部对数据时效性的要求越来越高。传统离线数仓的天、小时级别时效延迟,难以满足企业实时查询、实时分析、实时决策的业务需要。因此,迫切需要建设实时数仓,弥补离线数仓的缺点。 弥补离线数仓缺点 T+1或小时级延迟 拓展数据应用场景 实时数据看板 实时风险控制 实时业务决策 实时营销策略 同时,通过这些延迟极低的实时业务数据流,又极大地丰富和拓展了数据应用场景,创造了新的商业机会。 实时数仓建设 实时搜索推荐 实时数据看板 营销策略调整 业务决策支持 业务风险控制 OLAP实 时查询 实时计算平台 计算引擎镜像 任务管理 集群管理 消息队列 binlog 消息队列 服务器日志 服务接口查询 埋点日志 实时数据仓库建设 数据接入 数据明细 数据汇总 数据应用 京东实时数仓概述——概述 京东实时数仓概述——发展历程 开发效率维护效率程序运行效率 拓荒时代 实时数仓v1.0 实时数仓v1.1 实时数仓v2.0 2018年前2018年 2020年 2021年 Storm、SparkStreaming、Spring 业务逻辑简单 吞吐量低 程序不稳定 数据准确性难以保证 数仓分层建设 Flink+H2+Hbase+Redis 高吞吐量 大幅提升程序稳定性 极快的开发速度 持久化结构体改造 优化缓存方案 引入新型计算框架 极高吞吐量 极低延迟 资源利用率大幅上升 立足FlinkSQL开源生态 标准化、统一化、规范化 流批一体的探索 02 题目架构演变历程 Subject yourlogo| 架构演变历程——拓荒时代 实时计算任务 架构多样功能简单缺乏标准 吞吐量小 难于维护 架构演变历程——拓荒时代 框架 Storm SparkStreaming Flink 实时数据流模型 流 微批 流 延迟 低 高 低 计算语义 At-least-once Exactly-once Exactly-once 容错机制 ACK Checkpoint Checkpoint 容错的开销 高 中等 低 吞吐量 中等 高 很高 架构演变历程——实时数仓思考 架构演变历程——实时数仓分层建设 离线数仓架构实时数仓架构 HiveSpark MapReduce HDFSMySQL 业务指标决策分析 数据应用层APP Flink ESDorisClickHouseMySQL 业务指标风控模型业务决策 HiveSpark MapReduce HDFS 业务主题域明细模型 汇总明细层RDDM Flink Kafka 业务主题域明细模型订单、流量、商家等 HiveSpark MapReduce HDFS 事实表维度表 原始数据层BDM 基础明细层RFDM Flink KafkaHBase表Redis 事实表维度表 数据库 日志采集 数据库binlog流量日志消息队列系统日志 架构演变历程——实时数仓计算范式 一种简洁高效的实时计算范式 Explode Compute loop 数据载体 数据载体 数据载体 KV存储 架构演变历程——实时数仓v1.0 原始数据层 基础明细层 汇总明细层 数据应用层 Flink任务 HBase Flink任务 生产库A 生产库B 生产库C 日志采集 TopicA Flink任务 TopicB Flink任务 TopicC Flink任务 TopicD 事实表A 开窗去重 HBase 维度表B HBase 事实表C1 开窗去重 HBase 索引表C2 HBase 事实表D 开窗去重 •数据格式归一 •按照业务主键去重/合并/打包 Explode 根据业务逻辑从HBase表中加载所需数据 预定义H2配置 OLAP实时查询 •Schema •Table 实时指标展示 •UDF Compute H2内存数据库 实时风险控制 •执行SQL逻辑 HBase 实时业务决策 汇总模型表 Topic模型 架构演变历程——实时数仓v1.1 架构演变历程——实时数仓v1.1 架构演变历程——实时数仓v1.1 OLAP实时查询 原始数据层 基础明细层 汇总明细层 数据应用层 Flink任务 生产库A TopicA HBase 维度表B HBase事实表A事实表C1 生产库B 生产库C TopicB TopicC DataPack 数据格式归一 HBase索引表C2 Compute 实时指标展示 Explode 加载所需数据 业务逻辑计算 实时风险控制 Topic模型 采集 日志TopicD HBase 实时业务决策 事实表D 架构演变历程——实时数仓v2.0 03 题目流批一体探索 Subject 流批一体探索 数据仓库 相同的业务逻辑 离线数仓 实时数仓 流批一体探索 数据仓库 业务逻辑 流批一体 DataFunSummit 2021 THANKS! Ending