大数据在微众银行数据管理和应用方面 思考和实践 演讲人:微众银行·邹普 日期:2023年03月31日 01背景介绍 02微众银行大数据IT架构 03实时大数据应用面临的困惑和实践探索 04离线大数据管理和应用方面探索和实践 05未来规划 背景介绍 全球数据圈规模(2010-2025) Global 2018年约33ZB 2025年约175ZB China 2018年约7.6ZB23.4% 2025年约8.6ZB27.8% 内容来源:IDC数据时代2025 数据量大 ·如银行业每100万美元收入实际数据量约820GB ·金融交易数据线上化占比日趋增多 数据质量高 ·一致性要求高 ·容错率低下 ·准确度要求高 结构化数据突出 ·客户数据 ·交易数据 ·行为数据 应用潜力大 ·客户管理 ·风险控制 ·智能预测 质量 效率 成本 微众银行大数据IT架构 精准营销 个性推荐 监管报送 数据归档 用户画像 反洗钱 数据报表 数据分析 贷款平台应用 企同平台应用 科管平台应用 消金平台应用 其他应用 平台工具 功能平台 数据工具 应用工具 批量计算 Hiveonhadoop SparkSql MapReduce 实时计算 SparkStreaming 数据存储 Storm Flink HadoopHDFS Tbase/TIDB SparkSQL 交互式计算 Phoenixon Hbase 复杂计算 复杂计算CPU HBASE ES SparkThriftserverHbase 共享存储 文件存储 Tbase/TiDB Kylin 复杂计算GPU 数据交换 关系型数据库 非关系型数据库 数据文件 消息 日志 数据治理 数据安全 运营管理 存存款款平平台台应应用用 分布式联机系统 分布式联机系统 BDP IDC多活APP 查询系统 查询系统 数据仓库 统一抽数 准实时BINLOG 准实时同步APP HBAE集群(备) KAFKA集群 HBAE集群(主) KAFKA集群 实时大数据 服务稳定性差 单IDC风险·Gc ·金融系统高可用要求 ·集群一致性 1 ·合并 ·热点 2 3 接入开发繁琐 ·易接入 ·易运营/维护 01 02 03 04 初始阶段 集群拆分 进程剥离 跨集群多活 ·实时集群Hbase和跑批共用hdfs ·业务混用实时hbase集群 ·部门/科室 ·业务场景 ·RS拆分 ·GC参数调优 ·应用多活改造 ·大数据服务治理 主集群 运行状态报告 健康监听 规则指标搜集 其他集群 Client-metric规则引擎 备集群 连接器组 多写 多读 连接器 连接器 连接器 连接器 资源隔离 资源限制 资源监控资源管理 hive外表 随机校验 表全校验统计模块 元定义 元应用 元 校 验 Meta McBase操作平台 稳定性便捷性 T日分界 D1列簇 D0列簇 COL1COL2COL3COL4COL5COL1COL2COL3COL4 ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW×××××××××ROW××××××××× ROW××××××××× COL5 × × × × × × × × × × × × × × 游 标分页 第1页 第2页 D0/D1列簇 COL1 COL2 COL3 COL4 COL5 ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × ROW × × × × × T0T1融合 内存分页 T日分界 Before After 游标分页 通用SDK SparkStreaming DB online source T0准实时 T1推数 SparkEngine SPARKSTREAMING 校验 读取应用 数据清洗 大数据查询系统 客户端Online系统 DatabaseDatabase... 联机系统服务 定期巡检 元 数Rowkey 据规则 模 型 DB: TDSQL 列簇 column DB: TDSQL 读取应用 HIVE数据仓库 校验 RMB(RPC)调用核 心 DB: TDSQL T0数据入库 HBASE HBASE Hbase元数据中心 校验 配置中心 读取应用 业务数据T0数据 T0RMB实时调用 大数据查询系统自动代码生成 离线大数据 研发质量差 •解释性脚本语言特性 •流程难约束 数据繁杂 研发标准 •研发流程 •开发框架 数据管理 •数据模型 •数据质量把控 应对之道 任务重塑 •回归测试 •风险评估 工具/平台化 •数据提取 •数据修复 •跨条线、部门依赖多 •数据管理难度大 应用痛点 任务依赖紊乱 •任务作业多,回归效率慢 •依赖血缘评估准确度低 人力投入成本高 •数据处理投入多 •工具化缺乏 准生产 生产 墙 生产验证 回归流水线 SIT UAT 表DDL DM 测试 基准环境 测试环境 Pace+ 自动化验证 发布包 业务 PM 系统需求 路标 MASTER FIXHOTFIX RELEASE 模型联机校验拆表 报表报送加工其他 分支管理 开发阶段 业务需求 PM 系统负责人 开发质量 SDL扫描 规范扫描 SONAR SQLSCAN 脚本扫描 脚本管理 作业任务 AOMP 物料 防 火 SQL/HQ L管理 流程管 理 开发白皮书 代码扫描 工作 节点 数据处理系统 工作 节点 submit ...等等 工作 节点 业务公共+业务抽象 工作 节点 调度系统 ES YARN RMB 拆表 邮件发送 打标 数据质量 脱敏 导数(HBASE) 作业管理 信号收发 任务编排 作业开发 SPARK HADOOP HBASE HIVE FLINK JOB定义文件外发BDAP变量控制日志管理 异常标准化 存储优化(拉链)任务防重小文件指标采集线程管理API封装 基础框架 账户对公对私定期活期存放同业 VIEW 渠道摘要 等等 DIM层 ...等 对公拆表 -二级产品+三级产品 对私拆表 -三级产品 ADS层 指标/统计 --最大交易日 --6月不动户 --交易汇总 --等等 DWS层 DWD层 ODS层 老贴源 (deposit/history_×××) BDCN(depods_×××) 新贴源(deposit_ods) 公共域 运营域 会计域 产品域 风控域 交易域 账户管理域 正常模型ADS表 bulkload表 内部户拆表 -二级产品+三级产品 BDC DAF 特敏 行列权限隔离 BDAP 内部下游 外围监管 外围下游 模型命名规范: ads_根据业务需求命名 dws_数据域_统计粒度_业务过程_统计周期(1d/nd/m)dwd_数据域_表名_(di/df) ods_外部表名_di/df dim_自定义_(df/zip) 数据域: 账户管理域/交易域/风控域/产品域/会计域/运营域/公共域 大数据系统 数据仓库系统 数据加工 数据类型一致性 字典(枚举)一致性 主键鉴重/字段鉴空 外联校验 系统规则 生产 质量规则 主路监控 日常调度 SIT环境 UAT环境测试 开发环境 准生产 生产数据试点 规则集回归 异常分发 质量报告 规则度量 校验引擎 业务规则 业务自定义 渠道校验 户名校验 行号校验 趋势波动 多子系统元数据校验 事前预防 事中控制 元数据定义开发插件 联机阻断 联机系统 事后发现 target table job FLOW job job job … 下游依赖 job job job job job job FLOW job job job 血缘获取 任务重塑 测试效率下游管理 FLOW job job job •表、字段血缘 •作业流和表的血缘 •信号依赖 •血缘任务整理 •精简作业流 •测试效率提升 •降低业务门槛 •上下游管理和风险评估 •自动化提升实施效率 target table job FLOW job job job … 下游依赖 job job job job job job FLOW job job job 血缘获取 任务重塑 测试效率下游管理 FLOW job job job •表、字段血缘 •作业流和表的血缘 •信号依赖 •血缘任务整理 •精简作业流 •测试效率提升 •降低业务门槛 •上下游管理和风险评估 •自动化提升实施效率 业务 数据修改单 数据授权 ITSM/DATAMAP 操作令牌 核心BDP统一修复作业任务 dpc_deposit_fix_sourdpc_deposit_fix_source_bdpce_biz 问题单 阻碍项异常 业务类异常 质量 报告 Before: 整合后校验 数据整合 dpc_deposit_merge 校验模型 dpc_deposit_fi x_check_define 数据备份 标准化归档 After: 合并后校验 数据清洗 清洗报告 智能跑批 下游直接血缘 任务血缘树分析 任务树重塑 下游通知/重跑 黑名单白名单 数据开发 业务开发(监管) 决 策 指标 模型统一 7*24问题 日期分片 性能优化 供 数 看板 元 数 据 复核 标准管理历史归档多版本审计 DM(数据审批) 生产 基准数据 基准库 DM(自动采集) 分布式版本控制系统 ·归档 ·分析 ·决策 实时 离线 ·可用率提升约60% ·效率提升约80% ·研发问题减少约40% ·效率提升约35% 未来演进方向 -开发框架平台化/可视化 -部分场景探索NewSQL(TIDB)应用 -数据模型和集市优化(精细化运营) -数据质量持续性保障