“计算、感知、驱动” 金融实时数仓建设实践分享 演讲人:沈钰淋 1 2 TITLE标题 3 4 为什么要构建实时数仓? 组建“国家金融监督管理总局”和“国家数据局” 《金融机构风险管理框架》提出7个风险管理原则和一套风险管理框架 领先的数字化转型技术与服务提供商 为什么要构建实时数仓? 客户管理部风险管理部市场营销部 •客户信用评级等信息同步更新缓慢,潜在识别风险难以消除; •客户画像更新不及时,提供给内部的数据总有“时间差” •无法第一时间获取发生的业务行为 •不法行为变化多端层出不穷,风险识别模型验证迭代周期太长 •风险行为难以立刻识别和制止,“难看到,抓不到” •投放策略和人群圈选都做了,购买量没有起色 •业务数据反馈滞后,投入成本但见效差; •客户留存效果不好,购买转化率提升遇到“瓶颈”; 领先的数字化转型技术与服务提供商 离线架构下的业务痛点 业务变动“跟不上”业务行为难感知数据价值难发挥 领先的数字化转型技术与服务提供商 1 2 目录 3 4 离线数仓和实时数仓建设的区别 数据驱动 业务驱动 由完整的底层数据构成,统一规划建设,逐层清洗搭 建,业务需要再来用 由业务需求驱动,垂直业务场景构建,单一实时场景 会成为长期状态 依赖构建 逻辑构建 基于任务调度和依赖关系来构建数仓分层关系,多米诺骨牌式的依次触发 过程数据持久化 缺少高效的任务管理运维的工具和方法,无法快速定位问题,自己搭建运维平台费时费力,效果不理想。 独立开发运维 离线任务统一开发,由个别运维角色进行统一的资源调度配置和运维管理,提交到生产运行。 离线数仓 实时数仓 基于设计逻辑构建实时数仓,分层关系仅存在理解层面,实际任务处于“同时运行”状态 “无”过程数据 构建实时数仓的任务逻辑,数据流经“管道”直接输出到最终业务端,不做过程数据的持久化存储 开发运维一体化 在实时数仓建设的角色定位中,遵循“谁开发谁运维”的逻辑,极少出现开发运维分离负责的情况 领先的数字化转型技术与服务提供商 实时数仓分层 业务系统 Job1 Job2 Job3 … Source1 Source2 Source3 … 数据源 业务系统/OLAP Job1 Job2 Job3 … DWD1 DWD2 … 数据源 湖仓一体 DWS/ADS DWM DWD 数据源 1.0版本 •垂直业务场景,敏捷开发; •任务间相互独立,不存在分层理念; •粗放的管理模式,不同任务间可能存在数据的反复使用,对业务端带来潜在压力; 2.0版本 •ODS、DWD层进行统一,主要针对数据源分发方式进行优化; •逐步体现分层概念,但缺少抓手; •顶层数据仍垂直服务业务系统或OLAP查询模式,使用层面有所丰富; 3.0版本 •完成分层建设,并与离线数仓逐步统一口径,实时离线不再割裂; •实时指标口径沉淀,数据质量得到维护提升; •湖仓一体打通存储,解决实时数据运维的痛点问题 领先的数字化转型技术与服务提供商 实时数仓架构 实时应用场景 实时反洗钱 客户适当性 MOT实时营销 实时推荐 拉抬打压 虚假申报 实时数据服务 实时交易指标 交易数据大屏 结果层 虚假交易 拉抬打压 实时基金估值 异常交易 …… 贴源层(Arctic)用户交易表委托交易表成交流水表Level2快照数据基金产品表…… 实时ETL:过滤->清洗->补全->转换/压缩 业务数据源 Binlog OGG Log 柜台数据推送 App埋点 服务日志 后台日志 审计日志 API推送 实时数仓(流处理-秒级) 汇总层 申报数据 成交数据 大盘估值数据基金估值数据 …… 明细层 用户域 交易域 大盘行情域 产品域 …… 准实时数仓(批处理-分钟级) 汇总层 申报数据 成交数据 大盘估值数据基金估值数据 …… 明细层 用户域 交易域 大盘行情域 产品域 …… 领先的数字化转型技术与服务提供商 Kafka数仓 数据湖数仓 汇总层申报数据 成交数据 大盘估值数据 基金估值数据 …… 实时数仓(流处理-秒级) 明细层用户域交易域大盘行情域产品域…… 汇总层申报数据 成交数据 大盘估值数据 基金估值数据 …… 准实时数仓(批处理-分钟级) 明细层用户域交易域大盘行情域产品域…… 结果层虚假交易拉抬打压实时基金估值异常交易…… 元数据开发规范化 数据建设层次化 实时数仓架构 业务场景清晰化 实时反洗钱 客户适当性 MOT实时营销 实时应用场景 实时推荐拉抬打压 虚假申报 实时数据服务实时交易指标交易数据大屏 Binlog OGG Log 业务数据源 柜台数据推送App埋点 服务日志 后台日志 审计日志 API推送 实时ETL:过滤->清洗->补全->转换/压缩 贴源层(Arctic)用户交易表委托交易表成交流水表Level2快照数据基金产品表…… 生产开发标准化 领先的数字化转型技术与服务提供商 实时开发过程中的常见问题 开发第一周 语法都通过了,业务逻辑实现和兼容性心里没底…… 语法规则上线测试都是脏数据 业务实现 领先的数字化转型技术与服务提供商 Mock数据繁琐不真实 实时开发过程中的常见问题 开发上线前 这个数据源不熟悉,照着文档配参数… 领先的数字化转型技术与服务提供商 数据堆积和写入速度总达不到预期,还得反复调试 实时开发过程中的常见问题 生产环境上线 机房物理隔离,做一次上线就要“禁闭”一整天 •大量任务脚本上线 •每个任务有独立的前置工作,操作文档一份又一份,小心翼翼生怕敲错一个字符 •任务上线完还需要持续监控,稳定运行几小时才能放心离开 •任务出现问题拉人排查,越忙越错 领先的数字化转型技术与服务提供商 实时开发过程中的常见问题 上线第二周 业务说数据对不上,一看任务发现…… 领先的数字化转型技术与服务提供商 实时开发过程中的常见问题 上线第N周 原本一直跑挺好,突然任务异常失败了,要恢复拉起时发现…… 领先的数字化转型技术与服务提供商 基于网易平台的实时数仓构建流程 上传资源 自动启停 任务开发 创建流表 注册函数 数据开发/运维 项目初始化/登记数据源 准备阶段 开发阶段 运维阶段 管理员数据运维 领先的数字化转型技术与服务提供商 语法检测/在线调试 任务运维 报警通知 数据开发数据运维 数据建设层次化:逻辑库表转换 Flink处理逻辑 X 物理数据库FlinkTable实时计算 物理数据库 平台转换逻辑 物理数据库 构建逻辑库创建流表 X 流表计算 物理数据库 领先的数字化转型技术与服务提供商 元数据开发规范化:流表引入简化开发 Kafka流表开发 Testdb.sink_table FlinkTableDDL图形化流表创建二元组方式引用开发 RDBMS流表开发 `sloth_mysql_test`.poc.`goods_join_mysql_sink` 登记数据源三元组方式配合set参数引用开发 领先的数字化转型技术与服务提供商 开发生产标准化:上线前本地调试 任务开发完成,语法自检 本地调试,验证代码逻辑 从业务截取数据样本上线服务器 领先的数字化转型技术与服务提供商 开发生产标准化:生产环境导入导出自动化发布 •全流程审计日志监管 •全自动导入导出发布 •灵活发布策略支持 测试机房 网络隔离 导出发布包导入发布包 物理介质 生产机房 领先的数字化转型技术与服务提供商 开发生产标准化:监控告警模板化配置 项目管理员:统一配置基础告警模版开发人员:实时任务个性化配置 领先的数字化转型技术与服务提供商 常用实时数仓组件对比 组件 HBASE Doris ElasticSearch Hive Kudu 适用数据量 PB级 TB级 GB级 PB级 TB级 延迟时长 毫秒级 秒级 秒级 分钟级 毫秒级 部署规模 大规模集群 中等规模集群 中规模集群 大规模集群 中等规模集群 适用的大数据场景 高并发的实时读写,大数据量的列存储 实时查询和分析,OLAP、替代MySQL 全文搜索、日志分析、时间序列数据分析 离线批处理、数据仓库、ETL、数据分析 实时读写和分析、实时指标、BI大屏、OLAP分析 领先的数字化转型技术与服务提供商 1 2 TITLE标题 3 4 实时数仓能力建设 数据计算 用实时开发替代离线开发进行指标、数据的出产,缩短数据产出周期。 实时估值计算 实时消息分发 数据感知 趋向独立于复杂化,通过实时数据加强业务方对于用户行为等感知能力 实时反洗钱 实时行为审计 数据驱动 结合离线、算法提升数据的综合能力,驱动更复杂、更智能的业务目标 用户身份识别 实时产品营销 领先的数字化转型技术与服务提供商 数据计算:实时资讯推送 外部系统 小程序 交易所 柜台系统 金融供应商 官方公告 FlinkCDC 实时采集 筛选、清洗 实时采集 行情域 资讯域 订单域 聚合、统计 直接业务 业务场景 渠道方式 语音外呼 短信发送App推送 …… 用户 增值服务 App推送 用户 系统推送 交易经理 媒体监控舆情分析政策解读 智能投顾 订阅资讯相关推荐行业热点其他内容 资讯平台 实时计算 资讯分析模型 资讯分类 资讯定级 支撑内部 领先的数字化转型技术与服务提供商 数据感知:实时行为合规审计 业务来源 交易柜台 小程序 上交/深交所 数据平台 第三方数据 公司 用户/行为审计规则匹配 CEP规则计算 数据读取 基于行为审计 基于用户审计 消息中间件 实时结果集 实时数仓数据 用户行为 交易买卖 融资融券 申购打新 合并转让 上报评估 监管机构 风险提示名单 股票质押风险名单 重点监控名单 禁止交易名单 用户身份验证 强规则 弱规则 资金来源审查 内部交易 高风险交易 风险承受评估 大宗交易 资金调拨 交易规则限制 禁止交易 日常交易 模型比对 内部系统 内部审计清单 资产审核 用户信息 黑/灰名单 维表引用 业务场景 灰名单提前预警风险评估结果异常交易冻结…… 领先的数字化转型技术与服务提供商 数据感知:实时反洗钱 领先的数字化转型技术与服务提供商 27 数据驱动:实时产品营销 通过离线+算法计算的推荐规则,实时数据可快速匹配计算结果,缩短营销手段触达用户的周期。 行为分析匹配 营销推荐规则(算法) 关键词规则产品收藏规则消费分期规则优惠推送规则理财推荐规则临时提额规则 账单分期规则其他规则 匹配计算结果 结果输出 …… 用户 语音外呼 短信发送 App推送 推荐系统 语音系统短信系统App 其他系统 推荐系统触达 用户行为 点击搜索收藏分期 理财 小程序 网上银行 手机App 用户触点 触发 注:算法数据使用离线T+1数据作为样本进行训练,训练结果以API等方式提供给实时进行调用 领先的数字化转型技术与服务提供商 28 1 2 TITLE标题 3 4 某券商:实时构建提效安全的高品质客户服务 财富管理 机构服务 投资管理 实时资讯推送 精准客户运营 极速行情 投资策略实时分析 实时风险预警 通过采集第三方资讯平台的 数据进行实时资讯分类,处理并通过涨乐通APP推送给 用户。 运用实时大数据技术,精准 描绘客户立体画像,助力投顾360度了解客户,深度洞察客户诉求及投资偏好,有的放矢地开展工作。 数据驱动 供支持多市场、多交易品种 的L1和L2行情数据服务,提供实时行情推送、历史行情回测、衍生指标定制等丰富的行情数据服务。 数据产出 中高频阿尔法策略 日内高频策略 套利策略 宏观对冲策略 证券公司资产风险预警 私募股权基金风险预警 基金公司资产风险预警 期货公司资产风险预警 数据产出 数据驱动 数据感知 领先的数字化转型技术与服