D STARROCKSLAKEHOUSE 滋5 SUMMITASIA2024ISALLYOUNEED 基于StarRocks构建 Xihu湖仓一体平台实践 吴岐诗Ai 杭银消费金融-大数据应用开发工程师 StarRocks 公司概况 滴滴 中ZHONGH辉UI 银泰 YINTAI HMC 和盟集团 Net sun 组天下共惠天下 网盛 发展历程 杭银消费金融公司 杭银消费金融股份有限公司成立于2015年12月,是经中国银保监会批准,由杭州银行作为主发起人:联合滴滴、中国银泰等知名企业组建的持牌消费金融机构,注册资本为25.61亿元。公司秉承“数字普惠金融”初心,坚持服务传统金融盖不 充分的、具有消费信货需求的客户群体,以“数据、场景、风控、技术”为核心,始终不懈探索消费金融新模式,为全国消 费者提供专业、高效、便捷、可信赖的金融服务。 股东构成 杭州银行 BANKOFHANGZHOL 2023 2022 2021 2020 2019 2018 2017 2016 2015 11月 11月 12月 公司获得人民银行金融债批文 公司第三期ABS项目优先级票面利率2.59%,再创公司发行历史新低 公司落地首单银登资产收益权转让项目,优先级票面利率创消金行业历史新低 2023年公司累计获得63项发明专利,居行业策二 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 滋 STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED 01xihu平台的建设背景 02StarRocks与Xihu平台架构融合设计 03平台建设经验与成效 Ai04Xihu平台展望 01Xihu平台的建设背景 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED Xihu平台的技术架构 杭银消费金融公司 RAKKNFHAN6ZHAC1CONSII5RFNAKYECNAT4N 应 用层 AlarmNode 自定义Plugins ExecuteNode ManagerNode log4j 自定义rpc mybatis spring全家桶 技术组件 zookeeper kafka mysq! 中间件层 运维层 maven docker+k8s Jenkins Git STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 数据需求场景 杭银消费金融公司 RAKKNFHANGZHAC1CONSII5RFNAKYECNAF4NI 策略数据需要准实时 业务对账需要准备的 日终数据 营销数据集市 各库各表数据同步需要一致性 数仓跑批任务需要日 终数据 反洗钱集市 领导关注经营日报需要及时且准确 监管上报数据集市 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 机房A 核心系统 数据抽取 数据传输工具 机房B 数据仓库 数据抽取监控报送集市 问问题题1::无无法法实实现现低低成成本本数数据据核核对对和和数数据据回回溯溯 杭银消费金融公司 场景:数据传输过程出现异常,可能造成数据缺失,问题发现不及时,数据回溯成本高 数据写入 目标:通过建立低成本数据核对机制,及时发现数据缺失问题,并提高效供数据回溯机制; STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 问题2:无法获取生产数据库中的实体数据变动明细 场景:蓝管报送场景下需费数据变动明细 生产系统中客户信息一天内多次变更则需要报送每次的状态,但生产系统没有保存每次的变更信息 只能靠每日批量获取日终最后一次状态 案例; 杭银消费金融公司 AKKNFHANFZHY1XNSINERFTNAKYECFAN 时间 交品 客户地址 1点 新建客户A 开心叫小区1号楼101 3点 客户A地址变更 开心叫小区1号楼102 4点 客户A地址变更 开心叫小区2号楼102 8点 客户A地址变更 开心叫小区1号楼202 日终数据客户地址为“开心小区1号楼202",前面三条数据已查询不到 目标:非侵入、低成本方式保留生产系统中实体数据的变动明细(获取实体数据流量】 生产库实体开心小区 开心小区开心小区开心小区生产系统客户信息表 信息 数据总线中对应实体的变动明细 1号楼1011号楼1022号楼1021号楼202 自 [D t1t2t3t4时间 数据总线客户信息流量 容户号 客户地址 C001 开心小区1号楼202 操作时间 操美作 型 客户 号 客户地址 t1 C001 开心小区1号楼101 t2 U C001 开心小区1号楼102 t3 U C001 开心小区2号楼102 t3 C001 开心小区1号楼202 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 问问题题3::无无法法抽抽取取精精准准的的时时点点数数据据,,无无法法多多表表数数据据一一致致 杭银消费金融公司 场景:受资源限制,抽取任务无法按时启动: 即使抽取任务按时启动,数据库执行时点也可能偏差 数 据表 表2 t1 t2 t3 t4 t5时间 3 表3表 表1 11 表 表2 表3 结果: 表1 表2 表3 t5 t3 t2 目标:通过抽取数据流量,使用数据时间,获取精准时点增量数据,再与之前的全量合并为精准时点的全量,以保证多表数据一致 数据表 tot1 t2 t3 时间 表1 表2 表3 结果: 表1 表2 表3 t1 t1 t1 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 问题4:无法获取跨系统精准日切数据 杭银消费金融公司 AU>3ANYNX:ICISNXIUHZANYEUXY 数据表 账务系统还款计刻表交易系统还款计划表 账务系统同步还款计划 还款交易1 还款交 易1 还款交易2 场景:交易系统了×24运行,无法获取精准日切数据 T日T+1日T+1日T+1日时间 23:59:550:0:00:0:50:0:10 目标:通过抽取数据流量,使用交易完成时间精准获取日切数据 数据表 账务系统还款计划表交易系统还款计划表 还款交易1还款交易2 账务系统同步还款计划 还款交易1 时间 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 数据痛点回顾 杭银消费金融公司 数据同步无法准实时,影 响业务策略 无法进行精准业务日切,影 响业务对账 数据在传输过程中遗失数据准确性质量无法保障 全量备份,数据回溯比困难 监管审查数据恢复耗时较长 多库多表无法保障某个 时间点的数据一致性 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 系统建设业务目标 杭银消费金融公司 1提供自接入数据总线以来任一时段的数据变动明细 2提供自接入数据总线以来任一时段的数据增量 3如果提供自接入数据总线之后的一次初始数据全量,可以此后任一时点的数据全量 表全 数据 数据变 动明经 t2~t3时段的 数据变动明细 5 t2~t3 时段的数据增蛋 t4时 点的初始 数据 时点的数 全虽 据全虽 to t1 t2 t3 t4 t5 时间 to:业务系统上线时间点t1:业务系统接人数据总线时间点t4:提供初始数据全虽时间点 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 杭银消费金融公司 FAKKNFHANGZHAC1CONSIM5RFINAKYTECNAF4NV 无侵入、实时、多种来集方式、适配多种数据库、适配多种采集工具 次采集多次使用、实时、保障数据准确、自适应数 Xihu平台功能 据结构变化、历史任一时段增量(变化明细:ID×变化次 数、工最终状态:ID)、任一时点全量、按业务逻辑切分数 据 支持准实时、批量场景 数据采集 00- 应用层 模型层 数据传输/变换数据入湖仓 实时计算 ..... OOLLAAPP 应用1 OLTP 孩起库实 时变化月 志/API 实时动记来致 流采据/kalka 集 时段家起库变化 数据升维 全量管理数据脱敏 数据结构管理 变动明细致据 准实时数据 增量数据 全量数据分析 应用 批量数据 增量数据 应用n 数据库变化日志文件 文件口志这件 采集 数据核对数据补偿 变动明细玖据全呈数据集市 业务一致性 增量数据 计算资源隔离、分级管理,提高计算资源利用率 统一存储管理,极大减少效据复存储;冷热数据分级管理,降低冷数据存储成本,同时简化冷数据转储和访问 计算容器 统一存储 级 热数据区 .... 二级 冷数据区 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED StarRocks与Xihu 02平台架构融合设计 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 为什么选择StarRocks?已建GP集群 GP冷备 (6台) 杭银消费金融公司 GP生产 (26台) SQL SQL MapReduc MapReduc MasterSevers 查询解析、优化、分发 店店 NetworkInterconnect Segment Severs 查询处理、数 据存储 External Sources 数据加载 RAKKFHANFZHYE1OXNSIMERFTNAKYECFAN STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 为什么选择StarRocks? 杭银消费金融公司 RAKKFHANFZHYE1OXNSIMERFTNAKYECFAN Greenplum授权费用 高,非国产软件,不支持横向热部署,遇到升 级时数据服务暂停 Hive无法实时写入、不 支撑事物:数据查询启动慢,数据查询分析需 要分钟级别 数据存在数据孤岛,没有统一的数据存储平台数据搬迁存在延迟、准 确信问题 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 大数据应用架构一目标 杭银消费金融公司 RAKKMFHANGZHNC1CONSII5RFNAKYEGNAT4N 应用系统1 应用系统2 OLTP 应用系统n XiHu 数据采集 数据传输 日切加工 升维模型 数据查询流式发布批量发布 n OLAP 分析应用 报表/分 析工具 SDM FDM SsS 数据集市n Hbase 数据库日志API流 数据仓库数据集市1 ODS kafka flink StarRocks StarRocks CDH HDFS/S3存储 冷数据区 热数据区 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 03平台建设经验与成效 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED starRocks存算分离-计算节点近7天运行情况 杭银消费金融公司 K*AU>YXYN:ICISNXIUHZXYEUXY 3/318/18 FE书点CN书点 C 数据号入量,数选证合并直期点导人热点 CPUEBEAWG(INTERVAL)V内存佳用ALTHELNISV 鲁AI/S(FE)AVG(CN)单位:TB鲁SUM)FE)+SUM)CN) 1/19,12:00AM1/23,12:009.6)1270AM11/19,1200AM11/21,12(UAM33/23,12:00.AM12:00AM STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNE