您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[无锡锡商银行]:无锡锡商银行基于Flink+Apache Doris构建实时数仓实践 - 发现报告
当前位置:首页/行业研究/报告详情/

无锡锡商银行基于Flink+Apache Doris构建实时数仓实践

无锡锡商银行基于Flink+Apache Doris构建实时数仓实践

orisSummit Asia2024 mit A Asia202 DorisSummit Asia2024 DorisSummit DorisSummit 无锡锡商银行基于Flink+Doris构建实时数仓实践 Asia2024 DorisSummit Asia2024 施金才 Asia2024 DorisSummit 无锡锡商银行大数据技术经理 orisSummit DorisSummit Asia2024 DorisSummit A Asia202 分享嘉宾–无锡锡商银行 Asia2024 DorisSummit Asia2024 DorisSummit 施金才 Asia2024 信息科技部大数据技术经理10年的大数据研发经验 现主要负责大数据实时数仓开发相关工作,主导建设了锡商银行 mit Asia2024 DorisSummit 飞流实时计算平台,并从0到1搭建数据服务体系。 DorisSummit 目录01 02 业务背景 Asia2024 DorisSummit 实时计算架构演进 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia202 03基于Flink+Doris架构下的应用实践 Asia2024 04总结与展望 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 01 Asia2024 DorisSummit Asia2024 业务背景 orisSummit DorisSummit Asia2024 mit DorisSummit A Asia202 无锡锡商银行介绍 Asia2024 Asia2024 DorisSummit Asia2024 DorisSummit Asia2024 DorisSummit 无锡锡商银行坚持恪守信用、稳健经营的理念,坚定科技普惠、错位发展的方向,牢记普惠金融、八方共赢的使命,以移动金融和物联网等技术为手段,以服务中小微企业、服务科技创新、服务城乡居民为己任,让产品易知、服务易得、实惠易享,打造具有物联网特色的科技型银行。 Asia2024 DorisSummit 需求场景 DorisSummit 风控 信贷反欺诈 多渠道在贷分析客户交易行为分析 DorisSummit 还款计划和还款表现 营销 DorisSummit 年终账单自动化触达 orisSummit Asia2024 mit Asia2024 A Asia202 运营 运营监控实时报表贷后管理 后管查询 Asia2024 DorisSummit Asia2024 订单查询客户信息查询授信信息查询借据信息查询 Asia2024 DorisSummit 需求特点 DorisSummit 时效性要求 接口要求 稳定性要求 orisSummit mit Asia2024 A DorisSummit Asia202 •希望获取实时或准实时数据,便于运营和决策 Asia2024 •大部分需求时效在分钟级即可接受 •少部分需求可接受小时级 •接口调用或者查询响应要足够快,响应结果秒级返回,体验要好 DorisSummit Asia2024 •满足高并发点查需求 •满足多条件组合查询 •满足客户圈选需求 •部分数据查询嵌入业务流程,接口响应必须稳定,不能影响正常业务 Asia2024 DorisSummit •变更过程需要做到业务系统无感 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 02 Asia2024 DorisSummit Asia2024 实时计算架构演进 Asia2024 DorisSummit 锡商银行实时计算演进 DorisSummit Asia2024 DorisSummit 2021.82023.12023.8 引入Flink 搭建Flink集群,初步实现实时计算能力 引入Doris,逐步取代HBase 形成融合平台+Kafka+Flink+Doris架构,统一数据查询分析引擎 搭建实时数仓 实时数仓明细层开始建设 orisSummit Asia2024 mit DorisSummit A Asia202 上线数据融合平台 实现业务库数据实时同步能力 2022.5 上线飞流实时计算平台 Asia2024 推出飞流实时计算平台全面整合、优化实时计算架构 2023.6 生产应用基于实时数仓接口逐步按计划取代业务系统接口 Asia2024 DorisSummit 2024.2 orisSummit Asia2024 mit Asia2024 A DorisSummit Asia2024 Asia202 实时计算早期架构与痛点 DorisSummit 逐步引入Flink、HBase、Phoenix、Dinky、Doris等平台或组件,实现实时开发能力。在未建设实时数仓之前,为了满足业务方实时数据需求,采用按需开发的策略,不同的研发组都有自己的实时任务维护,Doris在该阶段仅作为数据服务的数据库使用。早期架构的局限迫使我们尽快改造升级: DorisSummit 1、运维复杂:组件过多,维护难度大,架构不统一 Asia2024 DorisSummit 2、重复开发:按需开发,开发成本高,数据无法复用,响应周期长 3、资源利用:任务独立运行,资源利用率不高 Asia2024 DorisSummit 4、数据质量:不同需求独立开发,数据一致性、准确性难以保证,数据稽核难度大 Asia2024 DorisSummit ApacheDoris在实时开发中的优势 DorisSummit 优秀的架构设计 低学习成本 高查询性能 • • • • 架构简洁,只有FE和BE两个进程 支持滚动升级和在线扩缩容,运维成本低 丰富的数据同步方式,与Flink引擎契合度好 支持联邦查询,与Hive数据交互更加便捷 • • MPP架构、向量化引擎、支持灵活构建索引、列式存储引擎保证了优秀的查询性能 支持高吞吐、高并发、低延迟的查询服务,契合大部分查询场景 orisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 A DorisSummit Asia2024 DorisSummit Asia202 •兼容MySQL协议,支持标准SQL,极大降低学习成本和使用成本 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia2024 Asia202 实时计算2.0架构 为解决早期架构面临的问题,开始基于数据融合平台+Kafka+Flink+Doris+数据服务平台搭建实时数仓,以应对早期架构面临的问题: •精简架构:统一技术架构,下线HBase和Phoenix,全部基于Doris提供存储和查询服务 •搭建数仓:基于数仓理念并结合行内实际业务场景,规划主题,统一实时数据开发流程 DorisSummit Asia2024 •完善服务:引入指标平台,完善数据服务能力,满足下游多样性查询需求 DorisSummit •保障稳定:推动商业化升级,维护Doris的稳定,并及时有效应对突发情况 Asia2024 DorisSummit 整体架构图 数据应用报送运营风控营销 指标查询 •实时任务平台化管理:实时任务由实时计算平台统一提交和 DorisSummit Hive离线数仓Doris实时数仓 运维,实现一站式平台化管理 Asia2024 DorisSummit •Lamada架构兼顾数据时效 数据计算与存储 离线大风险 数据平集市 台 监管财务 集市集市 Spark离线计算引擎 Flink实时计算引擎 DWS DWD ADS飞流实时计算平台 性和准确性 •实时数据幂等写入,保证端到 Asia2024 ODS DWDDWS DorisSummit ODS 端数据一致性 Asia2024 •实时数仓持久化存储,方便数据回查和复用 orisSummit A Asia202 数据汇聚离线数据批量抽取实时数据融合平台 mit Asia2024 DorisSummit 数据源业务系统核心核算埋点数据… orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 03 Asia2024 DorisSummit Asia2024 Flink+Doris架构应用实践 orisSummit Asia2024 DorisSummit A Asia202 风控-还款计划和还款表现 DorisSummit Asia2024 DorisSummit 明细层:充分利用Flink的状态管理机制,分摊Doris查询压力,数据清洗和加工均在Flink端完成,为了便于开发和维 护,根据产品类别,划分了自营、联合贷、三方产品三张分表,均采用聚合模型。 Asia2024 DorisSummit 汇总层:基于Doris视图实现简单汇总,将DWD层的三张分表Union在一起,便于下游使用,不实际存储数据。 Asia2024 应用层:同样通过视图实现,该层面向于实际业务需求场景,基于DWS层进一步加工汇总,根据应用系统查询需求的不同,提供不同的接口服务。 任务监控:自定义监控、系统监控 Asia2024 整体响应时间:平均78ms mit DorisSummit 数据时效性:<1min orisSummit DorisSummit Asia2024 mit DorisSummit A Asia202 客群圈选 Asia2024 DorisSummit •实时链路:基于实时数仓,采集、加工、计 Asia2024 DorisSummit 算、存储实时标签,最终圈选实时客群 Asia2024 •离线链路:基于离线数仓,采集、加工、计算、存储离线标签,最终圈选离线客群 Asia2024 DorisSummit •营销平台:通过接口获取符合规则条件的客群信息 Asia2024 DorisSummit Doris表结构设计 DorisSummit 主键及索引设计分桶设计表模型设计 orisSummit mit A Asia202 •DWD层为业务数据明细表,通过联合主键确定唯一一条数据 Asia2024 •查询字段使用布隆过滤器创建二级索引,加速查询 •0-10M的数据量:1 Asia2024 •10-50M的数据量:2 •50M-2G的数据量:4 DorisSummit •2-5G的数据量:8 •5-25G的数据量:16 •25-50G的数据量:32 Asia2024 DorisSummit •超过50G的数据量:64 •为保证幂等写入,明细层统一采用聚合模型 Asia2024 DorisSummit •为实现部分列更新,需更新字段声明为“replaceifnotnull” Asia2024 DorisSummit 数据服务-统一数据服务平台 风控营销 DorisSummit 应用层 Asia2024 DorisSummit 运营后管 Asia2024 DorisSummit 接口层 项目管理 接口管理 Asia2024 调用管理统计分析 orisSummit mit Asia2024 A DorisSummit Asia202 数据层 ApacheDoris orisSummit Asia2024 mit

你可能感兴趣

hot

02-小红书云原生实时数仓的建设与实践-王成

文化传媒
ArchSummit北京2023|全球架构师峰会2023-06-06
hot

6-2 字节数据湖平台在实时数仓中的实践

信息技术
DataFunSummit2022:多维分析架构峰会2022-07-18