金融大数据存储实践 2023.04/沈百军 目录 大数据发展趋势 存储设计和选型 5个实用案例 大数据发展趋势数据的重要性 大数据趋势特点 •应用服务爆发 •数据分析将成为主流 •与云计算密不可分 •中国占据重要市场 应用服务爆发 •安全与隐私更受关注 •分析领域快速发展 4 •海量的数据 大数据 大数据与应用服务对比 大数据的特点 应用服务 •快速的数据流转 •多样的数据类型 •潜在价值高 商业价值:场景丰富,逻辑复杂 处理对象:结构化,半结构化,非结构化系统工具:开源组件胜多 处理方式:批流一体,解决吞吐问题 商业价值:场景单一,逻辑简单处理对象:结构化,半结构化 系统工具:模式简单,相对比较少处理方式:事务处理,解决并发问题 应用服务 大数据 数据量小,Request/Response 数据量大,用户行为复杂 单任务,资源消耗小批流一体,资源消耗大 磁盘、内存、CPU 可省略 必须 本地缓存 CDN Java JVM缓存 Redis缓存 持久化缓存 Java MQ Redis缓存 持久化缓存 读 写 核心是存储 架构的精髓是存储的设计 目录 大数据发展趋势 存储设计和选型 5个实用案例 存储设计的原理 BASE ACID CAP CAP定理(CAPtheorem) ➢一致性(Consistency)(所有节点在同一时间具有相同的数据) ➢可用性(Availability)(保证每个请求不管成功或者失败都有响应) ➢分隔容忍(Partitiontolerance)(系统中任意信息的丢失或失败不会影响系统的继续运作) 三个需求,最多只能同时较好的满足两个 CA-单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。 CP-满足一致性,分区容忍性的系统,通常性能不是特别高。 AP-满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。 ACID模型弱化 ➢原子性(atomicity) ➢一致性(consistency) BASE模型盛起 ➢BasicallyAvailable--基本可用 ➢隔离性(isolation) ➢持久性(durability) ➢Soft-state--软状态/柔性事务。"Softstate"可以理解为"无连接"的,而"Hardstate"是"面向连接"的 ➢EventualConsistency--最终一致性,也是ACID的最终目的。 内存NoSql Redis Aerospike 大存储KV HBase Cassandra 关系型存储 MySql GraphDB 检索和聚合型存储 MongoDB Elasticsearch 对象存储 Ceph Swift 大数据 Presto(HDFS) Kylin ClickHouse starRocks Hive/Spark(批处理) 图数据库 Neo4j JanusGraph Ultipa/Galaxybase/AtlasGraph 向量引擎 Milvus AI算法 PC存储架构 内存 傲腾持久内存PMem SSD/HDD Infiniband 什么是傲腾持久性内存?DRAM/3DPoint/Flash 傲腾内存,是Intel基于3DXpoint存储介质而打造的缓存设备,其主要作用是为硬盘(HDD,SSD)加速。 英特尔®傲腾™持久内存和英特尔®傲腾™固态盘之间有什么区别 英特尔®傲腾™持久内存和标准DRAM 什么是无限带宽技术? InfiniBand(“无限带宽”)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。 •搭建多层存储类型,可用提供高并发,高可用的,高性能的计算机网络线上服务,保证满足银行业务发展的需求的同时,更好的引领业务发展。 单点 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大 分布式 主要用于一些复杂的,高并发,高可用,而且数据量比较大的线上实时服务,一般一致性差 PC架构 Read(索引) Write 存储方式 ●Hash索引 ●B+树索引 ●倒排索引 ●BloomFilter ●向量化引擎 ●预计算 ●LogWrite(后一致性) ●SyncWrite(一致性) ●列式存储 ●行式存储 ●行列混合存储 目录 大数据发展趋势 存储设计和选型 5个实用案例 15 指标系统 侦测 B+ 客户图谱 征信 AIC`loud Jupyter SAS Hue 可视化界面 计算 存储 ZooKeeper Grafana 离线计算平台 交互式查询引擎 实时计算平台 NoSQL存储 YARN(1200台) 统一脱敏 ElasticSearch HBase/MongoDB 调度平台Z + KDC/Kerberos GangliaNagios Prometheus 服务器4000台,总容量160PB,日新增数据140T,未来一年需翻倍 AI与云计算的结合 以云服务的形式提供AI的能力 GPU资源的统一管理 利用GPU并行运算能力为深度学习加速 使用Kubernetes+Docker基于构建基于 容器的云平台 资源隔离与资源限制;基于镜像发布;弹性计算(秒级动态扩容);HA;多租户;自动化部署 支持主流深度学习与机器学习框架 TF、Cafe、Pytorch、Spark、xgboot、sklearn 分布式存储 块存储、对象存储、分布式文件系统,支持海量训练数据 FPGA加速支持 利用FPGA卡对深度学习算法加速(正在调研评估) 16 权限管理 日志管理 任务管理 监控管理 业务应用 计算框架 容器集群 基础设施 Tensorflow Caffe Pytorch R Spark Python OCR 智能客服 智能推荐 广告系统 NLP … Kubernetes+Docker CPU GPU FP`GA 网络 存储 块存储 对象存储 文件系统 事件驱动,提供稳定,高效的实时计算引擎,底层使用Flink、E+ 规则为了满足一定业务场景,对各种变量进行逻 决策引擎 变量中心 辑处理 规则组规则的集合,规则组包含多条规则,按条件判断是否全满足或者部分满足 决策树根据规则或者规则组的运算结果,进行树状 分支的逻辑逻辑判断 26 ms 性能99% 性能99.9% 决策引擎硬件成本较低,自研,扩展性比较好,吞吐量比较大, 40 ms 未来打造基于event的实时变量计算引擎,支持大数据风控及营销 实时数据接入 业务可配置 埋点数据 交易数据 业务系统实时数据 … 事件可订阅 决策引擎 通过决策引擎接入实时数据源,根据业务规则定义原子事件以及事件属性列表 数据语言翻译,将数据翻译成业务可理解的语言,业务可根据需求自定义用户筛选规则 业务规则配置 业务断点 用户筛选 事件定义 …… 事件中心输出 MQ消息队列 统计 接口服务 监控 原子事件库 用户列表 各个对接系统可动态订阅事件,通过消息队列实时接受满足业务规则的用户客户号 事件统计与监控 周期性统计各个事件的发生次数,监控异常事件 1 2 借贷数据整合,客户视角的资金变动。灵活的查询,搜索服务体验。 基础数据全面整合优化,针对500多种借记卡交易和300多种信用卡交易。 环绕客户日常生活,衣食住行,理财还款等进行分类归纳。清晰用途。 客户收支月度年度分析,丰富的维度和图示,客户收支一目了然 3 4 案例2:交易明细 借助大数据技术能力,全新打造收支分析,一方面面向客户的收支查询做到业内第一,另一方面提供给内部各个业务条线使用,发挥金融数据的深层价值。 数据完整度超招行,对标支付宝 ●客户视角分类、商户层分类、交易层分类等多纬度组合的模型。商户纬度分类,准确率达到80%。 环绕客户用卡的安 全和侦测渗透 ●精准引流(商城、理财、保险、贷款等) ●梳理银行卡签约的协议,进行整合和运营。 客户视角的信息流和资金流闭环 ●一键否认交易 ●安全锁等环绕账户安全的引导 ●AI智能搜索等 助力AI客服 ●查询的时效性:实时流水分类查询5S以内 技术突破和创新 ●借贷数据整合。 ●在第三方支付交易的商户、产品信息和订单详情。 ●关联交易、退款退票交易等原始交易信息。 ●理财在途、贷款、信用卡在途 多纬度的分类模型,进行精准引流 (例如:已赎回未到账,已审核未放款,待还款等) ●将梳理的数据,场景全面融入AI客服,提升AI客服能力。 在线服务 高性能:api服务3000QPS,平响50ms以内 百亿级别数据量:80亿/年*5 高可用:限流,监控,熔断,降级 高吞吐:4000TPS,日处理3000万 实时计算 低延迟:链路平均时延小于3秒 计算高效:规则计算平均深度250步,平均耗时3ms 不重不丢:故障转移,故障恢复 Lambda架构解决方案 离线为主,实时补充 21 API服务 交易明细 账单明细 收支分析 离线数据 D+/v+ 规则计算 明细表 网联… 实时数据 基本信息 商户信息 按交易时间分库分表 按客户号哈希均匀分片 分级缓存 异步重试队列 利用银行标签和个金标签,构建客户八大分类,标签共2000余个 个人信息 客户第一视图 非金融产品及行为 金融产品及行为 生活消费 客户360全景图 身份阶层 投资偏好生命周期 客户综合视图 财富价值 组合标签:是一组规则,判断客户符合此规则,返回布尔类型 人群过滤:通过对一组规则过滤,确定客户集合 标签值查询:高并发获取客户数据 整合行内外用户数据,建立平安银行生态中用户标签体系,为多种营销场景提供高价值,高可用的客群精准定向服务。 口袋A 广告系统 产品货架 搜索平台 系统架构 …… 渠道 标签系统核心基于ES提供大容量数据存储和高效的查询服务,同时支持DB,消息数据,外部接口数据接入 标签数据 客户画像服务 客群圈选服务 客群画像分析 目前已经建立起客户维度的用户标签体系,拥有上千标 标签签,并在不断扩展。 系统 多主题基础标签 实时标签 外部标签 标签每周被上百次的组合,百亿次的使用 此外还有产品,信用卡,贷款等多个主题 平台应用 标签系统通过接口方式为外部80个系统提供服务,覆盖口 数据袋A,行员A,爱客系统,UCP(微信端),BBC等主要 数据集市加工 分析模型 白名单标签 业务自有标签 实时消息 来源 营销渠道 在线服务 标签数据 •在线判定:30000+QPS,日服务量在15亿 •服务高可用:监控、限流、降级 •ES集群索引量在20Tb,单索引最大5Tb •HiveToES导数时间约2.5小时 •整体数据时效T+17小时 API服务 实时标签 E+ 客群判定 规则计算 离线基础标签宽表 客群画像 Z+ 离线基础标签宽表 客群数据批取 实时消息流 •客户标签高达20000+ 潘多拉数据平台——指标管理与指标消费的统一平台 以指标驱动分析,灵活高效 原子指标 派生指标 衍生指标 复杂指标 1分钟找到数据 3分钟创建看板 5分钟挖掘价值 ✓营造数据生态 ✓数据资产治理 ✓降成本提产能 25 实现自动跑批,节省50%ETL开发 节省80%重复跑批资源和80%重复存储空间 实现亚秒级指标查询(非cache情况下指标平均查询响应时间1.5s,去重计数类指标平均为5.8s) 支持数据模型的纬度笛卡尔加20亿+ 支持指标数5000+ 重复指标率<1% Cube数据膨胀率1.3倍,低于业界3.0倍的标准 Hive离线数据 集市 业务表 埋点数