实时风险洞察的架构演进与思考 孟祥涛-京东科技-架构师 DataFunSummit#2023 目录 CONTENT 01实时风险洞察面临的挑战03核心组件剖析 02实时风险洞察的架构演进 04未来的思考与展望 01 实时风险洞察面临的挑战 DataFunSummit#2023 风险管理的数智化转型 占领市场先机 数智化:数字化+智能化 大营销快车 管控风险 政策推进 高效运营 数据大爆发 风险识别、风险分析、风险监控、风险处置 数据孤岛 交易、营销、订单、注册登录、实名、设备指纹 海量数据 海量数据对分析效率提出挑战 数据驱动决策 挖掘数据价值,辅助业务决策 实时风险洞察面临的挑战 [4]如何构建通用的风险洞察架 1 2 [2]海量数据场景下的实时性与 用化解决 •数据来源多样性 •数据标准化口径 •数据结构复杂 •数据复用度低 构,通用性高、高性能、高扩展 •组件化:拆分多少组件 •通用性扩展性:哪些关键地方需要扩展、如何扩展 •性能与稳定性:查询性能、渲染性能 4 [3]智能算法赋能预警分析? 3 [1]数据接入定制化多,如何通 性能保证 •实时预警,稳定性、准确性 •实时分析,多维即席分析,所见即所得 •大促百万级tps •资源成本的考量 •实时对抗性:黑产攻击手法呈现出高对抗性和变异性 •专家经验局限性:风险场景多、枚举成本高。专家阈值太低容易造成告警风暴,阈值太高容易漏警 •分析效率低:预警触发需要手动研判风险 •预警治理&优化:预警散落各地,缺少系统化治理、全局视角 平台愿景 实时风险洞察平台 风险实时监控预警与智能分析产品。提供快速的数据接入,助力业务构建全面的业务风险监控预警体系;提供异常检测算法♛动感知业务指标波动异常,并通过归因算法快速定位分析异常波动原因。 02 实时风险洞察的架构演进 DataFunSummit#2023 合适原则 一切不按实际场景� 发的架构设计都是耍 流氓 演化原则 优秀架构一定是以业 务不断发展而演进而 来 架构设计方法论 简单原则 大道至简,简单的方 案解决复杂问题 合适 简单 演化 匹配业务发展所处的当前阶段 充分结合业务实际的应用场景 考虑业务近1到2年的发展规模 复杂逻辑拆分为多个单一执行单元 控制单元边界,控制好最小执行单元粒度 不做过度设计 代码的可扩展性、设计模式 架构的可扩展性 可不断地在实际应用过程中迭代 实现路径拆解 135 24 技术选型智能分析 丰富可视化图表 算法模型 智能化分析能力 OLAP AdHoc实时计算效率Th本 质量 数据标准化 富化、过滤、分发 低代码高扩展高并发高性能 可视化、低代码、拖拉拽基础的:表格柱图线图高阶:对比图,桑基图层级钻取, ♛定义计算字段 智能预警 准确性及时性稳定性 异常检测归因分析 小投入高回报 架构演进1.0——简单灵活有余、扩展性不足 风险监控预警 风险数据分析 ES集群 决策明细 数据看板 Quarz调度 预警指标 整体架构: 简单灵活有余、扩展性不足数据处理: 数据接入、数据加工;硬编码计算架构: 计算性能、复杂计算 存储架构: 单一ES存储 数据接入 架构演进2.0——平台化、组件化、插件化 平台化: 数据架构:计算架构:存储架构: 水平分层架构核心组件插件化低代码 配置化接入、插件化、函数化 内存计算、存算分离 插件化扩展 增强分析 数据建模 计算引擎 数仓管理 问题: 数据架构: 基于明细查询分析,效率低,复用低百万级TPS入库、计算性能 规模越来越大,治理越来越难 预警架构: 风险场景多、枚举Th本高。 严重依赖专家经验,优化调整Th本高 架构演进3.0——实时数仓、智能算法 风险洞察 群体分析 策略分析 风险感知 行为分析 智能分析 智能预警 数据架构 算法服务 关联关系 聚类 归因分析 异常检测 链路拆分:解析、计算、存储 分而治之:动态资源;垂直拆分 数据服务 数据API 指标平台 化繁为简:Flink预计算 数据建模 Sql建模 数据集 Sql引擎 条件表达式 函数 表达式 算法建模 Jupyter CK类库封装 实时数仓 风险实时公共数据模型标准与架构 活动主题 RDWS 用户主题 设备主题 渠道主题 场景主题 营销主题 信用主题 … RODS 地址 设备 策略 交易 登录 注册 RDIM 维表 通用主题 统一元数据 全链路血缘 大数据平台 Flink 数据治理、元数据、血缘 6大ck集群;秒级写入吞吐2500W 算法服务: RDWM 活动 用户 设备 命中策略 时序异常检测 MQ 归因分析 图关系 m Sink 事件总线 Split DataStream&Chain connector Source connector Join FiltEnri Tranforerch Standard Function Script 智能预警: 业务解耦 数据源 登录 营销 交易 决策 告别告警洪流 产品核心功能——建设坚实数据资产根基 •多种数据源可视化配置接入 •消息队列可视化进行字段解析,数据分发落表灵活操作,业务可用,随用随建轻松实现 •数据建模,可视化拖拽配置及高级SQL编辑器,业务人员、分析师皆可使用 数据抽取、数据转换、数据加载、数据整合——标准数据表 MessageQueue JES 产品核心功能——多场景应用 数据决策管理驾驶舱 智能算法-异常检测 多终端自适应——PC、移动、大屏一次制作,多场景应用 03 核心组件剖析 DataFunSummit#2023 核心组件——事件总线 !"#$%&'( )*+, )*/0 12+ +6 产品定位 •统一风险数据标准化处理流程 •抽象数据接入、过滤、富化、转换、分发、输出等过程 •提供可扩展架构 345 +. 丰富平台数据处理能力,提升实时计算、实时数仓、数据湖等平台的数据开发效率 事件总线——架构图 mq clickhouse es r2m hbase kafka rocketMq jmq fmq source 函数引擎 jar code 过滤引擎 一键降级 规则表达式 脚本引擎 avitor groovy 解析引擎 snack jsonpath transform 消息流量监控 mock 动态分组配置 数据上下文 函数扩展点 sink 事件总线 其他业务系统 5K集群 JRC集群 风险洞察 数据应用 插件化算子抽象脚本语言 函数扩展点 … 催收 实名 保险 交易 营销 实时数据 事件总线——自定义函数 复杂结构解析逻辑类似,抽象共性,一次编译多处复用 registeraviatorcontext DSL eventbus Avitor atorExecu FunctionExcecutor Aviator表达式框架 instanceAviatorFunction functionloader codecompiler javacodejavajar 1.JDKclassloader>java.lang.xxx 2.Extresourceloader>org.apache.commons.xxx 3.APPclassloader(AppClassLoader|WebappClassLoader) >org.apache.commons.xxx 函数解析器函数编译器函数注册器函数执行器 关键技术——插件化 智能预警引擎 智能分析引擎 组件定义、解析、注册、渲染 JDBC连接器、Cache连接器、工厂模式、模版设计 SQL引擎 数据源引擎 解析器、适配器、UDF、RedisSQL、nGQL 存储集群 CK、ES、Hbase、MQ 事件总线 连接器扩展、算子扩展、函数扩展点 关键技术——异常检测服务 可扩展算法网关 定义标准、多模型对接扩展,无缝集Th 自动进化 模型♛动迭代 自适应能力 时序数据的♛动化处理和♛适应微调 高性能 支持上万枚举值、毫秒级响应 04 未来的思考与展望 DataFunSummit#2023 未来的思考与展望 场景化:场景化分析能力持续建设 智能化:从单指标异常检测到异常团伙检测探索;分析模式从个体分析到群体分析 湖仓一体:将数据仓库与数据湖的优势充分结合,其数据存储在数据湖低Th本的存储架构之上,拥有数据湖数据格式的灵活性,又继承了数据仓库数据的治理能力。 感谢观看