您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[观远数据]:语义BI:数据民主化进阶之路 - 发现报告
当前位置:首页/其他报告/报告详情/

语义BI:数据民主化进阶之路

2023-12-28观远数据�***
语义BI:数据民主化进阶之路

语义BI:数据民主化进阶之路 演讲人:王冠军CDO数禾科技 数禾科技简介 数禾科技(全称“上海数禾信息科技有限公司”)成立于2015年8月,是城市生活圈媒体网络分众传媒(股票代码: 002027)、知名投资机构红杉资本、服务中国及全球华人社群的领先网络媒体公司新浪等联合投资的金融科技企业。数禾科技以大数据和技术为驱动,为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、 保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个领域,提供营销获客、风险防控、运营管理等服务。数禾科技通过自主开发的消费信贷产品,连接金融机构与普罗大众,赋能金融机构数字化转型,迎接中国消费升级的大潮。 我们希望打造一个能通过业务语言快速 获取数据的语义BI平台 今年以来,每个月信息流渠道新增客户数、新增交易金额是多少? 本月优惠券成本是多少? 今日成交订单数是多少? 面对精密的数据平台,业务用户往往手足无措 找到数据在哪里 了解底层数据结构和含义 知道表之间关联关系 熟悉SQL、Python等语言 会使用连接、过滤等操作 查询、提取和聚合数据 得到需要的指标/数据 大量沟通,多轮沟通 产生依赖性和延迟 数据信任度下降 降低业务灵敏度 不止一座大山 我只是想要取个数! 1.取不到 2.会算 3.复建 4.一致 5.不对 对于数据团队而言,同样面临棘手且复杂的情况 1.大规模 PB/TB量级、多种数据源等 3.质量 准确性、完整性、一致性、可靠性等 5.合规 合法合规、按需用数等 2.可用性 举例:抽数这件事儿 业务团队:数据搬过来 数据团队需要考虑: 系统稳定性、处理速度和效率等 数据存量量级 日增,峰值 4.安全 分类分级、访问授权、泄露风险等 数据存储格式 生命周期配置 字段存储类型 是否敏感数据 6.成本 硬件、软件、人力等 各系统更新时间 数据抽取方式 业务与技术的焦点不同,如何解决? 模式1:人的驱动 模式2:Cube驱动 模式3:语义驱动 模式4:AI驱动 按需开发,自由开发 固化沉淀,共享复用 统一定义,处处使用 丰富语义,智能决策 我们的演进过程 人的驱动(分布式)人的驱动(集中式)开放业务,自由开发 技术承接,按需开发 Cube驱动 固化沉淀,共享复用 语义驱动 统一定义,处处使用 AI驱动 丰富语义,智能决策 小于2019年 2020年 2022年 2023年未来 我们的演进过程 当前阶段 人的驱动(分布式)人的驱动(集中式)开放业务,自由开发 技术承接,按需开发 Cube驱动 固化沉淀,共享复用 语义驱动 统一定义,处处使用 AI驱动 丰富语义,智能决策 小于2019年 2020年 2022年 2023年未来 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 工程师驱动分析师/策略师驱动 由工程师团队承接业务需求由分析师或业务策略团队自己开发满足需求 完全按需实现,所有指标预先聚合汇总成表,BI承担可视化功能 优点:统一的数据视图缺点: •静态报表,不支持下钻、切片 •开发慢,需求积压 •无法实现灵活探索分析 VS 两个极端 大量的私有化数据集导入BI 优点:起步时有学习成本,但非常敏捷,短平快解决问题 缺点: •信息孤岛,割裂,重复建设 •大量私有化业务逻辑,业务不一致 •质量差,易出故障 •维护成本高,难以管理 长此以往,限制业务发展,积重难返 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 DCube架构 业务团队 衍生指标 工程团队 数据湖仓 DCube 共享复用的公共指标 私有化指标 缺点: 应用层数据杂乱 新需求缺乏弹性 私有化信息孤岛 私有逻辑多样化 优点: 固定/预定义 上卷、下钻 一致性 灵活性 共享复用 部分解决了慢和乱的矛盾 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 语义是什么?说同一种语言:业务术语 在贷余额 A部门叫「剩余本金」,B部门叫「期末余额」,C部门才叫「在贷余额」 逾期率 A部门算人头逾期率,B部门算订单逾期率,C部门算金额逾期率... 我们需要一个标准的「术语体系」来确保大家都在说同一种「语言」 统一术语,消歧去重业务数据标准化 存在歧义 共同理解 面向技术 面向业务 为数据注入业务语言是语义化的核心工作! 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 语义化:以业务流程为桥梁,实现数据模型、业务逻辑和指标等对象的语义标准化 数据治理中心 业务术语描述 BI平台 仪表板展示 (用户旅程) 度量 业务流程 指标 多快好省稳 记载 业务逻辑 数据湖仓 管理记录业务角色 数字化 数据模型 事实表维度表 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 业务逻辑(口径)也需要实现语义化,从而达到指标理解的一致性认知 数据治理中心 业务术语 (用户旅程) 业务流程 业务逻辑放在哪里实现? 数据湖仓 数据模型 事实表维度表 管理记录业务角色 指标平台是实现业务逻辑语义管理的理想平台,是平衡慢和乱的最优策略 星形 模型 DCube 集中式 BI平台 仪表板 分布式 指标平台 指标 多快好省稳 业务逻辑 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 BI工具 数据产品(CDP,CJM…)NotebooksforAA/AI ... 指标平台 指标运维 运行监控 退役策略 SLA 指标服务 API服务 指标订阅 指标目录 指标管理 指标定义 指标生产 指标回溯 权限管控 权限管理 访问控制 工单管理 数据建模 数据注册 维度建模 质量校验 数据治理中心 术语管理 标准管理 政策管理 数据目录 数据发现 资产概览 资产管理 数据湖仓 语义数据基础设施 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 指标是分析应用中抽象高级业务语义的具体表征,技术的复杂性完全藏匿于业务友好的语义表述之内 示例 分析创新 数据民主化 价值创造 会SQL、Python 了解数据结构和含义 多轮沟通提需求知道表关联关系 表(Table) 语义指标 查询、提取和聚合数据… 模式1:人的驱动模式2:Cube驱动模式3:语义驱动模式4:AI驱动 分析框架和模型 RFM Cohort 多维度拆解 AARRR 相关性分析 多目标决策 路径分析 漏斗分析 对比分析 AnomalyDetection 经典预测模型 PropensityModeling ... What-if LLM能力 从Copilot到AnalystAgent 语义化是AI驱动的筑基之本 依托可信、易懂、高质的数据,深度运用机器学习与因果推断实现决策自动化 决策 感知&响应 预测&行动 最优化 推断 预测模型 最好的情况会是什么? 还原 分析模型 记录 即席查询报表 将要发生什么? 数据源 数据模型 标准化报表 为什么发生? 发生了什么? AI驱动 指标平台 数据湖仓 竞争优势 分析成熟度 极多的语义,极高的智能,极限的自助,极致的敏捷向未来 THANKS 感谢聆听