替代NL2SQL,Agent+业务语义的创新产品设计 岑润哲/数势科技数据智能产品总经理 DataFunSummit#2024 引言:大模型技术对于数据分析领域能够解决哪些痛点解决方案:智能分析产品常见设计思路以及优化路径 技术架构:Agent架构结合数据语义层(SemanticLayer)如何实现产品落地 应用场景:某零售连锁行业智能分析助手落地案例 产品设计理念与挑战:LUI+GUI融合的产品设计理念与挑战未来展望:智能数据分析产品演进展望 01 引言:大模型技术对于数据分析 领域能够解决哪些痛点 痛点 以下是3个不同客户发出的真实声音示例,反映了管理团队对现有数据驾驶舱大屏产品的痛点体验: Data≠Insight:"我们公司花了很大精力建设了驾驶舱和各种大屏,看起来很高端,但数字并不等于见解。每次有具体问题,团队还得回去挖数据、分析指标,周报变成了无尽的等待游戏。" SpeedisEverything:"每当董事会要求针对数据作出快速反应时,我都希望能够立刻拿到结论,这个数据大屏却只能给我表面的数,深入分析还得是手工在数仓里建作业,太慢了。" TheGoldenWhyQuestion:"我们的驾驶舱解决了数据展示的问题,但未触及数据解释的关键。当涉及到业务背后的为什么时,它似乎没有答案。" 信息过载 这些真实的客户声音例子反映了一个通用的诉求:管理团队需要的不单是数据的可视化展示,更是对数据的深入理解、快速获取结论和基于数据深度挖掘的原因解释,对数据分析工具的智能性和即时交互性有着更高的期待。 痛点 以下是3个不同客户发出的真实声音示例,反映了业务团队在指标获取、数据分析与数据挖掘方面的核心痛点: SQL学习难度高:"尽管我们有意愿深挖数据背后的真相,但SQL的复杂性让我们非技术人员望而却步。许多时间都浪费在了查询语言的学习上,而不是洞察和行动。" BI报表配置难度高:"我们依赖BI工具来提供数据的可视化,但每次都需要技术团队介入来配置数据集和报表,它的复杂程度令人沮丧。" 大量时间花费在导出数据到Excel里输出结论:"分析团队的日常就像Excel的奴隶,时常花费大把时间将数据导入、整理和分析,这种重复低效的工作限制了我们对数据快速反馈的能力。" SQL学习难度高BI报表配置难度高 导出到Excel手动看数成了日常工作 数据分析师/工程师之痛:重复报表需求杂、指标口径不统一、难以实时响应业务变化 痛点 以下是3个不同客户发出的真实声音示例,反映了数据团队在指标定义、指标开发和指标管理方面的核心痛点: 报表需求灵活多变,临时表冗余:"我们数据团队大部分时间都花在了应对业务部门多变的报表需求上,每次业务流程一变,我们就得开发各种临时表、中间表。这不仅效率低,还很容易造成错误,甚至有的 01 交易额A 02 交易额B 03 交易额C 表用一次就废了" 指标口径不一致:"虽然公司有众多部门在使用数据,但每个团队对同一指标的定义却截然不同,没有统一的数据口径和解释标准。这种不一致性给跨部门的沟通和决策带来了混乱" 难以实时响应业务新增指标需求:"每次业务人员新增一个指标开发需求,都希望我们能半小时内提供相应的指标。现状是,虽然我们已经在数仓加班加点开发了,但还是被业务团队说反应慢,有苦说不出" 报表需求灵活多变指标口径不一致 难以实时响应业务新增指标需求 教不明白 大模型的Agent架构结合指标语义层将加速数据民主化的进程 用不明白 BI 跑不过来 现在 管理者/业务人员数据分析师 数据产品经理 ETL任 务太多 数据工程师原始数据 未来 管理者/业务人员 共同维护 原始数据 SemanticLayer LLM+ Agent架构 管理者/一线业务员直达数据,用数门槛降低,提升企业经营决策与日常业务流中数据参与度(民主化) 02 解决方案:智能分析产品常见设计 思路以及优化路径 •ODS->DWD->DWS->ADS,语义建在哪一层? •数据产品经理、数据开发、终端数据使用者,谁来建数据语义? 数据应用表1 BI工具/智能分析助手 维度表 原始数据表1 维度宽表 数据集存储及加工 指标呈现 原始数据表2 事实明细表 数据应用表2 1 数据集 借款人数 22,000 2 数据集 数据应用表3 带有维度的轻度汇总表 支付人数 22,000 访问人数100,000 数据上传维度 原始数据表3 数据同步 … … 事实明细表 数据集3 数据应用表n 带有维度的轻度汇总表 借款人数 25,000 维度表 原始数据表n 数据大屏 数据湖 数据仓库DW层 数据仓库集市层 数据应用 用户 数据查询任务 数仓 大语言模型 查询结果输出 语义层 生成SQL语句 (TEXT2SQL) 意图理解&结构化生成 SQL服务 企业数据中台 ①准确率低 询 对话式数据查 标准NL2SQL方案 •企业级(千/万张表)数据查询准确率约60-70% •即使是GPT也难有一个直接可用的准确效果 ②成本高 •预训练大模型未掌握企业客户数据与数据格式定义,当数据源过大时,大模型对表的结构学习成本高(增量预训练、长窗口、functioncall等) ③性能差 •大模型写出的SQL未经优化,可能导致长查询的占比较多,性能不好甚至导致查询服务异常,多表关联的真实查询性能不可控 ④数据安全风险 •大模型直接对接数据查询,缺少数据权限管控,隐私与安全性风险较高,用户可通过问询获取非用户权限内的数据 ⑤能力单一 生成的SQL做数据库查询 •很多高级的分析问题依赖底层引擎能力,无法靠大模型生成SQL •数据建模右移,更贴近数据消费endpoint,更便于LLMAgent规划推理; DataAgent •基于虚拟层做数据编织,口径管理更灵活、便捷。 维度表 原始数据表1 规范化加工原子指标、维度等 积木式组装派生和衍生指标 指标API服务 原子借款人数 事实明细表 原始数据表2 指标 原始数据表3 统计月至今 事实明细表 … 周期 维度表 原始数据表n 渠道 维度 贷款页浏览人数 昨日 元数据信息 借款转化率周环比 期限 指标语义层: BI 工具 昨日A渠道借款人数 ➗•指标字段 昨日A渠道贷款页访问人数 •所需维度 •统计周期 =•聚合方式 昨日借款转化率 •约束条件 数据大屏 •统计步长 数据湖 数据仓库DWD 指标语义层(由指标平台低代码实现) 数据应用 结合大模型+指标分析平台,NL2semantics,提供更优方案 用户 对话式数据查询 数据查询任务 查询结果输出 大语言模型 指标定义 企业数据中台 意图理解指标查询 意图理解&指标关联 指标SQL转换 指标转换 SQL服务 用指标关联的SQL做数据库查询 ①数据可信,准确率高 •预设数据指标的定义与管理,避免业务理解对不齐 •借助思维链分析与歧义反问,提升泛化性,避免直接从文本到SQL ②学习成本低 •无需对大模型做预训练,仅需依据指标语义和知识库做用户意图理解,增强prompt语义 •全流程白盒,企业客户用业务语言描述查询过程,方便快速排查 ③性能提升且稳定 •基于自研的数据查询加速引擎,智能优化查询语句 •P95可实现从检索到回答的秒级出数 ④数据安全可保障 •利用指标分析平台的权限管理能力,结合RBAC基础,对数据与指标进行精细化的权限管控,实现数据查询的安全可控 ⑤能力覆盖更全 •高级数据分析问题,可通过精准的指标进行关联与展示,实现单项数据可查、报表可展示、总结报告可生成 NL2Semantics相比NL2SQL在不同数据分析场景的实现度对比 场景数据分析诉求 1 最近7天A门店的订单量是多少? 任务难度系数难点 枚举值转维度 NL2SQLNLtoSemantics 可实现可实现 2 XXX商品今年累计卖了多少? 枚举值转维度 指标语义模糊 可实现但不准可实现且准确 3今年XX商品的交易金额与退货金额分别是 指标语义模糊 难实现可实现且准确 多少? 4XX品牌最近3个月销量最好的Top3商品是哪些? 跨表多指标查询 多任务规划 日维度上卷年维度 指标取数 可实现但不准可实现且准确 这三个分别的好评率是多少?帮我解读下 结果排序衍生计算 5 华东区XX商品的下单金额周环比为什么下降了? 枚举值转维度 同环比计算 难实现 可实现且易理解 多维归因报告解读 时间维度 地域维度公司维度 产品维度数据指标数据维度任务指令 03 技术架构:Agent架构结合数据语义层(SemanticLayer)如何实现产品落地 Goal(目标) 看下近7天基金申购人数,哪个渠道跌得最多,做个总结 ExpertRecruitment(专家雇佣) 取数专家可视化专家归因专家预警专家报告专家 N轮循环 CollaborativeDecision-Making(协同决策) 归因专家 RewardFeedback(正负反馈) Group 取数专家 报告专家 Outcome(结果) Evaluation(结果评估) ? == ActionExecution(动作执行) Agents: 有数据、有逻辑有业务Sense的分析报告 用户想要的SwiftAgent输出的 维度:渠道、风 Actions:险偏好、基金类 型、起购金额、日期等 度量:申购人数 维度归因算法 客户常用的报告模版A 基于大模型Agent架构的理解和思考能力,实现基于自然语言的数据分析,并针对获取的结果数据进行 智能解读与归因,提升经营分析效率 1.任务规划能力——将复杂任务化繁为简,逐步拆解让大模型 自动执行。记忆 调用外部工具/知否识库/模型本身问 答 否 规划 用户Query 感知 是否适用分析Agent 是是否使用规 划器 是 2.数据理解能力——依托指标语义特性,让大模型更懂数据。 3.高效计算能力——将计算任务通过自研计算引擎提交执行,极大优化了计算效率。 短期记忆:会话上下文长期记忆:历史分析思路 工具调用 TOTCOT子目标分解 ReAct Act Result Feedback: 1.Finish/fail 2.Result 3.Reward API对齐 指标行列权限校验 LLM规划 元数据查询 场景指标推荐 指标/标签查询 相似指标推荐 图表生成参数解析 归因分析 维度归因因子归因 数据解读解读知识库 数据分析 API调 用 Text2Code 图表推荐HMAPI 04 应用场景:某零售连锁行业智能分析助手落地案例 零售案例分享:SwiftAgent赋能百名督导千家加盟商实现门店智能运营 在原有的数据仓库基础上,构建一套完整的指标体系框架,并帮助其打造一套可供战区负责人(管理团队)和门店督导(一线业务人员)快速使用的低门槛智能数据分析助手,推进数字民主化进程 门店精细化分析场景 顾客 督导 加盟商 总部视角 •大众点评星级 •美团外卖星级 •饿了么外卖星级 •小程序差评率 … •QSC稽核 •红灯绿灯 •新品销售达成 … •渠道GMV •渠道毛利 •门店运营成本 … •万元盈利率 •GMV •净利 •毛利 … 抓体验 抓服务 抓品质 抓价格 衡量标准 落地执行 形成改善策略 发现问题 统一数据资产(指标+标签体系) 产品分析支撑产品上新、营销、下架的管理决策;门店健康度分析赋能管理到执行的运营策略优化 》 》 统一的分析思路 统一的分析工具 打造基于统一数据的决策体系和策略诊断的支持工具 大模型分析助手 智能数据资产(指标)平台 管理层决策看板 统一的分析语言 构建统一财务经营、门店运营、门店管理、商品分析场景的指标体系,让分析能够进行多维度下钻 》 指标体系设计框架 产品&供应链&外卖 指标x维度 2434 门店管理域 指标x维度 2227 门店运营域 指标/标签x维度 6324 财务经营域指标x维度6029 数据分析场景 (应用) 业绩指标分析 门店稽核分析 财务经营分析 营销效果分析 客户