您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[数势科技]:大模型时代的数据分析创新方案与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型时代的数据分析创新方案与实践

信息技术2024-04-24刘豹数势科技胡***
AI智能总结
查看更多
大模型时代的数据分析创新方案与实践

orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 大模型时代指标平台建设实践 Asia2024 DorisSummit Asia2024 刘豹数势科技大数据技术负责人 DorisSummit 目录01 02 LLMAgentvs数据普惠数据普惠实现路径 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit DorisSummit Asia202 03数势科技基于ApacheDoris的数据语义平台建设实践 Asia2024 04案例分享 投资方 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 数势科技:行业领先的数据智能产品提供商 深耕大金融、高科技制造和泛零售等领域,为企业提供基于大模型增强的智能分析助手SwiftAgent、指标平台SwiftMetrics 部分代表客户 DorisSummit 、智能标签平台SwiftXDP等系列产品,提升企业的数字化决策能力,推动企业数字化升级。 生态合作 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 01 Asia2024 DorisSummit Asia2024 LLMAgent&数据普惠 orisSummit Asia2024 mit DorisSummit A Asia202 LLMAgent在ToB行业常见落地场景 DorisSummit 企业级知识库 Asia2024 DorisSummit 内容创作安全与风控 Asia2024 DorisSummit Asia2024 智能智能分分析析与与决策决策 Asia2024 DorisSummit 广告与销售智能客服 Asia2024 DorisSummit 智能分析LLMAgent与数据普惠 DorisSummit Asia2024 现在BI Asia2024 管理者/业务人员数据分析师 数据产品经理 数据工程师数据 未来 管理者/业务人员 LLM Agent 数据 orisSummit DorisSummit A DorisSummit Asia202 Asia2024 管理者/一线业务员直达数据,用数门槛降低,提升企业经营决策与日常业务流中数据参与度 mit Asia2024 DorisSummit (普惠化) Asia2024 DorisSummit 智能分析LLMAgent常见方案对比 orisSummit Asia2024 DorisSummit mit Asia2024 DorisSummit Asia2024 A DorisSummit Asia2024 DorisSummit Asia202 NL2SQL SemanticLayer NL2API orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 02 Asia2024 DorisSummit Asia2024 数据普惠实现路径 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia2024 Asia202 统一语义层:提高准确率、降低成本 DorisSummit Asia2024 DorisSummit 统一语义层是现代数据栈中的一个独立且可互操作的部分,它位于数据源与数据使用者之间。统一语义层使得所有的数据端点,无论是BI(商业智能)工具、嵌入式分析,还是AIAgent和聊天机器人,都能使用相同的语义和底层数据,从而得到一致且可信赖的洞察。 Asia2024 DorisSummit 仓内语义:繁琐复杂、业务指向性差 •ODS->DWD->DWS->ADS,语义建在哪一层? DorisSummit •数据产品经理、数据开发、终端数据使用者,谁来建数据语义? 数据应用表3 带有维度的轻度汇总表 维度表 原始数据表1 维度宽表 BI工具 表1 数据应用 Asia2024 DorisSummit 数据集存储及加工 借款人数22,000 指标呈现 集1 数据 ODS层 Asia2024 DorisSummit 事实明细表 维度表 原始数据表n 原始数据表3 DWD层 带有维度的轻度汇总表 DWS层 数据应用表n ADS层 数据应用表2 事实明细表 原始数据表2 数据同步 … … 数据上传维度 访问人数 集2 数据 Asia2024 100,000 支付人数22,000 数据大屏 数据集3 借款人数25,000 orisSummit A Asia202 mit Asia2024 DorisSummit 数据仓库数据应用 Asia2024 DorisSummit 仓内语义LLMAgent方案:NL2SQL 对话式数据 DorisSummit 标准NL2semantic2SQL方案 用户 数据查询任务 数仓 大语言模型 查询结果输出 Asia2024 DorisSummit 语义层 生成SQL语句 (TEXT2SQL) SQL服务 分析数据库 1、准确率低 查询 Asia2024 DorisSummit •数仓分层语义差异小,LLM意图识别准确度低; •LLMworldknowledge包含的企业级知识非常少; 2、性能不稳定 •大模型写出的SQL未经优化,实际上仅能做参考; •大查询有将数据库拖垮的风险,影响全局系统稳定; Asia2024 3、数据安全风险 •LLM无法确定提问人对企业数据的权限范围,直接toSQL容易出现数据安全风险 orisSummit mit A Asia202 意图理解&结构化生成 Asia2024 DorisSummit 生成的SQL做数据库查询 Asia2024 DorisSummit 仓外语义:灵活便捷、贴近业务 •数据建模右移,更贴近数据消费endpoint,更便于LLMAgent规划推理; •基于虚拟层做数据编织,口径管理更灵活、便捷。 维度表 原始数据表2 原始数据表1 DorisSummit Asia2024 规范化加工原子指标、维度等 积木式组装派生和衍生指标 指标API服务 原始数据表3 orisSummit Asia2024 mit A Asia202 原始数据表n … ODS层 事实明细表 事实明细表 维度表 DWD层 Asia2024 数据仓库 原子借款人数 指标 统计月至今 周期 渠道 维度 贷款页浏览人数 DorisSummit 昨日 期限 昨日A渠道借款人数 ➗ 昨日A渠道贷款页访问人数 Asia2024 = 昨日借款转化率借款转化率周环比 DorisSummit 指标平台 LUIAgent DorisSummit 指标语义层: BI 工具 •指标字段 •所需维度 •统计周期 •聚合方式 •约束条件 数据大屏 •统计步长元数据信息 Asia2024 DorisSummit 仓外语义LLMAgent方案:NL2API 结合大模型+指标分析平台,NL2semantic,提供更优方案 ①数据可信,准确率高 •预设数据指标的定义与管理,避免业务理解对不齐 orisSummit A Asia202 用户 Asia2024 数据查询任务 大语言模型 意图理解指标查询 意图理解&指标关联 指标定义 指标SQL转换 指标转换 对话式数据查询 DorisSummit Asia2024 查询结果输出 DorisSummit 分析数据库 Asia2024 SQL服务 mit DorisSummit 用指标关联的SQL做数据库查询 •借助思维链分析与歧义反问,提升泛化性,避免直接从文本到SQL DorisSummit ②学习成本低 •无需对大模型做预训练,仅需依据指标语义和知识库做用户意图理解,增强prompt语义 •全流程白盒,企业客户用业务语言描述查询过程,方便快速排查 ③性能提升且稳定 •基于自研的数据查询加速引擎,智能优化查询语句 Asia2024 •P95可实现从检索到回答的秒级出数 ④数据安全可保障 •利用指标分析平台的权限管理能力,结合RBAC基础,对数据与指标进行精细化的权限管控,实现数据查询的安全可控 ⑤能力覆盖更全 •高级数据分析问题,可通过精准的指标进行关联与展示,实现单项数据可查、报表可展示、总结报告可生成 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 数势SwiftAgent--NL2MetricsAPI DorisSummit 1.统一数据语义管理 Asia2024 DorisSummit 2.数据计算加速引擎 3.多源异构数据接入 Asia2024 DorisSummit 4.精确用户意图理解 Asia2024 5.持续反思学习,自主进化 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 03 Asia2024 DorisSummit Asia2024 数势科技基于ApacheDoris数据语义平台建设实践 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 数势指标平台产品概况 Asia2024 DorisSummit 数势科技基于APacheDoris的指标平台架构 Gateway网关服务 UMS用户管理 SSO单点登陆 网关层 服务层 数据预处理层 元数据服务 SQL构建服务 配置逻辑 指标定义 指标构建 指标管理SQL构建模型构建 DorisSummit 模型创建维度关联 数据准备服务 元数据 指标元数据 维度元数据 模型打宽 预计算 模型元数据 Mdxcube 策略管理策略寻优结构优化器 优化任务 DorisSummit Asia2024 HME性能加速 数据缓存 aggreate 位点处理 查询优化 joinproject filter OpenAPI Datapush 1.指标管理高效、便捷; DorisSummit 2.指标查询快速、灵活 3.数据安全精细、可靠 Asia2024 模型裁剪模型管理 数据表元数据 数据准备 库表管理数据同步 维度开发数据校验 表profile 模型自动合并 resharping Asia2024 DQLs orisSummit A Asia202 mit 数据接入层 Doris …… HANA 星环 OB Iceberg GP Oracle MySQL Hive Asia2024 DorisSummit 离线数据 DorisSummit 指标应用层 DataFabric理念:指标管理高效、便捷 Query2Query3 Query5…… Query4 Query1 Asia2024 DorisSummit 自助取数BI工具 指标语义层 派生指标C衍生指标D原子指