您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[数势科技]:大模型时代的数据分析创新方案与实践 - 发现报告

大模型时代的数据分析创新方案与实践

信息技术2024-04-25刘豹数势科技胡***
AI智能总结
查看更多
大模型时代的数据分析创新方案与实践

刘豹数势科技大数据技术负责人 目录 LLMAgentvs数据普惠01 数据普惠实现路径02 数势科技基于ApacheDoris的数据语义平台建设实践 案例分享04 数势科技:行业领先的数据智能产品提供商 深耕大金融、高科技制造和泛零售等领域,为企业提供基于大模型增强的智能分析助手SwiftAgent、指标平台SwiftMetrics、智能标签平台SwiftXDP等系列产品,提升企业的数字化决策能力,推动企业数字化升级。 LLMAgent&数据普惠 LLMAgent在ToB行业常见落地场景 智能分析LLMAgent与数据普惠 管理者/一线业务员直达数据,用数门槛降低,提升企业经营决策与日常业务流中数据参与度(普惠化) 智能分析LLMAgent常见方案对比 数据普惠实现路径 统一语义层:提高准确率、降低成本 统一语义层是现代数据栈中的一个独立且可互操作的部分,它位于数据源与数据使用者之间。统一语义层使得所有的数据端点,无论是BI(商业智能)工具、嵌入式分析,还是AIAgent和聊天机器人,都能使用相同的语义和底层数据,从而得到一致且可信赖的洞察。 仓内语义:繁琐复杂、业务指向性差 •ODS->DWD->DWS->ADS,语义建在哪一层?•数据产品经理、数据开发、终端数据使用者,谁来建数据语义? 仓内语义LLMAgent方案:NL2SQL 1、准确率低 •数仓分层语义差异小,LLM意图识别准确度低;•LLMworldknowledge包含的企业级知识非常少; 2、性能不稳定 •大模型写出的SQL未经优化,实际上仅能做参考;•大查询有将数据库拖垮的风险,影响全局系统稳定; 3、数据安全风险 •LLM无法确定提问人对企业数据的权限范围,直接toSQL容易出现数据安全风险 仓外语义:灵活便捷、贴近业务 •数据建模右移,更贴近数据消费endpoint,更便于LLMAgent规划推理;•基于虚拟层做数据编织,口径管理更灵活、便捷。 仓外语义LLMAgent方案:NL2API ①数据可信,准确率高 结合大模型+指标分析平台,NL2semantic,提供更优方案 •预设数据指标的定义与管理,避免业务理解对不齐•借助思维链分析与歧义反问,提升泛化性,避免直接从文本到SQL ②学习成本低 •无需对大模型做预训练,仅需依据指标语义和知识库做用户意图理解,增强prompt语义•全流程白盒,企业客户用业务语言描述查询过程,方便快速排查 ③性能提升且稳定 •基于自研的数据查询加速引擎,智能优化查询语句•P95可实现从检索到回答的秒级出数 ④数据安全可保障 •利用指标分析平台的权限管理能力,结合RBAC基础,对数据与指标进行精细化的权限管控,实现数据查询的安全可控 ⑤能力覆盖更全 •高级数据分析问题,可通过精准的指标进行关联与展示,实现单项数据可查、报表可展示、总结报告可生成 数势SwiftAgent--NL2MetricsAPI 1.统一数据语义管理2.数据计算加速引擎3.多源异构数据接入4.精确用户意图理解5.持续反思学习,自主进化 数势科技基于ApacheDoris数据语义平台建设实践 数势指标平台产品概况 数势科技基于APacheDoris的指标平台架构 1.指标管理高效、便捷; 2.指标查询快速、灵活 DataFabric理念:指标管理高效、便捷 数据虚拟化:指标定义与数据解耦,灵活性 •业务人员前台定义指标更灵活,所见即所得的获取结果,无需等待•指标加工函数和二次计算的算子都可以被独立封装成产品功能,技术实现方案可以分步增加 多源融合、灵活、极速 •Doris存算分离、湖仓一体分析 •跨源联邦数据查询分析、不搬运、更灵活 •DorisDataCache机制&自研预计算加速引擎,兼顾性能 旁路智能预计算加速引擎:HME 核心加速策略: 1、自动预打宽「Join」:根据模型定义将常用的维度与明细数据进行打宽关联;2、自动重分区「resharding」:根据指标口径的业务时间对数据进行重分布,提升数据扫描效率;3、自动预聚合「rollup」:根据指标聚合粒度和聚合维度对明细数据进行多粒度/多维度的聚合;4、自动去重「merge」:根据指标业务含义,对一定范围内的重复更新数据进行去重;5、自动缓存「cache」:对常用/热度较高的指标计算结果进行缓存;6、多预计算选取:自动选择执行代价最小的「预计算模型」;7、支持复杂指标(衍生/派生)的查询优化;8、ROI:预计算策略的调优; 贴合业务场景需要的加速引擎 HME核心优化策略 HME加速示例 未经HME优化HME优化1:省略多表关联HME优化2:加速分区裁剪HME优化3:命中聚合结果 客户真实环境性能压测报告 集群规模: Dorisfe:3台*<8C,32G,500G>;Dorisbe:5台*<32C,128G,10T> 压测指标: •单表(明细表)模型数据量:136亿•查询维度基数组合:<500W•指标函数类型:sum、avg、max、min、count、count_distinct...•响应时长:P95<2s,P50<500ms•可用性:>=99.9%•QPS:50/100•网络:50Mbps•CPU:大于90%的时间不超过5秒,大于60%时间不超过3分钟•内存:超过80%时间不大于5分钟 ...... 数据安全精细、可靠--指标平台权限控制 RBAC权限模型,行列级精细化控制,安全可靠 案例分享(一)某零售客户 基于数势SwiftAgent,某头部茶饮连锁品牌近万家门店店长实现基于数据的运营变革 简化决策,放大成效 案例分享(二)某银行客户 数势科技以SwiftAgent产品为核心,利用行业知识和数据分析模型,在理解策略目标基础上,对某城商行经营矩阵实现了从数据到价值的快速转化。 1.降低人工成本:平均取数工单每天减少约50%;2.提高决策效率:平均取数周期由3天降为1分钟;3.提高数据利用率:数仓已有数据资产表利用率提高20%。4.提升员工满意度:系统满意度9.5分,Top3。 ThanksforWatching!