您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2024:生成式AI技术峰会]:罗雷_腾讯音乐-融合 ChatBI 与 HeadlessBI 新一代数据分析平台实践 - 发现报告
当前位置:首页/行业研究/报告详情/

罗雷_腾讯音乐-融合 ChatBI 与 HeadlessBI 新一代数据分析平台实践

AI智能总结
查看更多
罗雷_腾讯音乐-融合 ChatBI 与 HeadlessBI 新一代数据分析平台实践

融合ChatBI与HeadlessBI新一代数据分析平台实践 罗雷腾讯音乐架构师 DataFunSummit#2024 数据分析平台现状 架构演进思考 ChatBI与HeadlessBI融合实践未来展望 01 数据分析平台现状 看板式 •看板不灵活,难以满足复杂、灵活的需求 •开发效率低 拖拽式 •数据分析场景有限,难以支撑复杂需求 •学习门槛较高 •缺乏数据解读,业务需导出数据自行解读 SQL探索式 •SQL学习门槛高 •业务难以理解复杂的库、表、字段信息 当前模式:数据团队保姆式服务 期望模式:业务团队自助式分析 业务团队 取数后自行解读 数据团队 •提需求 •当前报表不支持某个纬度下钻 •这个指标口径是啥 •… •按业务需求制作报表 •… 数据方主导数据分析平台 本质上:元数据+SQL+报表展示简单模式 业务团队 •查找业务数据或报表方便 •支持对话式查询业务数据并展现 •支持自行分析 •… •智能化 •模型标准化 •… 数据团队 业务方主导数据分析平台 由业务团队向数据团队提需求;数据团队排期、写SQL、制作报表;业务方再从报表中取数; 将数据主动权交到业务团队中;业务方可以自由、灵活的进行可视化分析 数据团队痛点 数据加工层 应用层 纬度表 纬度宽表 数据集1 D1,D2 M1,M2 BI平台 事实表 数据集2 事实宽表 D1,D3,D4 M2,M4,M5 纬度表 数据集N DN ...... 业务系统 MN 事实表 事实宽表 其他系统 原始数据层 业务数据 日志数据 第三方数据 •口径无法统一:指标定义散落在各数据集,逻辑不一致 •指标无法复用:指标重复且分散,无法统一对接应用系统 •指标治理困难:无法统一治理,定义大量数据集、权限冗余等 02 架构演进思考 引入HeadlessBI:解决数据治理问题 数据加工层 应用层 纬度表 Headless 指标(原子) BI平台 事实表 指标(衍生) semanticlayer 纬度表 纬度1 semanticmodel 业务系统 纬度2 事实表 其他系统 原始数据层 业务数据 日志数据 第三方数据 指标口径统一、指标可复用、权限可控、易于治理 DatabaseLayer ApplicationLayer DashBord 其他BI系统 业务系统 Headless SemanticLayer SemanticModel 元数据 S2SQL JDBC 术语管理 物化/血缘管理 主题域/模型管理 权限管理 主题域/模型 指标/纬度 行列权限 指标管理 指标市场 衍生指标 原子指标 纬度管理 纬度市场 纬度值设置 自定义纬度 RestAPI -基于库表字段定义语义模型 定义纬度、指标、模型等语义对象 缓存加速层 SQL解析 SQL优化 -引入语义查询语言S2SQL SELECT纬度名,SUM(指标名)FROM模型名WHERE纬度名1=xxGROUPBY纬度名2 -将S2SQL翻译成物理SQL SELECTfield1,SUM(filed2)FROMtable1WHEREfield2=xxGROUPBYfield1 问答模式 基于大模型问答交互带来全新的服务模式 自然语言 零门槛,支持语音、快速上手 自由探索 个性化,灵活表达 界面统一 集中式,多端统一 随问随答 7x24小时,秒级回复 ChatBI Question+Prompt LLM PhysicsSQL 问题 数据安全 来源:《DIN-SQL-DecomposedIn-ContextLearningofText-to-SQLwithSelf-Correction》 涉及元数据(库、表、字段)以及业务数据泄漏 复杂SQL生成难 多表join、引擎方言、计算公式、SQL生成难度高,容易产生幻觉 私域知识识别难 私域实体对象无法有效识别 权限无法管控 数据行列权限无法有效管控 ChatBI+HeadlessBI Naturallanguage ChatBI HeadlessBI Naturallanguage S2SQL LLM SemanticLayer PhysicsSQL PhysicsSQL 复用语义对象,降低LLM生成复杂度 •复用Headless层的语义模型,权限、缓存等由SemanticLayer来处理。 •多表join、计算公式、时间函数、数据库方言等由SemanticLayer处理,降低LLM生成SQL难度 LLM S2SQL SemanticLayer PhysicsSQL ChatBI+HeadlessBI Naturallanguage ChatBI HeadlessBI Naturallanguage S2SQL LLM SemanticLayer PhysicsSQL PhysicsSQL 复用语义对象,降低LLM生成复杂度 •复用Headless层的语义模型,权限、缓存等由SemanticLayer来处理。 •多表join、计算公式、时间函数、数据库方言等由SemanticLayer处理,降低LLM生成SQL难度 LLM S2SQL SemanticLayer PhysicsSQL 03 ChatBI与HeadlessBI融合实践 融合ChatBI+HeadlessBI初始版本 SemanticModel HeadlessBI NaturalLanguage SemanticParser ChatBI Question+Prompt LLM S2SQL 语义名称 语义类型 定义 权限 歌曲名 纬度 song_name 纬度权限设置 数据日期 纬度(分区) imp_date - 播放量 指标 play_cnt 指标权限设置 结算播放量 指标 js_play_cnt 指标权限设置 总播放量 指标(衍生) play_cnt+js_play_cnt 指标权限设置 热歌 术语 `结算播放量`大于1000000的歌曲 - S2SQL SemanticLayer PhysicsSQL SemanticLayer 行优 PhysicsSQL SQL化 列缓转器 权存化优 限化 方案 NaturalLanguage SchemaMapper SchemaElements SemanticParser S2SQL 召回文本相关的语义对象 SchemaElements 基于语义相似度(向量空间距离) EmbeddingMapper 基于文本相似度(编辑距离) KeywordMapper SemanticModel 向量库 词典 语义名称 语义类型 定义 value 歌曲名 纬度 song_name 一路生花 数据日期 纬度(分区) imp_date - 播放量 指标 play_cnt - 结算播放量 指标 js_play_cnt - 总播放量 指标(衍生) play_cnt+js_play_cnt - 热歌 术语 `结算播放量`大于100000的歌曲 - SemanticLayer PhysicsSQL 外部系统 限定当前页面关联的数据语义 NaturalLanguage SchemaMapper QueryFilterMapper #QureyFilterTable:歌曲库 Values:歌曲名=离别开出花 EmbeddingMapper SchemaElements SemanticParser KeywordMapper S2SQL SemanticLayer PhysicsSQL NaturalLanguage SchemaMapper SchemaElements SemanticParser S2SQL SemanticCorrector S2SQL SemanticLayer PhysicsSQL SchemaCorrector GrammarCorrector TimeCorrector NaturalLanguage 周杰伦2015年之后发行的结算播放量大于100万歌曲有哪些? LLMS2SQL SchemaCorrector GrammarCorrector TimeCorrector NaturalLanguage SchemaMapper SchemaElements SchemaParser S2SQL SemanticCorrector S2SQL SemanticLayer PhysicsSQL SchemaParser recallexemplarsbuildprompt generateS2SQL LLM ChatMemory 上下文信息 向量库 短期记忆:存储最近几次对话信息,用于多轮对话 长期记忆:将评估正确的对话上下文信息存储到向量库, Chatcontext:question、exemplars、S2SQL、schema… 持续学习积累模型领域知识 evaluate 引入Agent:解决复杂数据需求 业务团队 方案 融合ChatBI与HeadlessBI的数据分析平台 Question SchemaMapper SemanticParser PlannerAgent recallplancollection 核心要点 SemanticCorrector Text2SQLAgentDashboardAgentOtherAgent SemanticLayer Plan Action ResultProcessor Plan Action ResultProcessor Plan Action ResultProcessor 数据团队 •将Mapper、Parser、Corrector、SemanticLayer作为Text2SQL内置工具 •整合三方服务:外部服务以工具方式动态注册到系统,并以Agent方式提供服务 •数据团队可以聚焦于开发数据工具 •增加数据解读,业务无需导出数据自行解读 SemanticModel Dashboard查询服务 第三方工具 21 •快速功能迭代,对组件做隔离开发和测试 •特定场景拓展,对组件自定义开发和配置 NaturalLanguage SchemaMapper SchemaElements SemanticParser S2SQL SemanticCorrector S2SQL SemanticLayer PhysicsSQL https://github.com/tencentmusic/supersonic 融合ChatBI(poweredbyLLM)和HeadlessBI (poweredby语义层)打造新一代的BI平台 04 未来展望 未来展望 HeadlessBI 持续推进血缘构建、物化加速等方面的建设 探索借助LLM智能建模,降低人工建模成本 ChatBI 结合移动端和语音转文字技术主打便捷性 集成更多数据工具,并优化召回准确率,以拓展更多场景 THANKS DataFunSummit#2024