大模型趋势下的企业数据体系思考 何昌华——数巅科技CEO 数巅科技:让数据智能像水电一样简单 2022-数巅科技CEO 2017-国家级人才计划 2017- 2015- 蚂蚁集团 计算存储首席架构师 Google搜索引擎 架构核心技术负责人 2005-斯坦福大学博士 …… 智能咨询智能运营归因分析 互动问答信息抽取图片生成智能写作 更新文件 每日交易数据 视频监控 行为日志 存档文件 历史日志 规章制度 过往交易 数仓、数据湖、数据中台 结构化数据 非结构化数据 大语言模型(LLMs) 开源大模型 向量嵌入 微调大模型 SaaSAPI 历史数据 实时数据 当LLMs遇到企业应用:需要与企业数据协同 互动问答 信息抽取 图片生成 智能写作 大模型在企业落地对数据体系的关键需求 数据加载和接入 需求 需求 编排框架 频繁数据交互链路 需求 统一数据资产 •多模态数据需要多种加载、转换方法 •需要管理及沉淀优质资产 自动化工具(包括常用模型) •自动编排执行任务需要各种插件工具和模型算法自动化驱动 高效计算能力 自动链路中数据频繁交互带来计算量倍增 ——世界顶流科技投行a16z2023年6月发布最新大模型应用一般流程 如何解决:智能数据虚拟化技术 业务逻辑模型 逻辑模型B 逻辑模型A 逻辑模型C 虚拟表 虚拟表C 虚拟表A 虚拟表B 物化视图 物化视图物化视图 物化视图 物化视图 数据连接层 源表连接 源表连接 源表连接 源表连接 源表连接 源表连接 全量数据源 业务数据 统一资 产 将异构数据源虚拟化,沉淀统一语义的数据资产 数 虚 自动据 化 根据业务语义实现资产即刻自动扩充,驱动自动化拟 工具引 擎 高效 智能加速实现数量级性能提升物理引擎 数据虚拟化引擎全面实现三大需求 数据虚拟化引擎 统一数据资产 自动化工具 高效计算能力 实现需求一:统一数据资产 更多数据治理方案请关注7月22日【智能化数据治理】分论坛 数据接入 虚拟表批量映射,内置多模态存储加速 业务虚拟宽表 贴源虚拟表 逻辑建模 快速灵活业务建模 数据虚拟化层 K-V存储格式 图存储格式 列存储格式 外部数据接入 业务虚拟表 资产治理 贴源虚拟表 Table1 Col1 Table2Col2Col_C TableCCol_C Table Col1Col2Col3Col4 向量存储格式 Table3 Col3 自动血缘 自动构建字段级血缘 虚拟中间表 虚拟中间表 自动合并等价SQL 避免资产二义性 请帮我圈选一个高效做信用卡营销的人群 重点关注日均交易金额分层、年龄、职业、是否有房贷4个特征 模型计算出客群 因果推断 贪心下钻 回归分析 特征宽表缺少日均交易金额分层这个特征 改写特征宽表生成新的虚拟表并优化执行 实现需求二:数据驱动的自动化工具 ? 自动化模型工具 LLM推荐特征 输入特征 调用业务模型圈选客群 大模型依据已有【日均交易金额】字段推荐特征加工逻辑 实现需求三:高效计算能力 智能加速 智能物化+SQL优化 逻辑模型、指标 DWD DWD DWD DWD 物理数据 公共路径A 公共路径B 物化视图 虚拟层 逻辑模型虚拟宽表流批一体 先进计算存储底盘 内置多格式高速存储 KV、Table、TS,Graph。性能10倍于主流KV存储。 计算性能优化 Join性能做到极致,2倍于主流引擎。 兼容BSP、MPP、Streaming等业界通用引擎。 自我迭代的企业大模型应用框架 框架循环迭代 评估数据回收 RLHF 可视化工具自 数据分析工具动 化 资产治理工具工 常用模型工具具 …… 大模型接入 微调样本 虚拟化引擎 统一数据资产 数据驱动自动化工具高效计算能力 数巅科技,让大模型和企业数据协同起来,实现广泛业务场景下的智能决策 YouneedbothLLMsanddatasystems;Harnesstheirsynergy 感谢聆听 公众号请扫码: 官方网站 https://www.dipeak.com 邮箱 biz@dipeak.com 微信公众号数巅科技