大模型时代数据库技术创新 自我介绍 百度智能云数据库产品总架构师 个人著作 《大数据架构详解》 获得2017电子工业出版社优秀作者奖 公众号 《大数据和云计算技术》 01 目录02 数据库与大模型 DB4AI:向量数据库 03AI4DB:数据库运维应用 数据库与大模型 4 数据库行业发展史概览 1950s 大型机国防 1970s 小型机 大型商业应用 1990sPC机+局域网企业信息化 2000s数据中心+互联网媒体 2015 云+端+4G 新媒体 2023GPU+AIAI原生应用 科学研究 ERP/CRM/财务 搜索 移动App Jasper 企业BI 电子商务 云计算 Midjourney 个人办公 社交 物联网 微软copilot 个人娱乐 在线办公、教育娱乐、短视频 层次数据库网状数据库 关系型数据库Oracle 关系型数据库数据仓库 开源数据库MySQL 云数据库分布式数据库 DBSC IBMIMS DB2 PC单机数据库 Redis AuroraDAS Ingres SQLServer MongoDB RDS向量数据库 Teradata Redshift dBase Oceanbase PG CockroachDB GaiaDB Pega 基础设施 应用场景 数据库 大模型二次激发了数据库和AI的结合 DB4AIAI4DB 向量数据库数据库智能驾驶舱 大模型和数据库结合相比以前的AI技术场景更通用,能力更实用! 大模型最新技术栈 数据库智能驾驶舱DBSC 私有知识库 互联网,金融,多媒体 各种AppCRM,ERP,财务,HR 各种Agent客服,销售 SaaS AgentBuilder 2BAgent 2CAgent AppBuilder 代码态开发 低代码态开发 RAGFlow ModelBuilder 大模型精调,部署相关工具链 PaaS 大模型(文心,Llama,etc.) VectorDB CPU GPU IaaS DB4AI:向量数据库 8 向量数据库典型场景 相似度检索向量检索为主 语义搜索 文本和向量混合检索 RAG 检索结果给大模型总结 •多模态检索 •推荐系统 •分类系统 •文档,向量混合搜索 •多路召回,排序模型有:CohereRerank和BGE-Reranker •知识库 •客服 •大模型记忆问答 RAG每步的难点和要解决的问题 数据提取 数据索引检索 生成应用 结构化/半结构化数据 数据分块 •按固定大小 Query预处理 •意图识别 Prompt工程 •StepbyStep搜索 website Logs Database APIs •按意图 Embedding •同义词生成 •专有名词处理 召回 •针对场景优化 推荐 大模型能力 非结构化数据 文档音频 图片视频 •BGE •text-embedding-3 •CLIP •向量检索 •文本检索 •多路召回 •re-rank •理解 •生成 •逻辑 •记忆 copilotCoAI RAG在通用性和性价比上占据明显优势 大模 长 •推理能力更强型 文本 •成本低 A R•性能好,尤其是响应时延更好 •问答稳定,解决大模型幻觉问题 G •复杂问题,安全问题处理更好 (复杂过滤,安全回答) •定位方便(大模型是黑盒) RAG应用场景:私域知识库 业务场景 基于大模型的推理能力,搭配向量数据库 私有数据召回能力,构建私域知识库 功能需求 统一的客户向量数据全生命周期管理 •数据embedding管理 •多模私域数据存储和检索管理 •针对私域数据的向量标量混合检索 技术难点 •向量模型的版本管理和全量更新 •复杂的向量和标量混合查询条件支持 •支持私有化部署,集群小型化部署 传统数据库支持向量的缺陷 系统架构 传统数据库的系统架构针对标量字段处理设计,需要支持复杂的SQL计算,与向量数据的KNN检索有很大差距,不能很好解决向量检索需求 索引性能 传统数据库通过扩展向量字段,并基于开源Faiss,nswlib,annoy等来扩展向量索引,受原有架构影响,在写入效率,查询延时和并发性能上均存在瓶颈 存储方案 传统数据库使用的向量检索库往往不具备实时做数据持久化,不能保障数据一致性 海量向量存储/ • • • • 分布式架构,支持百亿级向量规模和十万级分片数量 同时支持向量数据和标量数据支持4096维的高维向量 支持向量索引量化压缩 高性能访问/ • • • 支持HNSW/Puck/PQ等高性能算法 毫秒级ANN向量检索延时 架构和数据引擎多方面工程优化,各场景性能均高于 开源产品3~7.5倍 全栈LLM开发/ • • 支持主流的LLMs框架集成开发 集成百度千帆Embedding模型,基于百度中文语料 并加入知识图谱进行训练,中文实体和短语性能好 弹性&高可用/ • • • • 提供弹性伸缩能力,最大上千节点 分布式高可用架构,可用性99.99%,RPO=0,RTO=30s 内建自动化管理和监控 支持本地磁盘和云存储设施 百度AI原生向量数据库VectorDB VectorDB技术体系 国产服务器 接入服务 访问接口Interface RestfulAPI 多语言SDK 负载均衡LoadBalance 故障隔离Failover 业务场景 文本检索&生成 相似图片检索 推荐系统 大模型推理 大模型知识库 生态集成 大模型框架集成LLM 信创平台支持Platform LangChain LlamaIndex ChatGPT 千帆 Embedding模型调用 国产芯片 国产操作系统 用户体系访问控制 权限管理RBAC 白名单Firewall 身份认证Authentication 访问控制管理DCL 集群生命周期管理DDL 云原生服务 公有云 私有云 查询检索 查询引擎Query/SearchEngine 纯向量检索 标/向量混合检索 标量查询 数据引擎 数据模式DataSchema 实时写入 批量加载 二级索引 向量存储 标量存储 行存储 列存储 容器化部署 百度CCE K8S 第三方容器云 服务器部署 物理机 虚拟机 BaiduBCC 存储支持 分布式 Raft共识协议 异步同步 强一致策略 RPC通信 形式化验证 平台管理 白名单Audit 容灾备份Backup&Recovery 监控告警Monitor&Alert 自动运维OperationAutomation 向量索引 高精度索引 哈希索引 倒排索引 图结构索引 FLAT PQ BaiduPuck HNSW 索引调度 IndexScheduler 索引重建 IndexRebuild 集群管理 集群元数据meta 数据库 表 索引 分区 副本 Database Table Index Partition Replica 系统分为代理节点、数据节点和管理节点 • • • 代理节点:无状态&对等,支持负载均衡 管理节点:基于Raft协议的高可用设计,管理集群的物理拓扑、逻辑拓扑和数据库资源等 数据节点:负责数据的增删改、查询和检索等。基于Raft协议管理表/集合数据的分片及其副本,支持自动Failover 和弹性伸缩等 成熟的分布式架构 高可靠、高可用、强扩展、大规模 Segment层 Compaction调度 Segment路由 快照 恢复 Storage层 SSTable文件 向量索引文件 自研高性能数据引擎 Tablet层 状态管理 数据/控制接口 Schema体系 数据类型系统 向量索引 标量索引 列/字段 列族 表/集合 数据类型 强Schema模型支持标量和向量数据类型 索引 二级索引 混合检索 数据存储与均衡 支持行存、列存、行列混存引擎内再分片 增/删/改/扫描/查询/检索/迭代器接口 数据压缩 向量索引缓存 内存表 数据备份恢复 主键索引缓存 标量数据缓存 硬件优化 向量/标量混合检索 客户端 协议层解析器 解析器 执行器存储服务 向量索引 标量索引 预过滤 查询时过滤Inlinefilter 检索结果 检索后过滤 物理执行计划 统计信息 元数据 逻辑执行计划 AST 语法分析 RPC协议 HTTP协议 服务监听 向量和标量的混合检索 检索预过滤 检索时过滤 检索后过滤 数据分段检索优化 百度智能云VectorDB性能测试报告 VectorDB和某开源系统的对比测试结果,性能(QPS)提升3倍到7.5倍 开源向量数据库 百度智能云VectorDB 开源向量数据库 百度智能云VectorDB •检索QPS或吞吐:系统在单位时间内能够处理的检索请求数量,是衡量检索性能的关键指标 •召回率:检索的TopK结果中,满足真实情况(KNN检索)的TopK集合的比例,是衡量向量检索精度的关键指标 •测试方法:向量索引选择HNSW,检索最相似Top10的向量 •测试规格:数据节点4核8GB,数量为3个 •数据集:SIFT128、COHERE768、GIST960三种维度的数据集,大小为100万 •数据表配置:数据表1个分区/分片,分片副本数为3 VectorDB核心优势总结 【全栈LLM技术支撑】 完整数据库管控能力 •数据全生命周期管理 •360°性能监控和优化 百度文心全技术栈支撑 •领先的中文Embedding能力 •千帆大模型应用引擎支持 【极致性价比控制】 内存开销降低90% •精细的内存开销控制 •HNSW_PQ算法支持 高性能查询 •极致的检索性能优化 •远超开源竞品的查询性能 【服务高可用】 分布式架构 •弹性扩展能力 数据强同步 •RAFT一致性保障 故障自愈 •RTO<30 •RPO=0 【海量数据检索】 百亿级高维度向量存储 •数据分片和多副本设计 •分布式ANN索引 丰富的检索方式 •向量检索 •向量标量混合检索 •全文检索&多路召回 【国产信创支持】 代码自研 •百度自研 •知识产权 信创平台全兼容 •兼容国产主流CPU •兼容国产主流操作系统 AI4DB:数据库运维应用 21 DBSC数据库智能驾驶舱服务全景 组织权限 模块权限实例权限DB权限Table权限列权限 请求分析 慢日志分析 自治全量请求分析 能力 查询治理 查询治理趋势TOP数据分析待优化SQL失败SQL 数据库审计 高风险请求SQL注入 访问来源分析合规报表 大模型 智能压测 任务创建压测控制报告分析 智能巡检 自动巡检报告分析风险提示健康评分 智能领航员 产品咨询 AI优化建议 增强 知识检索 操作审计 实例监控 仪监控展示 表 盘监控接入 告警服务 告警配置告警模板 事件中心 事件和建议执行完事件 敏感数据管理 数自动发现手动配置脱敏规则 据 发 开变更发布 流程规范 SQL规范自定义审批 审批管理 会话情况 告警规则 计划事件 备份回滚定时发布 数据归档 流程中心消息通知 数据源MySQLPostgreSQLSQLServerRedisMongoDBGaiaDB…… 智能领航员:数据库copilot 智能运维 覆盖金融、制造、科研等行业头部客户行业最佳实践 百度多年来汇聚数百名数据库专家经验 智能优化 大模型相比传统算法带来了更好的优化效果 智能开发 领域知识 文档加载/ 切分/强化 知识点 Embedding 向量化 用户问题 Embedding 向量化 问题向量 向量存储 相似度检索 Prompt Top相关 知识点 解答 LLM QA/CoT Prompt 模板 技术解决方案 原理 • 利用RAG(RetrievalAugmentedGeneration)技术,对大模型进行领 域知识增强 领域 知识 • • • 云产品文档 数据库官方文档 内部知识库积累 • 知识切分:原始知识按自然段落、 chunksize等维度切分知识点 方案 • • embedding:文心千帆 bot)、text