行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

⾯向⽣成式AI的向量数据库

信息技术 2024-12-23 高超 ziiz M.凯

向量数据库背景介绍

向量数据与向量检索：向量数据是高维度数据表示，向量检索通过计算距离（如L2、IP、Cosine）找到与查询向量最接近的TopK条向量。
向量数据库定义：专为存储和查询高维度向量数据优化的数据库系统。
应用需求：在AI 1.0时代广泛应用于推荐系统、搜索、风控、安防等场景；当前在Retrieval Augmented Generation（RAG）中作为知识存储体，增强LLM答案的相关性。
好向量数据库标准：性能、扩展性、易用性、功能、可观测可运维、生态集成、故障恢复、安全等。

Milvus整体架构设计

云原生分布式架构：包含Proxy（接入层）、Query（查询层）、Data（数据层）、Index（索引层）。
架构优势：隔离性强（建索引不争抢查询资源）、扩展能力支持百亿级向量、灵活的流式数据处理和增量更新/删除。
实时性与性能权衡：
- Segment是查询最小单位，growing segment保证实时可见但性能差，sealed segment性能好。
- 通过indexNode构建索引加速queryNode上的数据查询。
异步compaction：合并小segment加速查询，合并delete数据做物理删除。
批量写入：支持bulk insert（跳过消息队列直接插入对象存储）和Spark connector。
全局索引：按租户、标量过滤条件、向量空间分布划分数据。
Zilliz Cloud：全托管企业级向量检索云服务，分为Serverless、SaaS、BYOC版本，已登陆AWS、GCP、Azure等云平台。

性能的关键-索引

主流向量索引：树索引（维度灾难）、哈希（精确有限）、量化（常用）、图索引（高资源占用但精度和性能优异）。
Knowhere引擎：Milvus核心向量引擎，集成多种算法（FLAT、IVF、Product quantization、HNSW、DiskANN、GPU cagra），提供统一接口方便集成新索引。
索引选择策略：
- 降低cost：采用Disk或量化方案。
- 提高accuracy：避免激进量化，高要求使用FLAT。
- 提高性能：采用内存图索引或GPU索引。
Zilliz Cloud商业版索引引擎-cardinal：更工程化代码、智能参数学习、优化数据存储布局、极致SIMD优化。

面向AI持续进化

Filter search：支持标量过滤条件，通过scalar index和融合索引加速。
Sparse vector：关注关键词信息，与dense vector语义不同，在out of domain数据上更优。
Hybrid search：支持多向量多模态存储和检索（dense/sparse组合）。
Grouping search：通过doc维度做聚合搜索，弥补仅向量召回的不足。
更加易用：未来版本将支持调用第三方模型转向量，用户可直接使用非结构化数据。

⾼超/ Zilliz⼯程师 DataFunSummit # 2024 ⾼超zilliz⼯程师毕业于上海交通⼤学，在向量数据库和⼤数据引擎有⼀定经验，⽬前在zilliz主要负责索引引擎的优化向量数据库背景介绍 Milvus整体架构设计性能的关键-索引⾯向AI持续进化 01 向量数据库背景介绍什么是向量数据什么是向量检索 •找到离查询向量最近的条向量（TopK）K •怎么计算距离取决于模型定义使⽤怎样的Metric，常⻅的有L2，IP和Cosine等什么是向量数据库 •向量数据库是⼀种专为存储和查询⾼维度向量数据⽽优化的数据库系统为什么需要向量数据库 •AI 1.0时代，向量数据库已经被⼴泛应⽤于机器学习应⽤中，包括推荐系统，搜索，⻛控，安防等系统中。现在仍然是重要的使⽤场景为什么需要向量数据库 •Retrieval AugmentedGeneration(RAG)，向量数据库作为存储记忆体保存领域相关的知识，⽤于查找query相关的数据 •LLM从增强的提示词中获得为⽤户量身定制的答案，增强了结果的相关性什么是⼀个好的向量数据库 •性能•扩展性•易⽤性•功能•可观测可运维•⽣态集成•故障恢复•安全•… 02 Milvus整体架构设计云原⽣的分布式向量数据库 •Proxy：接⼊层，负责请求编译，检查和路由 •Query：负责数据/索引的加载和查询 •Data：负责数据批流转化 •Index：索引构建云原⽣的分布式向量数据库 •强⼤的隔离性，建索引不争抢查询资源 •良好的扩展能⼒，⽀持百亿级别的向量 •更加灵活的流式数据处理能⼒和增量更新/删除能⼒实时性和性能的trade off •Segment是milvus查询的最⼩单位 •growing segment负责流式数据的查询，保证数据的实时可⻅，性能差 •sealed segment负责持久化数据的查询。数据构建过索引，性能好 •通过indexNode构建索引替换queryNode上的数据加速查询异步compaction •把⼀些⼩segment合成⼤segment，加速查询 •合并delete数据，做物理删除，对向量检索更加友好批量写⼊ •⽀持bulk insert功能，⽤户提供json/csv/parquet等格式的⽂件，跳过消息队列，直接插⼊到对象存储 •⽀持Spark connector，外部数据源可以通过Spark ETL导⼊到Milvus 全局索引 •根据不同租户做划分数据 •根据标量过滤条件划分数据 •根据向量空间分布划分数据 Zilliz cloud：向量数据库即服务 •Zilliz Cloud是Zilliz基于开源向量数据库milvus打造的全托管企业级向量检索云服务 •分为Serverless，SaaS和BYOC三个版本，⾯向不同需求和不同部署环境 •⽬前已经登陆AWS，GCP，Azure，阿⾥云、腾讯云等 03 性能的关键-索引主流向量索引 •树索引：维度灾难，性能差•哈希：精确有限•量化：精度有限，但⽐哈希更为常⽤•图索引：占⽤资源⾼，精度和性能优异 knowhere引擎 •Knowhere作为milvus的核⼼向量引擎，集成了多种向量算法，供⽤户⾃由选择 •对外统⼀接⼝，⽅便集成新索引 FLAT •暴搜：效率很低，但100%准确！ •数据量少的时候可能优于索引的性能 IVF •对数据点做聚类，分成若⼲个buckets •查询时找到query最近的nprobe个buckets，避免搜索全量数据 Product quantization •将向量分成m段，每段⼦向量通过聚类编码成聚类中⼼id，有效压缩向量的内存占⽤ •查询时预计算query向量和每段聚类中⼼的距离，把距离计算转化成查表操作 HNSW •⽬前最为⼴泛使⽤的图索引 •建索引的原则：近邻的近邻⼤概率是近邻，同时引⼊⼀些⻓边防⽌陷⼊局部最优 •层次化的结构快速定位，贪⼼式搜索找到最终结果 DISKANN •Disk中保存图索引，并按照向量本身和邻居id⼀起存的⽅式增强locality。每次IO同时得到原始向量计算精确距离，同时得到邻居id，⽤到内存中的PQ编码计算近似距离⽤于导航 •DiskANN可以实现较低的内存占⽤，达到还不错的性能和⾼精度 GPU cagra •和NVIDIA团队合作，将gpu cagra索引集成到knowhere，充分利⽤gpu的并⾏计算能⼒，加速索引构建和查询如何选择最合适的索引 •希望降低cost考虑采⽤disk的⽅案，量化的⽅案。 •希望提⾼accuracy则不去做激进的量化策略，要求很⾼则使⽤FLAT。 •希望提⾼performance，采⽤内存图索引/gpu索引⽅案不可能三⻆：必须在限制的条件中进⾏筛选最合适的策略 Zilliz cloud商业版索引引擎-cardinal •更加⼯程化的代码 •更智能的参数学习 •更加优异的数据存储布局 •更加极致的SIMD优化 04 ⾯向AI持续进化 Filter search •带标量过滤条件的向量检索已经成为⼀个基本需求 •milvus⽀持多种scalar index加速标量过滤的效率。同时⽀持向量侧通过标量分布构建融合索引加速过滤 Sparse vector •不⽌于dense vector!与dense vector跟更加关注语义不同，sparse vector提取了关键词的信息，通过关键词匹配找相关的结果，可解释性强 •在out of domain的数据上sparse vector更有优势 Hybrid search •⽀持多向量多模态存储和检索，可以是多个densevector，也可以是densevector和sparse vector的组合 •可以从更多信息的维度进⾏召回和rerank Grouping search •仅向量维度的召回不⼀定满⾜⽤户的需求。在⽂本检索时，⼀个向量代表⼀个chunk，缺少全⽂视⻆ •可以通过doc维度做聚合搜索更加易⽤ •向量不是source of the truth，真正的数据是向量背后的⾮结构化数据，milvus会在后⾯的版本中提供调⽤第三⽅模型转向量的能⼒，⽤户可以直接使⽤⾮结构化数据来使⽤向量数据库 THANKS DataFunSummit # 2024

点击免费查看完整报告

⾯向⽣成式AI的向量数据库

向量数据库背景介绍

Milvus整体架构设计

性能的关键-索引

面向AI持续进化

你可能感兴趣

广发计算机刘雪峰团队 | AI行业深度报告：向量数据库-AIGC时代的必备基础

Zilliz-李晨-解密大模型时代的AI Native向量数据库Milvus

重视AI向量数据库“从0到1突破”的产业机遇，关注星环科技和中亦科技

星环科技，AI PC趋势中重要中间件组件，看好端侧向量数据库的产业机遇

【广发计算机刘雪峰团队】AI行业深度报告：向量数据库-AIGC时代的必备基础工具

【财联社早知道】英伟达联手Zilliz发布全球首个GPU加速向量数据库，将助力AI大模型的发展，这家公司与英特尔联合发布AIGC向量数据库解决方案，能够实现海量向量数据的高实时性查询、检索、召回等功能-20240323

人工智能行业专题研究-向量数据库：AI时代的技术基座

布局AI底座向量数据库，汲取行业红利

云原生向量数据库PieCloudVector助力多模态大模型AI应用

谷歌i、O大会、AI虚拟人、向量数据库浅析