您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:火山引擎(桂峰):火山引擎云搜索服务大规模技术应用实践 - 发现报告
当前位置:首页/行业研究/报告详情/

火山引擎(桂峰):火山引擎云搜索服务大规模技术应用实践

信息技术2024-08-25桂峰-
火山引擎(桂峰):火山引擎云搜索服务大规模技术应用实践

大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 火山引擎云搜索服务大规模技术应用实践 大数据技术标准推进委员会 大数据技术标准推进委员会 桂峰|火山引擎云搜索资深架构师 据技术标准推进委员会 大数据技术标准推进委员会 自主·创新·引领 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 目录Contents 大数据技术标准推进委员会 01云搜索服务 大数据技术标准推进委员会 02高可用架构 大数据技术标准推进委员会 03向量搜索引擎 据技术标准推进委员会 大数据技术标准推进委员会 04混合搜索 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter01 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 云搜索服务 大数据 大数据技术标准推进委员会 火山引擎云搜索服务 大数据技术标准推进委员会 •全托管一站式分布式搜索服务,完全兼容搜索引擎OpenSearch、ElasticSearch。 大数据技术标准推进委员会 •多年来持续为包括头条、抖音、飞书、懂车帝等字节跳动内部核心业务提供搜索服务支持。历经多年业务发展,云搜索服务累积丰富的业务实践并提供给内外部客户。 大数据技术标准推进委员会 大数据技术标准推进委员会 全文检索 向量检索 云搜索服务 Geo 结构化搜索 据技术标准推进委员会 大数据技术标准推进委员会 其他 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter02 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 高可用架构 大数据 据技术标准推进委员会 大数据技术标准推进委员会 AZ容灾方案 •数据节点多AZ部署:每个AZ一组k8sStatefulSet,存储使用同AZ的EBS云盘 大数据技术标准推进委员会 •结合ESAllocationAwareness,保证同一Shard的主、副分片分配到不同AZ 大数据技术标准推进委员会 容灾能力 大数据技术标准推进委员会 •支持EBS云盘容灾,单EBS集群故障时集群可正常工作 大数据技术标准推进委员会 大数据技术标准推进委员会 •支持AZ容灾,单AZ故障时集群可正常工作 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 常见多活方案 单向同步 双向同步 MQ多写 业务多写 业务改造 中难 系统复杂性数据一致性 高弱 高弱 CCR同步 - 低 高 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 局限性:无法满足 业务单写场景 双向同步需求 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Ebus多活双向同步方案 大数据技术标准推进委员会 •Ebus组件:订阅消费集群的Translog •防回环:针对业务写入数据打Tag&消费侧过滤 大数据技术标准推进委员会 大数据技术标准推进委员会 •实时增量数据一致性检验 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter03 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 向量搜索引擎 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 向量搜索引擎:大模型时代重要的存储 大数据 大数据技术标准推进委员会 ANN算法:决定向量搜索引擎的应用数据规模、查询效率和召回率 大数据技术标准推进委员会 基于空间划分 K=3 大数据技术标准推进委员会 •常见有Kd-tree、K-Means等算法;高维场景下,搜索效率较低 向量压缩方法 大数据技术标准推进委员会 •常见有矢量压缩(PQ/OPQ)或标量压缩(SQ);主要降维方式减少计算/内存占用,但召回率低 大数据技术标准推进委员会 基于图 据技术标准推进委员会 大数据技术标准推进委员会 •主要有NSW和HNSW等算法,当前HNSW业界应用最广;搜索效率和召回率高,但索引空间大,占用较大内存 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 DiskANN 大数据技术标准推进委员会 搜索快召回率高百亿级向量内存消耗低 大数据技术标准推进委员会 索引构建 •构建原始向量的PQ压缩向量 •相比于HNSW进一步裁剪短边,置换为长边,搜索效率高 大数据技术标准推进委员会 •原始向量以及图索引存储于SSD,原始向量和邻居节点存放一起 查询 大数据技术标准推进委员会 •内存Cache:PQ压缩向量以及与查询入口节点保持3跳内的向量节点 •相似度计算仍使用原始向量,保证高召回率 据技术标准推进委员会 •并行从候选节点中搜索邻居,减少IO等待时间 微软DiskANN论文:FastAccurateBillion-pointNearestNeighborSearchonaSingleNode 大数据技术标准推进委员会 大数据技术标准推进委员会 引入HNSWLib 构建Native图检索引擎 引入FAISS实现PQ 压缩编码减少HNSW图内存 大数据技术标准推进委员会 大数据技术标准推进委员会 1234 大数据技术标准推进委员会 据技术标准推进委员会 大数据技术标准推进委员会 引入FAISS构建HNSW/NSG和Lucene构建HNSW 引入DiskANN 大数据 大数据技术标准推进委员会 大数据 据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 Chapter04 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 混合搜索 大数据 大数据技术标准推进委员会 适用场景 大数据技术标准推进委员会 •搜索效率高 大数据技术标准推进委员会 •精确匹配,用户很明确搜索意图 大数据技术标准推进委员会 局限性 大数据技术标准推进委员会 •仅支持结构化文本数据 大数据技术标准推进委员会 •默认对拼写错误以及同义词场景支持不友好 据技术标准推进委员会 •搜索结果精确匹配,无法从语义上扩展搜索范围,例如搜索“好吃的水果” 大数据 大数据技术标准推进委员会 适用场景 大数据技术标准推进委员会 •多模态支持,文本、图像和音视频等数据 大数据技术标准推进委员会 •理解查询背后的意图和上下文信息,非单纯关键字匹配 大数据技术标准推进委员会 局限性 大数据技术标准推进委员会 •复杂度高,需额外引入Embedding模型,涉及大量模型优化 大数据技术标准推进委员会 •成本高,向量索引构建、存储和检索占用大量计算和内存 据技术标准推进委员会 •搜索结果为相对最匹配结果,可能非用户真实预期,需要人为干预 大数据技术标准推进委员会 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 混合 搜索 关键字搜索 语义搜索 大数据技术标准推进委员会 大数据技术标准推进委员会 Rerank阶段 据技术标准推进委员会 大数据技术标准推进委员会 •将关键字搜索和语义搜索候选集合融合打分并重新排序 大数据技术标准推进委员会 归一化&加权融合 𝑆𝑐�������(��𝑎𝑎���)=�∗𝑆𝑐���25(��𝑎𝑎���)+(1−�)∗𝑆𝑐����(��𝑎𝑎���) 大数据技术标准推进委员会 RRF融合 𝑆𝑐����(��𝑎𝑎���)= �+���� 1 (��𝑎𝑎���)+ �+���� 1 (��𝑎𝑎���) 大数据技术标准推进委员会 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 ��25��� 归一化&加权融合 RRF融合 优点 合适的权重召回率/排序 质量可以比RRF效果更好 相对简单,仅依赖文档在候选集中相对顺序,无需score 缺点 依赖数据集训练找到合适 权重参数 参数k不易调参 据技术标准推进委员会 大数据技术标准推进委员会 备注:结论参考论文AnAnalysisofFusionFunctionsforHybridRetrieval 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 混合搜索withRAG 大数据技术标准推进委员会 据技术标准推进委员会 大数据技术标准推进委员会 Oncall前置拦截率实现+15% 大数据 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 大数据技术标准推进委员会 THANKS 大数据技术标准推进委员会 感谢聆听 据技术标准推进委员会 大数据技术标准推进委员会 自主·创新·引领