您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2024:生成式AI技术峰会]:槿松-寒退之+基于大模型的生成式检索 - 发现报告
当前位置:首页/行业研究/报告详情/

槿松-寒退之+基于大模型的生成式检索

AI智能总结
查看更多
槿松-寒退之+基于大模型的生成式检索

基于大模型的生Th式检索 槿松/京东算法工程师寒退之/京东算法工程师 DataFunSummit#2024 背景/现状介绍 Lexicalbased SemanticIDbased 未来展望 01 背景/现状介绍 两段式: 双塔+量化、联合索引优化(poeem)、图索引; 一段式: TDM,deepRetrieval等 模型侧:匹配精准度低,尤其是中长尾query/sku 用户表述与商品描述间差异较大,缺失常识等信息;给定信息下,模型交互不充分,匹配不准确。 索引侧:部署成本高、推理精度损失大两段式的训练模式,索引损失大; 商品索引库需要天例行更新,部署、存储成本高。 召回:在一定时间和计算复杂度的约束下,从全量商品库中,快速找出与当前搜索请求潜在相关的数千商品,要求在有限资源下进行性能和效率(召回率和准确率)之间的平衡。 •索引侧: •(1)稠密检索两阶段,量化损失-->生Th式检索一阶段,不会有链路上的损失 •(2)例行大索引-->hash索引或者轻量级索引 •模型侧: •(3)稠密检索中,查询与文档向量的交互不够充分,仅发生在相似度计算-- >生Th式检索模型能实现隐式的查询和文档的深度交互,性能上界更高 •(4)充分利用大语言模型的scalinglaw特性,提升模型表达能力和泛化能力,显著缓解中长尾问题 02 Lexicalbased https://arxiv.org/abs/2407.19829 QUERY LLM TITLE 领域特性 位置全局无关、局部敏感信息冗余 挑战:训练任务较难、搜索空间大、生Th非商品率高等 query太短,title较长;传统问答相反,输入信息多,答案少一对多/超多,多样性要求高 生Th空间大,准确率低,且生Th的非商品率过高(不在商品库中) Query2TitleQuery2MultiSpan Title: 舒肤佳抑菌洗手液100ml老包装 Split(ngram): [舒肤佳][抑菌][洗手液][100ml][老包装] Sort(ngram): [老包装][舒肤佳][洗手液][抑菌][100ml] Agg(span): [老包装舒肤佳][洗手液抑菌100ml] query1 span1_1(随机采样title1的span)neg_span1_1(随机采样neg_title1的span) GenR-PO+SFTvsRSR 中长尾提升较多,头部较弱 GenR-PO+SFTvsDPO(wcons) 偏序学习后,中长尾提升优势仍在,头部差异减弱,recall@1000上,指标几乎相当 GenR-PO+SFTvsDPO(w/ocons)高于DPO不加约束,约束性生Th占优 Beamsize为超参,是指标与相关性的妥协 q2t/t2qvsquery2multi-span原始Title噪声过多,重定义任务 非常关键 L、M为超参,适当的增加span数量,控制span长度会有较好效果 03 SemanticIDbased https://arxiv.org/abs/2407.21488 QUERY LLM SID Lexical-based劣势: 生Thtoken数较多时推理速度较慢,存储空间占用大 SID-based难点: 依赖于生ThSID的表征质量依赖于生Th的SID的质量 [1]Google:RecommenderSystemswithGenerativeRetrieval,http://arxiv.org/pdf/2305.05065 该用户信息:年龄:age_2;性别:男性;会员状态:非会员。该用户的历史交互行为有: <xxx><xxx><xxx>,<xxx><xxx><xxx>……。该用户本次搜索的关键词为“XX鼠标”。请根据该 用户信息、历史交互行为和本次搜索关键词,预测该用户接下来最可能购买的商品: RQ量化[1] <xxx><xxx><xxx> 路径稀疏 长尾分布 第一层 候选点被分ThM个聚类桶,token的入度相等。 输入分布均匀。 第二层 输入为第一层的残差,分布非均匀。 小残差点靠近聚类中心,异常值较大。聚类更关注异常值,形Th长尾现象。 第三层 残差值变得一致且均匀。 类似第一层的均匀分布。 第二层大路由节点分散Th多个小节点。 整体趋势 随层数增加,残差减小,聚类效应减弱。 形Th沙漏状结构:数据压缩再扩展,最终均匀分布。 语义ID构建后,路径稀疏性增加,非均匀分布现象加剧。 基本对比 头部token大于长尾token 进阶对比 交换一二层后给定第一层token显著大于base 启发式 直接去除大路由节点层 变长式 ♛适应移除大路由节点层 头部top@ktoken 04 未来展望 04未来展望 1.表征优化 2.时效特征 3.基于大模型的生Th式召回-排序框架 THANKS DataFunSummit#2024