张祺深 蚂蚁集团高级算法专家 主要内容 1.移动APP时代搜索场景的变化和挑战 •结构化信息检索问题 •多属性语义匹配算法 2.生成式的层次化文本多分类样本增强 3.大模型时代还留给搜索哪些NLP问题? 1.移动APP时代搜索场景的变化和挑战 搜索内容的变化: •传统搜索搜索引擎搜索的内容是网页(HTML)和文档(Doc),主要关注文本语义的匹配,检索的文档数量庞大。 •移动APP上搜索的内容多样性显著增加,例如商品、门店、视频、小程序、账号载体(公众号、生活号)、股票基金等。 •Query文本很难完整表示被检索的内容。检索的内容是有限集合,更注重语义相关性。 网页搜索 (文本语义匹配) 商品搜索公众号搜索小程序搜索 基金股票搜索 门店搜索 结构化信息检索问题 移动端APP搜索的特点: 1.检索的内容文本信息较少 2.检索的内容具有结构化信息: •商品:品牌、行业、类目、款式 •小程序:意图、地域、功能 •基金:基金类型、经理人、基金公司、板块、重仓股 3.不同的搜索内容,具有不同的结构化信息 结构化信息的匹配问题: •如何把用户Query和检索Item的结构化信息完整表示并进行综合的语义匹配? 多属性语义匹配算法 •解决方案-多属性文本信息的匹配场景设计语义匹配框架,通过多属性文本的表征、多属性匹配任务、联合匹配概率建模和整句embedding表征优化等方法,将不同属性的文本信息融合到语义匹配算法中,提升文本语义匹配的准确率。 优化策略 C1:多属性文本表示 •TokenEmbedding •Multi-ViewEmbedding •PropertyEmbedding •GraphEmbedding •Property-AwareTask C2:多属性间文本匹配 •多属性文本联合匹配概率 •单属性文本匹配融合概率 •复合属性文本匹配融合概率 C3:语义向量融合表示 •构建局部和整体概率之间的联系 •利用局部表征获得整体表征 多属性语义匹配算法 •解决方案-多属性文本信息的匹配场景设计语义匹配框架,通过多属性文本的表征、多属性匹配任务、联合匹配概率建模和整句embedding表征优化等方法,将不同属性的文本信息融合到语义匹配算法中,提升文本语义匹配的准确率。 C1:多属性文本表示 •将每个属性所属的tokenembedding进行firstlastlayer averagepooling作为属性表征。 C2:多属性间文本匹配 •计算query对于每个属性的attentionweight •使用对比学习InfoNCELoss来优化query与多属性表征的相似 度 C3:语义向量融合表示 •query与item之间的余弦相似度作为q-i之间相关性得分。 •使用对比学习来优化query与item的整句embedding表征之 间的相似度。 WWW2023:BeyondTwo-Tower:AttributeGuidedRepresentationLearningforCandidateRetrieval •同时期的独立工作,google基于多属性的有监督预训练进行属性表征学习,需要有监督的属性样本。 GoogleSIGKDD2022 WWW2023:BeyondTwo-Tower:AttributeGuidedRepresentationLearningforCandidateRetrieval 1.移动APP时代搜索场景的变化和挑战 •结构化信息检索问题 •多属性语义匹配算法 2.生成式的层次化文本多分类样本增强 3.大模型时代还留给搜索哪些NLP问题? 2.生成式的层次化文本多分类样本增强 Query文本分类问题: •Query文本分类是召回、相关性、排序的重要特征,是搜索场景重要的策略输入(例如搜索结果类型的触发条件) •大规模层次化文本分类问题(分类节点1000-100万),分类体系差异性强 •样本少,不同分类体系的样本无法复用,人工标注成本较高 Query 视频 商品 服务 电子产品 服装 日用品 图书 鞋 裙子 裤子 上衣 帽子 短裤 运动裤 西裤 牛仔裤 Query意图类目Query类型+商品类目 2.生成式的层次化文本多分类样本增强 层次化文本多分类样本生成的挑战: •生成样本的分类label需要足够准确 •生成样本的多样性 •C1:label语义和关键词短语增 强的prompt •C2:融入label层级信息的关键 词抽取器,对照TF/IDF •C3:过滤模块,类似CFtraining 过滤,用监督样本训练BERT后 进行过滤 •C4:通用生成式样本增强框架, 可以直接替换不同的生成模型 ACL2023:TowardsBetterHierarchicalTextClassificationwithDataGeneration (蚂蚁集团、江苏大学:王越、李俊涛) 2.生成式的层次化文本多分类样本增强 实验效果: •对比在不同Backbone模型下,不同的生成式文本多分类样本增强方法效果 •EDA:基于规则的增删改 •BT:样本的反向翻译 •LAMBADA:输入样本label,输 出增强样本文本 •GDA:输入一段样本,生成一段 样本 •PromptGDA:一半输入label, 一半输入关键词 ACL2023:TowardsBetterHierarchicalTextClassificationwithDataGeneration (蚂蚁集团、江苏大学:王越、李俊涛) 1.移动APP时代搜索场景的变化和挑战 •结构化信息检索问题 •多属性语义匹配算法 2.生成式的层次化文本多分类样本增强 3.大模型时代还留给搜索哪些NLP问题? 大模型目前的局限性: •生成结果的准确性 •在线服务的耗时 •实时信息的获取 对应的NLP问题: 1.大规模语义检索任务 2.大规模文本分类任务 Thanks!