推荐系统如何从大语言模型中取长补短:从应用视角出发 唐睿明华为诺亚方舟实验室 DataFunSummit#2023 01背景和问题 目录 CONTENT 02 何处运用大语言模型(Where) 推荐模型如何从大语言模型种取长补短,从而提升推荐性能,优化用户体验? 大语言模型可以用于特征工程、特征编码、打分排序、流程控制 03 如何运用大语言模型(How) 总结大语言模型用于推荐系统的两个关键趋势,并分别介绍两个技术方案 挑战和展望 04 从应用视角出发,总结大语言模型用于推荐系统的挑战,并展望未来趋势 01 背景和问题 DataFunSummit#2023 背景和问题 ■传统的推荐系统 •模型相对较小,时间空间开销低√ •可以充分利用协同信号√ •只能利用数据集内的知识× •缺乏语义信息和深度意图推理× ■大语言模型 •引入外部开放世界知识,语义信号丰富√ •具备跨域推荐能力,适合冷启动场景√ •协同信号缺失× •计算复杂度高,难以处理海量样本× ■核心研究问题 ■推荐模型如何从大模型中取长补短,从而提升推荐性能,优化用户体验? ■从应用角度出发,我们进一步将该问题拆解为 ■何处运用大语言模型(WHEREtoadapt) ■如何运用大语言模型(HOWtoadapt) LLM+RS:核心研究问题拆解 LinJ,DaiX,XiY,etal.HowCanRecommenderSystemsBenefitfromLargeLanguageModels:ASurvey.arXivpreprint,2023. 02 何处运用大语言模型 DataFunSummit#2023 ■根据现代基于深度学习的推荐系统的流程,我们抽象出以下五个环节: •数据采集阶段:线上收集用户行为和记录,得到原始数据(rawdata) •特征工程阶段:对原始数据进行筛选、加工、增强,得到可供下游深度模型使用的结构化数据(structureddata) •特征编码阶段:对结构化数据进行编码,得到对应的稠密向量表示(neuralembeddings) •打分排序阶段:对候选物品进行打分排序,得到要呈现给用户的排序列表(recommendeditems) •推荐流程控制:作为中央控制器,把控推荐系统的整体流程。也可以细化到对排序阶段的召回、粗排、精排的控制 基于深度学习的推荐系统流程和不同阶段LLM应用的代表性工作 LinJ,DaiX,XiY,etal.HowCanRecommenderSystemsBenefitfromLargeLanguageModels:ASurvey.arXivpreprint,2023. ■利用大语言模型的外部通用知识和逻辑推理能力,进行特征增强 ■1.丰富用户画像2.理解推荐内容3.样本扩充 大语言模型在特征工程中的应用 ■GENRE ■在新闻推荐的场景下,利用LLM进行新闻摘要,用户画像和个性化新闻内容生成 LiuQ,ChenN,SakaiT,etal.AFirstLookatLLM-PoweredGenerativeNewsRecommendation.arXivpreprint,2023. ■利用LLM的通用语义信息丰富推荐特征表示 ■1.增强文本特征(用户表征、物品表征)表示2.改善基于ID的特征表示的跨场景迁移能力 大语言模型在特征编码中的应用 ■U-BERT ■用户表征:用语言模型对用户评论内容编码,增强用户的个性化表征 QiuZ,WuX,GaoJ,etal.U-BERT:Pre-traininguserrepresentationsforimprovedrecommendation.AAAI,2021. ■UniSRec ■物品表征:通过对物品标题/描述进行编码,来实现跨域推荐的目标 HouY,MuS,ZhaoWX,etal.Towardsuniversalsequencerepresentationlearningforrecommendersystems.KDD,2022. ■打分/排序是推荐系统的核心任务,目标是得到和用户偏好相符的物品(列表) ■根据如何得到最终排序列表的形式,我们将大语言模型应用于打分/排序的工作分成以下三种 ■物品评分任务(ItemScoringTask) ■大语言模型对候选物品逐一评分,最后根据分数排序得到最终的排序列表 ■物品生成任务(ItemGenerationTask) ■通过生成式的方式生成下一个物品的ID,或者直接生成排序列表 ■混合任务(HybridTask) ■大语言模型天然地适合多任务场景,因此很多工作会利用大语言模型来实现多个推荐任务,其中包括评分任务和生成任务 ■探究语言模型分别在零样本(Zero-Shot),少样本(Few-Shot)和微调场景下的评分预测的能力 ■零样本和少样本 KangWC,NiJ,MehtaN,etal.DoLLMsUnderstandUserPreferences?EvaluatingLLMsOnUserRatingPrediction.arXivpreprint,2023. ■探究语言模型分别在零样本(Zero-Shot),少样本(Few-Shot)和微调场景下的评分预测的能力 ■微调语言模型 KangWC,NiJ,MehtaN,etal.DoLLMsUnderstandUserPreferences?EvaluatingLLMsOnUserRatingPrediction.arXivpreprint,2023. ■PALR ■利用用户历史交互得到用户画像,然后基于用户画像、历史交互和提前过滤得到的候选集信息生成推荐列表 用户画像历史交互候选集 YangF,ChenZ,JiangZ,etal.PALR:PersonalizationAwareLLMsforRecommendation.arXivpreprint,2023. ■P5 ■用一个统一的大语言模型在不同的推荐任务上进行预训练,针对不同任务使用不同推荐模版 GengS,LiuS,FuZ,etal.Recommendationaslanguageprocessing(rlp):Aunifiedpretrain,personalizedprompt&predictparadigm(p5).RecSys.2022. ■RecLLM ■提出了一种使用LLM来集成推荐系统流程各模块(检索、排序、用户画像、用户模拟)的一个对话式推荐系统路线图 FriedmanL,AhujaS,AllenD,etal.LeveragingLargeLanguageModelsinConversationalRecommenderSystems.arXivpreprint,2023. 03 如何运用大语言模型 DataFunSummit#2023 如何运用大语言模型(HOWtoadaptLLM) ■从训练和推理两个阶段出发,我们根据以下的两个维度将现有工作分为四个象限: ■在训练阶段,大语言模型是否需要微调。这里微调的定义包含了全量微调和参数高效微调。 ■在推理阶段,是否需要引入传统推荐模型(Conventional RecommendationModel,CRM)。其中,如果CRM知识作为一个预先过滤candidate的作用,则不被考虑在内。 不微调LLM,引入CRM 不微调LLM,不引入CRM 微调LLM,引入CRM 微调LLM,不引入CRM 两个趋势 大语言模型在推荐系统应用的四象限图及代表性工作 •模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号。 •数据:通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。 LinJ,DaiX,XiY,etal.HowCanRecommenderSystemsBenefitfromLargeLanguageModels:ASurvey.arXivpreprint,2023. 利用大语言模型开放知识辅助推荐的通用推荐框架KAR 不微调LLM,引入CRM 不微调LLM,不引入CRM 微调LLM,引入CRM 两个趋势 •模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号。 •数据:通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。 仅使用语言模型进行推荐目前效果不理想。 微调LLM,不引入CRM 大语言模型在推荐系统应用的四象限图及代表性工作 XiY,LiuW,LinJ,etal.TowardsOpen-WorldRecommendationwithKnowledgeAugmentationfromLargeLanguageModels.arXivpreprint,2023. 有效结合大语言模型的通用世界知识与传统推荐系统的领域知识 •通过FactorizationPrompting,有效激发大语言模型针对用户兴趣的推理和知识获取能力,缓解构成差距的问题 •提出混合多专家网络知识适配器,将语言模型生成的世界知识由语义空间适配至推荐空间,进行降维、噪声处理的同时保存有效信息。 •推理复杂度与传统推荐模型一致 𝑂(𝑓(𝑛,𝑚))。 方法创新性 通用性强,适配各类型工业推荐场景和任务 ■大语言模型的构成差距问题(CompositionalGap) •无法准确回答复合推理问题,但可以准确回答复合问题的各个子问题 •用户偏好复杂多面,世界知识混合海量,难以直接生成有效知识 •受因式分解的启发,将开放知识生成问题动态分解为多个关键子因素,按因素分别进行用户兴趣推理和知识提取。 XiY,LiuW,LinJ,etal.TowardsOpen-WorldRecommendationwithKnowledgeAugmentationfromLargeLanguageModels.arXivpreprint,2023. 知识推理和生成: ■基于推荐场景对于决定用户偏好,动态分解出相应的关键因素,对于用户偏好和物品外部知识分别对大语言模型提问 ■生成相应的兴趣推理知识和物品事实知识文本 知识适配: ■所生成的文本信息内容复杂多面(500~1000tokens),且存在幻觉问题,推荐系统无法直接理解和利用 ■设计多专家网络进行知识提取、压缩、映射,适配至推荐空间,输出结果鲁棒。 知识利用: ■将所生成的知识增强向量作为额外的特征域,结合原本数据特征,进行特征交互,输出最终结果。 XiY,LiuW,LinJ,etal.TowardsOpen-WorldRecommendationwithKnowledgeAugmentationfromLargeLanguageModels.arXivpreprint,2023. ■【通用性】在9个SOTA的推荐算法上,平均AUC显著提升1.5% (AUC3‰以上的提升即为显著) ■【可落地性】推理复杂度与传统推荐模型相当。 ■【有效性】相比SOTA预训练推荐模型,AUC显著提升1%以上。且用户推理知识和物品事实知识都提供显著的增强效果,二者联合使用效果更优。 XiY,LiuW,LinJ,etal.TowardsOpen-WorldRecommendationwithKnowledgeAugmentationfromLargeLanguageModels.arXivpreprint,2023. 不微调LLM,引入CRM 不微调LLM,不引入CRM 微调LLM,引入CRM 两个趋势 •模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号。 •数据:通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。 仅使用语言模型进行推荐目前效果不理想。 微调LLM,不引入CRM 大语言模型在推荐系统应用的四象限图及代表性工作 LiX,ChenB,HouL,etal.CTRL:ConnectTabularandLanguageModelforCTRPrediction.arXivpreprint,2023. •以混合粒度