您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Aicon]:大模型在推荐系统中的落地实践 - 发现报告
当前位置:首页/其他报告/报告详情/

大模型在推荐系统中的落地实践

2024-10-18王浩Aicon艳***
大模型在推荐系统中的落地实践

大模型在推荐系统中的落地实践 演讲人:王皓 中国科学技术大学特任副研究员 CONT目E录NTS 01 推荐大模型背景 02 研究现状 03 生成式推荐大模型 04 总结与展望 大模型推荐背景 推荐系统:从用户历史行为数据中学习用户行为模式,预测未来用户行为 亟待解决的问题:推荐数据稀疏,存在大量冷启动用户与物品,模型难以挖掘用户行为模式 2000年左右2010年左右 2015年左右今天 协同过滤 矩阵分解 神经网络 ??? 大模型技术急速发展,正在成为AI新范式! 大模型技术 涌现能力:模型参数规模超过某个阈值时,模型精度剧烈增长 文本生成 语言理解 知识问答 逻辑推理 数学能力 代码能力 基础:海量文本的高质量清洗及超大规模语言模型训练 增强 推理代码、文本数据激活融合训练 知识 大量认知Prompt任务的有监督训练 人工反馈下的强化学习:注入了人类偏好 45TB原始海量文本语料 570GB清洗后语料(93%是英文) 175GB模型(在GPU显存) 830GB代码数据 数万个任务Prompt,涉及生成、问答、头脑风暴、闲聊等 40个众包团队标注人类反馈数据96%是英文 上亿活跃用户持续提供数据 数据来源:InstructGPT官方论文 大模型推荐vs纯推荐系统 模型泛化性:推荐系统难以适应新任务与新场景;而大模型推荐能够依赖零/少样本推理能力,快速适应新的推荐任务,高效跨域泛化 表征建模能力:推荐系统缺乏语义信息;而大模型推荐能提取高质量的文本表示,并利用编码的世界知识完善物品理解和用户建模 个性化内容生成:推荐系统仅能回答用户对给定候选集中物品的偏好;而大模型推荐具备生成能力,可以生成不受限的个性化内容,且具备较好的可解释性 零/少样本推理世界知识、常识生成能力可解释性 研究现状 传统大模型推荐 生成式推荐大模型 传统大模型推荐 挖掘用户与物品的深度文本语义关联,增强冷启动场景的推荐能力,可解释性强 应用模式:目前大语言模型的推荐以发挥大语言模型的文本能力为主,可根据其应用模式分为三类:大模型生成表征+推荐系统、大模型生成文本+推荐系统、大模型生成推荐结果 大语言模型与推荐模型的结合 1).大模型生成表征+推荐系统2).大模型生成文本+推荐系统3).大模型生成推荐结果 WuL,ZhengZ,QiuZ,etal.Asurveyonlargelanguagemodelsforrecommendation[J].arXivpreprintarXiv:2305.19860, 传统大模型推荐1:大模型生成表征+推荐系统 推荐模型处理文本信息通常依赖文本编码器: 编码文本信息能力弱:相比小语言模型,大模型自身对文本编码能力强大,能提供高质量表征 难以深入理解文本信息:凭借着丰富的知识与推理能力,大模型能够引入小语言模型不具有的外部知识 研究背景 C的传统语言模型(Glove)嵌入 C的传统语言模型(BERT)嵌入A与B,C无关 B与C相关 C的大模型嵌入 A的嵌入 B的嵌入 大语言模型的编码结果与实际上相关的物品更接近 BaoK,ZhangJ,ZhangY,etal.Tallrec:Aneffectiveandefficienttuningframeworktoalignlargelanguagemodelwith 传统大模型推荐1:大模型生成表征+推荐系统 大模型嵌入替代或添加进推荐模型嵌入(如BIGRec):利用大模型获取物品的嵌入,将嵌入替代或添加进推荐嵌入进行后续推荐 推荐模型与大模型的嵌入对齐(如CTRL、ClickPrompt):将大模型生成的嵌入与推荐嵌入通过对比学习、注意力等方法对齐 使用判别式模型获得文本嵌入,提高推荐模型嵌入质量 嵌入拼接 大模型嵌入与推荐模型嵌入拼接 对比学习 大模型嵌入与推荐模型嵌入使用对学习对齐 传统大模型推荐1:大模型生成表征+推荐系统 训练与推理时延:LLM模型生成嵌入的速度较慢,导致了额外的时间和空间开销 大模型存在编码对齐困难的问题:大模型的极大参数量使得其迭代更新困难,导致了表征结果和推荐模型的差异性,LLM的编码空间与推荐模型的编码空间难以对齐 总结与展望 紫色点表示大模型生成的有偏差的表征结果 大模型直接嵌入结果的分布与推荐域分布间存在大量偏差 传统大模型推荐2:大模型生成文本+推荐系统 缺乏开放域背景知识:推荐模型无法包含开放域知识,而大模型经过大量数据训练,具备广泛的背景知识 无法对辅助信息推理:推荐模型通常只基于序列或特征建模,而LLM可以结合上下文和辅助信息进行推理 受限于信息质量:相比于直接编码文本信息,大模型可以通过推理和知识整合提高信息的准确性和深度 研究背景 传统推荐模型: 模型难以获得外部知识无法加工知识 信息质量低 大模型推荐模型: 利用大模型引入外部知识基于知识进行推理 提升知识质量 传统大模型推荐2:大模型生成文本+推荐系统 提炼和联想新信息(如KAR):利用LLM从输入中提炼关键信息,并联想生成新的相关内容以丰富推荐 开放域知识引入(如CTRL):通过嵌入对齐,将开放域知识无缝集成到推荐中,增强内容多样性 利用外部知识库和上下文信息来增强推荐辅助信息 大模型引入外部语料信息 大模型提练关键信息 Xi,Yunjia,etal."TowardsOpen-WorldRecommendationwithKnowledgeAugmentationfromLargeLanguageModels."arXiv preprintarXiv:2306.10933(2023). 大模型提升文本质量 传统大模型推荐2:大模型生成文本+推荐系统 额外的推理时延:模型推理过程可能导致响应时间增加,影响实时性 生成质量依赖于提示模板:输出结果高度依赖于输入提示的质量,需精心设计以确保生成效果 总结与展望 大模型集成到推荐系统中 大模型的集成带来了额外的时延问题 提示模板需要专门设计 传统大模型推荐3:大模型生成推荐结果 研究背景 推荐可解释性差:推荐模型难以解释推荐结果,而大型语言模型可以对其对推荐结果生成解释 数据稀疏和冷启动问题:基于交互的推荐模型难以对冷启动用户生效,大模型的丰富背景知识能够基于文本进行冷启动推理 大模型判断用户是否会选取物品大模型判断用户会选取哪个商品 传统大模型推荐3:大模型生成推荐结果 通过预训练后的LLM与推荐任务的对齐,直接生成推荐结果 提示工程(如TALLRec、KP4SR):通过设计专门的prompt,输入用户信息、上下文以及候选物品列表作为辅助信息,使LLM生成推荐结果 推荐模型嵌入融入(如LLaRa):将来自推荐模型(如协同过滤模型或图神经网络)的embedding融入到模型中,结合LLM的语义理解能力和推荐模型提取协同信息的能力 推荐嵌入文本嵌入嵌入融合 提示模板 输入辅助信息 设计prompt,处理推荐信息推荐模型与文本嵌入融合 传统大模型推荐3:大模型生成推荐结果 强大的冷启动能力:丰富的背景知识为大模型带来了强大的冷启动能力,远远超过了传统的推荐模型 难以生成可控的生成结果:大模型输出存在不可控性,需要以损失通用能力为代价使之与推荐任务对齐 总结与展望 样本数低->高 两种大模型结果 两种大模型结果 传统推荐模型结果 传统推荐模型结果 样本数低->高 ChatGPT对是否推荐物品的问题总是用“是”回答 冷启动场景下大模型取得远超推荐模型的性能GPT的直接输�不可控 数据层面:通用大模型预训练阶段缺乏推荐相关数据,不会推荐任务 模态角度:通用大模型难以捕获协同信息,难以满足推荐需求 传统大模型表现差,与随机猜测 (AUC=0.5) 如何借鉴通用大语言模型,扩展传统推荐模型规模,捕捉用户行为模式和物品特征,构建真正的生成式推荐大模型,实现更精准和个性化的推荐,是一个亟待解决的问题 表现类似 具备通用大语言模型的涌现能力,更适合推荐任务,且能够深度挖掘用户与物品的协同关联 研究方向:生成式推荐大模型,目前主要在表征和优化层面进行研究,可以分为对应的两类:ID特征的索引与建模、高效训练与推理 将传统推荐小模型做大做深,并使其具备scalinglaw 1).ID特征的索引与建模2).高效训练与推理 生成式推荐大模型1:ID特征的索引与建模 推荐模型通常使用基于ID的表征 高基数流式推荐数据:推荐系统需要处理数十亿级别的动态词汇表,基于ID的表征引入大量参数 表征信息量低:ID无法表示用户或物品特性,缺乏先验信息 研究背景 带有先验信息的码本,为码本维护嵌入,替代每个物品维护一个以唯一物品ID为标识的嵌入 生成式推荐大模型1:ID特征的索引与建模 基于语义embedding获取语义ID,用来代替无意义的物品ID进行推荐 等贡献码本:利用预训练大语言模型获得物品内容特征(如文本描述等)的嵌入,再基于矢量量化的方式生 成码本作为语义ID,使其具有内容特征带来的先验信息 层次化码本:基于残差量化的方式获得重要程度逐级递减的码本(粗粒度->细粒度),允许更短码本长度 码本中每个代码的重要程度一样 物品文本的预训练语言模型嵌入 可以用更短的码本长度表达同样丰富的信息 每层码本表达意义的“模长”不同 生成式推荐大模型1:ID特征的索引与建模 信息损失:通过量化方法将密集嵌入转换为离散语义ID的过程,本质上是一种信息的损失 协同信息缺失:语义ID仅基于物品相关描述信息获得,不包含交互或序列特征,无法建模协同信息。尽管工作如ColaRec提出使用预训练的协同过滤模型获得的物品表示增强语义ID,它削弱了对冷启动的处理能力 总结与展望 量化过程中丢失信息 生成式推荐大模型2:高效序列转换架构 研究背景 异构特征处理:推荐系统中的特征缺乏明确结构,包括异构特征如高基数ID、交叉特征、计数器、比率等 高推理成本:词表规模和候选项数目庞大 高计算成本:用户行为规模巨大,推荐系统需要处理的令牌数量远大于语言模型 GRs:生成推荐器DLRMs:深度学习推荐模型 用于训练深度学习模型的计算量 ZhaiJ,LiaoL,LiuX,etal.Actionsspeaklouderthanwords:Trillion-parametersequentialtransducersforgenerativerecommendations[J].arXivpreprintarXiv:2402.17152,2024. 设计具备scalinglaw的模型架构,形成生成式推荐新范式 推荐任务->序列生成任务:将输入的各项异构特征整合和编码成一个统一的时间序列,并将召回、排序等推荐任务重构为统一的Seq2Seq序列生成任务,设计基于transformer的架构生成下一个token。 效率优化:使用随机长度算法降低attention复杂度,通过算子优化等方法降低内存使用量,通过成本摊销扩大推理规模 序列生成任务 一次推理处理多个候选物品,增大模型吞吐量 ZhaiJ,LiaoL,LiuX,etal.Actionsspeaklouderthanwords:Trillion-parametersequentialtransducersforgenerativerecommendations[J].arXivpreprintarXiv:2402.17152,2024. 长序列处理:当前架构不具备拓展到较长序列的能力 时间复杂度:不涉及对时间复杂度的在模型架构层面的优化,未来工作可以考虑设计类似于线性注意力机制或最新提出的mamba等一次复杂度的架构代替或部分代替二次复杂度的自注意力机制。但对于新架构,如何保持scalinglaw是一个挑战 总结与展望 线性注意力机制,压缩计算量 引入额外的状态变量来降低复杂度