大模型在华为推荐场景中的探索和应用 演讲人:陈渤 华为诺亚方舟实验室高级算法工程师 CONT目E录NTS 01 背景 02 LLMforFeature 03 LLMforRanking 04 总结与展望 背景 OUTPUT Predicthowlikelyauserwouldinteractwithatargetitem(e.g.,click,view,orpurchase) 信息过载时代下的推荐系统 为用户推荐感兴趣的资讯,提升用户体验 广告主精准投放,挖掘潜在客户 INPUT Historicaluser-iteminteractionsoradditionalsideinformation(e.g.,socialrelations,item’sknowledge,etc.) 提供更好的服务,建设平台生态,提升平台收益 传统的推荐模型 充分利用用户-物品协同信号建模√ 模型相对较小,时间空间开销低√ 只能利用数据集内的知识× 缺乏语义信息和深度意图推理× 推荐模型如何从大模型中取长补短,从而提升推荐性能? 大模型时代下的推荐系统 引入外部开放世界知识,丰富语义信号√ 具备跨域推荐能力,适合冷启动场景√ 协同信号缺失× 计算复杂度高,难以处理海量样本× LLM4Rec在工业推荐链路中的应用: 特征工程:对原始数据进行加工、增强,得到结构化特征,包括用户/物品维度和样本维度的特征 特征编码:对结构化特征进行编码,得到对应的稠密向量表示,如用户/物品表征 打分/排序:对候选物品进行打分排序,包括物品打分 (精排)和物品直接生成(召回/重排) 用户交互:对话式推荐中用户和系统交互过程中,通过理解用户对话和意图,给用户提供物品推荐 流程控制:控制推荐系统的整体流程,如对排序阶段的控制 Howcanrecommendersystemsbenefitfromlargelanguagemodels:Asurvey LLM4Rec Howcanrecommendersystemsbenefitfromlargelanguagemodels:Asurvey 不微调LLM,引入CRM微调LLM,引入CRM 根据训练和推理两个阶段,将现有LLM4Rec工作分为四个象限: 横坐标:在训练阶段,大语言模型是否需要微调 纵坐标:在推理阶段,是否需要引入传统推荐模型 LLM4Rec呈现出两个趋势:语义+协同 模型:通过引入传统推荐模型(CRM)为语言模型注入协同信号 数据:通过引入推荐场景的数据,结合大模型微调,为语 言模型注入协同信号 不微调LLM,不引入CRM微调LLM,不引入CRM 大语言模型在推荐系统应用的四象限图及代表性工作 LLMforFeature 大语言模型是世界知识的压缩器 •开放世界的知识 •基础的逻辑推理能力 相关新闻报道 外部知识时间因素(如假期等) 重要事件(如奥运会) 获奖情况和影评 …… 用户可能的心情和状态逻辑推理用户可能的个性和品位 可能感兴趣的电影类别 可能感兴趣的导演 …… 传统的推荐系统为封闭的系统,仅使用推荐场景内部的数据进行训练 •仅具备推荐领域内的知识,利用协同信号和特征共现关系进行推荐 •对于用户偏好的学习局限、不全面 •难以解决冷启动和数据稀疏的问题 引入世界知识以及逻辑推理能力的开放推荐系统 •开放世界通用知识:用户、物品相关的背景知识 •逻辑推理能力:深层理解用户行为动机、偏好推理 知识推理和生成 基于推荐场景分解关键因素,对用户偏好和物品外部知识分别对LLM提问 LLM生成相应的用户兴趣推理知识和物品事实知识 知识适配 所生成的文本信息内容复杂多面,且存在幻觉问题,推荐模型难以直接理解和利用 设计多专家网络进行知识提取、压缩、映射,适配至推荐空间,输出结果鲁棒 知识利用 将所生成的知识增强向量作为额外的特征输入到传统的推荐模型 在9个SOTA的推荐模型上,平均AUC显著提升1%+,显示出较好的兼容性和有效性 基于盘古大模型KAR在华为音乐歌单推荐榜单全量上线,对歌曲风格、情感、节奏倾向,用户听歌偏好等知识进行生成,线上A/B播放歌曲次数+1.7%,播放歌曲设备数+1.64%,播放时长+1.57% 在华为应用市场场景全量上线,对APP的开放域标签,用户的APP使用模式和偏好等知识进行生成 进一步探索1:用户和物品规模大,所需推理次数多,且协同信息缺失 •方法:利用协同信息对用户/物品聚类,对每一个聚类用户/物品集进行LLM推理 •效果:华为音乐场景线上A/B,播放歌曲次数+1.99%,播放歌曲设备数+1.73%,播放时长+2.04% 进一步探索2:用户兴趣变迁快,需周期性更新 •方法:采用流式知识提取,感知用户兴趣变迁,学习增量兴趣 •效果:华为音乐场景全量上线,相比固定提取,流式提取离线 AUC+0.27% 进一步探索3:embedding表征精细化使用 •方法:对原始embedding表征进行离散化,如聚类 •效果:相比直接使用embedding,使用离散化ID方法离线AUC+0.3% 大语言模型蕴含着丰富的开放世界知识(物品语义知识),具备超强的逻辑推理能力(用户意图、兴趣演变) LLM作为推荐知识生成器提供给传统推荐模型,已带来显著商业收益 LLM是高资源消耗模型,用于推荐知识生成任务会面临调用次数多,单次调用时延长,所需推理机器多等问题 •推荐场景中海量的用户(亿级)和物品(千万级)规模 •用户兴趣变迁快,需要周期性刷新 •大模型解码耗时长(数秒) •推理机器成本高,电量资源消耗多 基于检索的投机解码分析 基于检索的投机解码 •从历史知识中检索相关文本,并复制到新知识末尾,从而跳过LLM解码过程实现加速解码 •串行解码->并行验证 解码加速发现 •RetrievalInefficiency:检索的耗时占比会随着检索池规模的增长而上涨明显 •DiversityTolerance:解码时从top-k的tokens中采样以增加文本多样性,下游推荐任务高容忍度 个性化检索 •构建个性化检索池(基于协同和基于属性),控制检索池大小和增加文本分布一致性 模糊校验 •校验阶段放松验证条件,接受更多token,提升加速比 •可配置接收门槛概率,避免LLM发散生成 在4个LLM知识生成框架中,取得3-5x的加速效果,显示出显著的兼容性和有效性,以及近乎无损的下游预测效果 在5个不同类型LLM中,取得一致的加速效果,显示出较好的兼容性 在华为广告场景落地,利用LLM对目标广告可能吸引的人群,产品特点,竞争优势,品牌定位和形象等知识进行生成,相比原始解码方式,在AUC持平的情况下解码加速3.45x LLMforRanking 用户行为序列建模对推荐系统预测效果至关重要 •用户行为序列长(~106),兴趣多样 •序列长度对推荐系统的效果影响巨大 •用户长序列建模工作带来显著商业价值:UBR、ETA等 大模型的长序列理解问题相比传统推荐系统更加严峻 •大多数LLM用于理解用户序列只选取最近10-15个行为 •拉长用户行为序列并不能为LLM的推荐效果带来增长,即使输入长度远未超过LLM上下文长度限制(Vicuna-13B的上限为2048tokens) 利用语义相似度检索用户长序列中最相关的行为,弥补LLM长序列理解问题 不微调LLM:通过引入语义级的用户行为检索,根据当前预测物品提取用户序列核心行为,进而提升LLM的推荐性能 Userbehaviors:[‘GonewiththeWind(1939)(2stars)','TheSilenceoftheLambs(1991)(3stars)','TheTerminator(1984)(5stars)','BeforeSunrise(1995)(2stars)','BladeRunner(1982)(5stars),'StarWars:EpisodeIV(1977)(4stars)','ModernTimes(1936)(5stars)’,'2001:ASpaceOdyssey(1968)(5stars)’,'Alien(1979)(5stars)','BacktotheFuture(1985)(4stars)‘…] Recent-based: Theuserisafemale.Herjobissales.Herageis35-44.Shewatchedthefollowingmoviesinorderinthepast,andrated them:['0.GonewiththeWind(1939)(2stars)','1.TheSilenceoftheLambs(1991)(3stars)','2.TheTerminator(1984)(5stars)','3.BeforeSunrise(1995)(2stars)','4.BladeRunner(1982)(5stars)’]Basedonthemoviesshehaswatched,deduceifshewilllikethemovie***TheMatrix(1999)***.YoushouldONLYtellmeyesorno. Retrieval-based(Rella): Theuserisafemale.Herjobissales.Herageis35-44.Shewatchedthefollowingmoviesinorderinthepast,andratedthem:['0.TheTerminator(1984)(5stars)','1.StarWars:EpisodeIV(1977)(4stars)','2.2001:ASpaceOdyssey(1968)(5stars)','3.Alien(1979)(5stars)','4.BacktotheFuture(1985)(4stars)']Basedonthemoviesshehaswatched,deduceifshewilllikethemovie***TheMatrix(1999)***.YoushouldONLYtellmeyesorno. 微调LLM:利用用户行为检索作为数据增强手段,构造模式增强的混合训练数据集,提升LLM对用户长行为序列的理解能力 ReLLa可以大幅提升不微调、小样本微调场景中推荐性能,并展现出极强的样本高效性(10%样本) •行为检索可以显著提升LLM对用户长序列的理解 •LLMSFT可以显著提升推荐效果,且具备极强的样本高效性 不微调 全量样本训练 小样本微调 序列长度分析 •SIM等ID-basedRS随长度增加而提升 •LLM有明显的长序列理解问题(K:15-30) •ReLLa显著缓解LLM长序列理解问题 拉长序列长度和增加训练样本均可以显著提升预测效果->训练效率低如何权衡模型效果和训练效率! 样本高效性分析 •LLM相比ID-basedRS有更好的样本高效性 •少样本微调情况下可以超过全量训练的传统 ID-basedRS ThenumberofSFTsamplesThenumberofSFTsamplesThenumberofSFTsamples 现有基于LLM推荐排序方法的弊端 •低训练效率限制模型性能 只 •短序列:用户行为序列长(~106),采用ReLLa检索方式,能提取少量最相关的部分行为 •少样本:LLM虽然具备样本高效性,但是少样本依旧限制模 型对全量空间的感知,影响推荐效果 •LoRA参数微调方法难以体现核心个性化 传统RS模型作为透镜,权衡效率和效果 •维持LLM较高的训练效率 •隐式拓展到长序列、全样本空间,扩大 LLM感受野,避免信息损失 个性化LLM •Meta-LoRA提供可控、可拓展性参数 •个性化动态路由实现个性化LLM RecLoRA通过引入传统RS作为透镜,取得更