行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

大模型在华为推荐场景中的探索和应用

信息技术2024-10-27陈渤华为丁***

AI智能总结

大模型在华为推荐场景中的探索和应用

背景

推荐系统背景

推荐系统目标: 提升用户体验、广告精准投放、建设平台生态、提高收益。
推荐系统挑战: 历史交互数据、用户偏好、冷启动和数据稀疏问题。

大模型时代的推荐系统

优势: 引入开放世界知识，丰富语义信号，具备跨域推荐能力。
挑战: 计算复杂度高，难以处理海量样本。

LLM4Rec

LLM4Rec的应用

特征工程: 加工原始数据，生成结构化特征。
特征编码: 编码结构化特征，得到稠密向量表示。
打分/排序: 对候选物品进行打分排序，包括精排和重排。
用户交互: 在对话式推荐中理解用户意图，提供物品推荐。
流程控制: 控制推荐系统整体流程。

LLM4Rec的工作分类

训练和推理阶段: 横坐标为大语言模型是否需要微调，纵坐标为是否引入传统推荐模型。

LLM4Rec的两个趋势

语义+协同: 通过引入传统推荐模型和推荐场景数据，提升推荐性能。

LLM for Feature

利用LLM开放知识辅助推荐

框架: KAR（Knowledge Augmented Recommendation）
挑战: 冷启动和数据稀疏问题。
解决方案: 利用开放世界知识和逻辑推理能力，增强推荐模型的语义理解。

技术方案

知识推理和生成: 对用户偏好和物品外部知识进行推理和生成。
知识适配: 使用多专家网络进行知识提取、压缩、映射。
鲁棒知识利用: 将生成的知识增强向量作为额外特征输入传统推荐模型。

实验效果

华为音乐场景: AUC提升1.7%-2.04%，播放次数、设备数和播放时长均有提升。
华为应用市场场景: AUC提升1.7%-2.04%，播放次数、设备数和播放时长均有提升。

LLM for Ranking

长序列理解方法

用户行为序列建模: 通过语义相似度检索用户长序列中最相关的行为，弥补LLM长序列理解问题。
技术方案: 利用用户行为检索作为数据增强手段，提升LLM对用户长行为序列的理解能力。

实验结果

ReLLa: 提升推荐性能，表现出极强的样本高效性。
序列长度分析: 随着序列长度增加，推荐效果提升，但存在训练效率低的问题。

个性化参数微调方法

LoRA参数微调: 结合传统推荐系统，提升模型效果。
技术方案: 使用传统推荐系统作为透镜，权衡效率和效果。

实验结果

RecLoRA: 提升预测效率和模型效果，适合工业上线。

总结与展望

总结

大模型的优势: 增强通用知识，提升语义理解能力。
突破传统定位: 从简单的编码器、打分器逐渐发展为推荐流程的一部分。
语义协同兼顾: 通过微调或引入传统推荐模型，平衡语义和协同信号。
缓解稀疏场景: 提供跨域知识，解决冷启动和长尾问题。

挑战与展望

ID特征的索引和建模: 探索更适合语言模型的ID索引和建模策略。
推荐领域的长文本建模: 通过检索、重构等方法提供简短有效的文本输入。
训练效率: 设计高效训练方案，提升模型训练效率和更新频率。
推理时延: 通过蒸馏、剪枝降低推理模型规模，提升推理速度。

大模型在华为推荐场景中的探索和应用演讲人：陈渤华为诺亚方舟实验室高级算法工程师 CONT目E录NTS 01 背景 02 LLMforFeature 03 LLMforRanking 04 总结与展望背景 OUTPUT Predicthowlikelyauserwouldinteractwithatargetitem(e.g.,click,view,orpurchase) 信息过载时代下的推荐系统 为用户推荐感兴趣的资讯，提升用户体验 广告主精准投放，挖掘潜在客户 INPUT Historicaluser-iteminteractionsoradditionalsideinformation(e.g.,socialrelations,item’sknowledge,etc.) 提供更好的服务，建设平台生态，提升平台收益传统的推荐模型 充分利用用户-物品协同信号建模√ 模型相对较小，时间空间开销低√ 只能利用数据集内的知识× 缺乏语义信息和深度意图推理× 推荐模型如何从大模型中取长补短，从而提升推荐性能？大模型时代下的推荐系统 引入外部开放世界知识，丰富语义信号√ 具备跨域推荐能力，适合冷启动场景√ 协同信号缺失× 计算复杂度高，难以处理海量样本× LLM4Rec在工业推荐链路中的应用： 特征工程：对原始数据进行加工、增强，得到结构化特征，包括用户/物品维度和样本维度的特征 特征编码：对结构化特征进行编码，得到对应的稠密向量表示，如用户/物品表征 打分/排序：对候选物品进行打分排序，包括物品打分（精排）和物品直接生成（召回/重排） 用户交互：对话式推荐中用户和系统交互过程中，通过理解用户对话和意图，给用户提供物品推荐 流程控制：控制推荐系统的整体流程，如对排序阶段的控制 Howcanrecommendersystemsbenefitfromlargelanguagemodels:Asurvey LLM4Rec Howcanrecommendersystemsbenefitfromlargelanguagemodels:Asurvey 不微调LLM，引入CRM微调LLM，引入CRM 根据训练和推理两个阶段，将现有LLM4Rec工作分为四个象限： 横坐标：在训练阶段，大语言模型是否需要微调 纵坐标：在推理阶段，是否需要引入传统推荐模型 LLM4Rec呈现出两个趋势：语义+协同 模型：通过引入传统推荐模型（CRM）为语言模型注入协同信号 数据：通过引入推荐场景的数据，结合大模型微调，为语言模型注入协同信号不微调LLM，不引入CRM微调LLM，不引入CRM 大语言模型在推荐系统应用的四象限图及代表性工作 LLMforFeature 大语言模型是世界知识的压缩器 •开放世界的知识 •基础的逻辑推理能力相关新闻报道外部知识时间因素（如假期等）重要事件（如奥运会）获奖情况和影评 …… 用户可能的心情和状态逻辑推理用户可能的个性和品位可能感兴趣的电影类别可能感兴趣的导演 …… 传统的推荐系统为封闭的系统，仅使用推荐场景内部的数据进行训练 •仅具备推荐领域内的知识，利用协同信号和特征共现关系进行推荐 •对于用户偏好的学习局限、不全面 •难以解决冷启动和数据稀疏的问题 引入世界知识以及逻辑推理能力的开放推荐系统 •开放世界通用知识：用户、物品相关的背景知识 •逻辑推理能力：深层理解用户行为动机、偏好推理知识推理和生成 基于推荐场景分解关键因素，对用户偏好和物品外部知识分别对LLM提问 LLM生成相应的用户兴趣推理知识和物品事实知识知识适配 所生成的文本信息内容复杂多面，且存在幻觉问题，推荐模型难以直接理解和利用 设计多专家网络进行知识提取、压缩、映射，适配至推荐空间，输出结果鲁棒知识利用 将所生成的知识增强向量作为额外的特征输入到传统的推荐模型 在9个SOTA的推荐模型上，平均AUC显著提升1%+，显示出较好的兼容性和有效性 基于盘古大模型KAR在华为音乐歌单推荐榜单全量上线，对歌曲风格、情感、节奏倾向，用户听歌偏好等知识进行生成，线上A/B播放歌曲次数+1.7%，播放歌曲设备数+1.64%，播放时长+1.57% 在华为应用市场场景全量上线，对APP的开放域标签，用户的APP使用模式和偏好等知识进行生成 进一步探索1：用户和物品规模大，所需推理次数多，且协同信息缺失 •方法：利用协同信息对用户/物品聚类，对每一个聚类用户/物品集进行LLM推理 •效果：华为音乐场景线上A/B，播放歌曲次数+1.99%，播放歌曲设备数+1.73%，播放时长+2.04% 进一步探索2：用户兴趣变迁快，需周期性更新 •方法：采用流式知识提取，感知用户兴趣变迁，学习增量兴趣 •效果：华为音乐场景全量上线，相比固定提取，流式提取离线 AUC+0.27% 进一步探索3：embedding表征精细化使用 •方法：对原始embedding表征进行离散化，如聚类 •效果：相比直接使用embedding，使用离散化ID方法离线AUC+0.3% 大语言模型蕴含着丰富的开放世界知识（物品语义知识），具备超强的逻辑推理能力（用户意图、兴趣演变） LLM作为推荐知识生成器提供给传统推荐模型，已带来显著商业收益 LLM是高资源消耗模型，用于推荐知识生成任务会面临调用次数多，单次调用时延长，所需推理机器多等问题 •推荐场景中海量的用户（亿级）和物品（千万级）规模 •用户兴趣变迁快，需要周期性刷新 •大模型解码耗时长（数秒） •推理机器成本高，电量资源消耗多基于检索的投机解码分析 基于检索的投机解码 •从历史知识中检索相关文本，并复制到新知识末尾，从而跳过LLM解码过程实现加速解码 •串行解码->并行验证 解码加速发现 •RetrievalInefficiency：检索的耗时占比会随着检索池规模的增长而上涨明显 •DiversityTolerance：解码时从top-k的tokens中采样以增加文本多样性，下游推荐任务高容忍度 个性化检索 •构建个性化检索池（基于协同和基于属性），控制检索池大小和增加文本分布一致性 模糊校验 •校验阶段放松验证条件，接受更多token，提升加速比 •可配置接收门槛概率，避免LLM发散生成 在4个LLM知识生成框架中，取得3-5x的加速效果，显示出显著的兼容性和有效性，以及近乎无损的下游预测效果 在5个不同类型LLM中，取得一致的加速效果，显示出较好的兼容性 在华为广告场景落地，利用LLM对目标广告可能吸引的人群，产品特点，竞争优势，品牌定位和形象等知识进行生成，相比原始解码方式，在AUC持平的情况下解码加速3.45x LLMforRanking 用户行为序列建模对推荐系统预测效果至关重要 •用户行为序列长（~106），兴趣多样 •序列长度对推荐系统的效果影响巨大 •用户长序列建模工作带来显著商业价值：UBR、ETA等 大模型的长序列理解问题相比传统推荐系统更加严峻 •大多数LLM用于理解用户序列只选取最近10-15个行为 •拉长用户行为序列并不能为LLM的推荐效果带来增长，即使输入长度远未超过LLM上下文长度限制（Vicuna-13B的上限为2048tokens） 利用语义相似度检索用户长序列中最相关的行为，弥补LLM长序列理解问题 不微调LLM：通过引入语义级的用户行为检索，根据当前预测物品提取用户序列核心行为，进而提升LLM的推荐性能 Userbehaviors:[‘GonewiththeWind(1939)(2stars)','TheSilenceoftheLambs(1991)(3stars)','TheTerminator(1984)(5stars)','BeforeSunrise(1995)(2stars)','BladeRunner(1982)(5stars),'StarWars:EpisodeIV(1977)(4stars)','ModernTimes(1936)(5stars)’,'2001:ASpaceOdyssey(1968)(5stars)’,'Alien(1979)(5stars)','BacktotheFuture(1985)(4stars)‘…] Recent-based： Theuserisafemale.Herjobissales.Herageis35-44.Shewatchedthefollowingmoviesinorderinthepast,andrated them:['0.GonewiththeWind(1939)(2stars)','1.TheSilenceoftheLambs(1991)(3stars)','2.TheTerminator(1984)(5stars)','3.BeforeSunrise(1995)(2stars)','4.BladeRunner(1982)(5stars)’]Basedonthemoviesshehaswatched,deduceifshewilllikethemovie***TheMatrix(1999)***.YoushouldONLYtellmeyesorno. Retrieval-based(Rella): Theuserisafemale.Herjobissales.Herageis35-44.Shewatchedthefollowingmoviesinorderinthepast,andratedthem:['0.TheTerminator(1984)(5stars)','1.StarWars:EpisodeIV(1977)(4stars)','2.2001:ASpaceOdyssey(1968)(5stars)','3.Alien(1979)(5stars)','4.BacktotheFuture(1985)(4stars)']Basedonthemoviesshehaswatched,deduceifshewilllikethemovie***TheMatrix(1999)***.YoushouldONLYtellmeyesorno. 微调LLM：利用用户行为检索作为数据增强手段，构造模式增强的混合训练数据集，提升LLM对用户长行为序列的理解能力 ReLLa可以大幅提升不微调、小样本微调场景中推荐性能，并展现出极强的样本高效性（10%样本） •行为检索可以显著提升LLM对用户长序列的理解 •LLMSFT可以显著提升推荐效果，且具备极强的样本高效性不微调全量样本训练小样本微调 序列长度分析 •SIM等ID-basedRS随长度增加而提升 •LLM有明显的长序列理解问题（K：15-30） •ReLLa显著缓解LLM长序列理解问题拉长序列长度和增加训练样本均可以显著提升预测效果->训练效率低如何权衡模型效果和训练效率！ 样本高效性分析 •LLM相比ID-basedRS有更好的样本高效性 •少样本微调情况下可以超过全量训练的传统 ID-basedRS ThenumberofSFTsamplesThenumberofSFTsamplesThenumberofSFTsamples 现有基于LLM推荐排序方法的弊端 •低训练效率限制模型性能只 •短序列：用户行为序列长（~106），采用ReLLa检索方式，能提取少量最相关的部分行为 •少样本：LLM虽然具备样本高效性，但是少样本依旧限制模型对全量空间的感知，影响推荐效果 •LoRA参数微调方法难以体现核心个性化 传统RS模型作为透镜，权衡效率和效果 •维持LLM较高的训练效率 •隐式拓展到长序列、全样本空间，扩大 LLM感受野，避免信息损失 个性化LLM •Meta-LoRA提供可控、可拓展性参数 •个性化动态路由实现个性化LLM RecLoRA通过引入传统RS作为透镜，取得更

点击免费查看完整报告