您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据科学在线峰会]:基于图神经网络的搜索推荐算法与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

基于图神经网络的搜索推荐算法与实践

AI智能总结
查看更多
基于图神经网络的搜索推荐算法与实践

输入标题Title 2023DataFunSummit 基于图神经网络的搜索推荐算法与实践 演讲人:楼星雨—OPPO拓扑Lab—高级机器学习算法工程师 Contents 目录 输入标题Title 图神经网络背景介绍 图在推荐系统的应用范式及介绍 OPPO业务场景实践 未来展望 输入标题Title 输入标题Title 图表征学习简介 万物皆可表征 图神经网络 图表征学习经历了因式分解、随机游走和深度模型三个阶段 Liu,Xueyi,andJieTang."Networkrepresentationlearning:Amacroandmicroview."AIOpen2(2021):43-64. 输入标题Title 图游走类 基于随机游走的方法从图结构数据上采样序列,将图结构学习任务转化为序列上下文建模的任务,类比于 NLP中的Word2Vec方法。 因子分解方法(如LLE,GraRep等)面临的问题: •对非线性的拟合能力不足 •计算复杂度高 图游走类方法的优点(如DeepWalk,Node2Vec等): •可解释性强 •可学习高阶相似信息 图游走类方法面临的问题: •仅考虑拓扑结构信息 •静态表征、无法端到端信息 •缺少参数共享、参数量随节点数量线性增长 Chami,Ines,etal."Machinelearningongraphs:Amodelandcomprehensivetaxonomy."JournalofMachineLearningResearch23.89(2022):1-64. 输入标题Title https://perraudin.info/gsp.php 输入标题Title https://tkipf.github.io/graph-convolutional-networks/ •连接图卷积和图谱滤波的桥梁 •使用Chebyshev多项式来近似图滤波器 •连接谱域卷积和空域卷积的桥梁 •使用一阶Chebyshev多项式来近似图滤波器 •感受野正比于图卷积层数 输入标题Title 基于消息传递(MessagePassing)范式,降低计算复杂度,扩展成归纳学习任务,对未知节点起到泛化作用 Hamilton,Will,ZhitaoYing,andJureLeskovec."Inductiverepresentationlearningonlargegraphs."Advancesinneuralinformationprocessingsystems30 输入标题Title u1 u2 u3 useritemattr a1 i2 a2 i3 u1 i1 a1 u2 i2 a2 u3 i3 •用户行为数据天然以图的形式存在 i1 •图直接将不同类型的行为包含起来 •图直接将不同场景的信息关联起来 u1 i1 u2 i2 u3 •图中丰富的信息能有效改善目标行为 稀疏、冷启动的问题 u1节点每个时间点的特征可以不一样 iidTraining i1 u2 i2 u3 传统模型 无邻居聚合按时间展开 u1u1 i1 u2 i4 i1 u2 i2 u3 u1i1 u3 u2i2…… u1 u1 i1 a1 i1 a1 u2 i2 a2 可聚合前 序邻居 …… u2 i2 a2 u3 u3 i3 …… i3 t=T-N t=T t=T-N t=T-N+1…… t=T i1 a1 u2 i2 a2 u3 i3 图神经网络模型 u1静态视角 u1节点每个时间点的特征可以不一样 non-iidTraining 输入标题Title i1 a1 邻居聚合 u2 邻居聚合 不按时间展开 i2 a2 按时间展开 u3 i3 建模可用信息量:图神经网络≥传统模型 输入标题Title 图召回路 图表征 图策略 图特征 图端到端 图预训练 明文类特征 知识图谱社交网络 行为网络对比类 生成类预测类 场景为主图为辅,从应用方式的角度出发分大类,再根据算法细节分子类 明文类特征 图特征 Embedding类特征 特征精炼特征交互 输入标题Title 图融合 图子网络 Embedding类特征user-toweritem-tower user-tower&item-tower 图子网络 行为兴趣挖掘 冷启动 多域多行为建模 …… 图端到端 行为网络 PinSAGE •图模块为主,推荐任务为监督信号主要来源 知识图谱 KGAT 图预训练 对比学习 EGES • 图模块为主,自监督任务为监督信号主要来源, 可直接以Embedding方式赋能召回,也可以作为初始化或子网络基于推荐任务微调 生成式 Pretrain-Recsys 输入标题Title 图子网络 •图模块为辅,主模型结构多为双塔,下游目标任务为监督信号主要来源 AdsGNN user-tower&item-tower DHGAT 图特征图子网络 •明文特征:拓扑特征(最短路径、中心性等)或任务相关特征(如k-hop邻居的历史CTR等) •Embedding特征:一般针对精排模型面临的某一类待优化的方向(如冷启动、多场景、多行为) •作为整个精排模型的一个子模块端到端训练,一般基于图自身的特征聚焦于赋予或提升精排模型的某个特定功能(如特征精炼(Refine)、特征交互 (Interaction)、意图挖掘(Intention)、冷启动 (Cold-Start)等) 输入标题Title 意图挖掘GIN 冷启动 多场景、多行为 GME TwHIN 特征交互 Fi-GNN 特征精炼 DG-ENN 输入标题Title 输入标题Title 图架构 输入标题Title •相关性要求高 •Query分布存在长尾问题 •Query存在语义不明确的问题 •App与Query语义信息不一致 输入标题Title 相关性要求: 双塔优势 •图端到端模型过度依赖高阶邻居,一方面可能会引入非相似兴趣用户噪声,另一方面可能会引入非相似意图query噪声,从而影响整体相关性 图模型不足 •双塔模型基于节点自身及一阶交互关系建模,虽带有泛化性,& 但对于相关性仍有较好保证。图子网络高阶关系为辅,但若在用户塔不恰当地引入高阶邻居信息,同样会存在稀释用户当前意图的问题 query存在长度短、分布长尾的特点: 双塔不足 •直接使用双塔模型基于语义建模信息不充分 •用户历史query序列较短、新用户无法覆盖 •用户历史query序列仍然被头部query占据主导 App与Query语义信息不一致: 图模型优势 •App可用的物料和信息比较有限 •Ad存在大量图文不符的素材 •长尾Query语义与App语义不对齐 双塔+item侧图子网络 输入标题Title LossFunction 图召回--子网络 FC&Norm FC&Norm User-TowerApp-Tower FC&Norm FC&Norm FC&Norm Fusion FC&Norm Fusion EmbeddingLayer FC&Norm FC&NormFusion FC&Norm FC&Norm Fusion •输入3-hop子图增强App表征并缩进 Query与App的语义Gap: 1-hop交互Query 2-hop行为相似App 3-hop交互稀疏App友好Query k-hop邻居分别直接聚合并自适应学习融合权重 •App-Tower的两个子网络的App特征Embedding不共享 •图子网络与User-Tower共享Query相关特征Embedding RECALL+0.75%,MRR+2.72% User Query App Neighboor 输入标题Title DeepNeuralNetwork pCTR Context User Query •结合GMCF、GraphFM、L0-Sign各自优势挖掘显式交叉特征: FusionLayer 按拆分user和Item拆分featuregroup兼顾inner-interaction和cross-interaction featuregroup内部和之间自动学习边权 使用L0正则保证稀疏性 Stacking2-layer建模低阶和高阶特征交叉 App AUC+0.11%,GAUC+0.2% 输入标题Title •图预训练 利用用户、应用、广告等实体在多个场景的多种交互行为得到统一的预训练表征或模型 •噪声过滤 图模型带来信息的同时也带来噪声,噪声>信息则适得其反 输入标题Title 2023DataFunSummit 演讲人:楼星雨—OPPO—高级机器学习算法工程师