您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据科学在线峰会]:基于图神经网络的搜索推荐算法与实践 - 发现报告

基于图神经网络的搜索推荐算法与实践

AI智能总结
查看更多
基于图神经网络的搜索推荐算法与实践

基于图神经网络的搜索推荐算法与实践 演讲人:楼星雨—OPPO拓扑Lab—高级机器学习算法工程师 目录Contents 输入标题Title图表征学习简介 输入标题图游走类 基于随机游走的方法从图结构数据上采样序列,将图结构学习任务转化为序列上下文建模的任务,类比于NLP中的Word2Vec方法。 因子分解方法(如LLE,GraRep等)面临的问题: •对非线性的拟合能力不足•计算复杂度高 图游走类方法的优点(如DeepWalk,Node2Vec等): •可解释性强•可学习高阶相似信息 图游走类方法面临的问题: •仅考虑拓扑结构信息•静态表征、无法端到端信息•缺少参数共享、参数量随节点数量线性增长 输入标题Title基于谱域的图卷积 输入标题Title基于谱域的图卷积 •连接图卷积和图谱滤波的桥梁•使用Chebyshev多项式来近似图滤波器 •连接谱域卷积和空域卷积的桥梁•使用一阶Chebyshev多项式来近似图滤波器•感受野正比于图卷积层数 输入标题Title基于空域的图卷积 基于消息传递(Message Passing)范式,降低计算复杂度,扩展成归纳学习任务,对未知节点起到泛化作用 输入标题Title图在推荐系统中的价值 •图直接将不同类型的行为包含起来 输入标题Title图神经网络在推荐系统中的优势 输入标题Title图在推荐系统中的应用范式 输入标题Title图召回业界工作例举 图端到端 •图模块为主,推荐任务为监督信号主要来源 图预训练 •图模块为主,自监督任务为监督信号主要来源,可直接以Embedding方式赋能召回,也可以作为初始化或子网络基于推荐任务微调 图子网络 •图模块为辅,主模型结构多为双塔,下游目标任务为监督信号主要来源 输入标题Title图精排业界工作例举 图特征 图子网络 •作为整个精排模型的一个子模块端到端训练,一般基于图自身的特征聚焦于赋予或提升精排模型的某个特定功能(如特征精炼(Refine)、特征交互(Interaction)、意图挖掘(Intention)、冷启动(Cold-Start)等) •明文特征:拓扑特征(最短路径、中心性等)或任务相关特征(如k-hop邻居的历史CTR等)•Embedding特征:一般针对精排模型面临的某一类待优化的方向(如冷启动、多场景、多行为) 输入标题图架构 输入标题TitleOPPO应用商店搜索 •相关性要求高•Query分布存在长尾问题•Query存在语义不明确的问题•App与Query语义信息不一致 输入标题Title图召回--子网络 相关性要求: •图端到端模型过度依赖高阶邻居,一方面可能会引入非相似兴趣用户噪声,另一方面可能会引入非相似意图query噪声,从而影响整体相关性•双塔模型基于节点自身及一阶交互关系建模,虽带有泛化性,但对于相关性仍有较好保证。图子网络高阶关系为辅,但若在用户塔不恰当地引入高阶邻居信息,同样会存在稀释用户当前意图的问题 query存在长度短、分布长尾的特点: •直接使用双塔模型基于语义建模信息不充分•用户历史query序列较短、新用户无法覆盖•用户历史query序列仍然被头部query占据主导 App与Query语义信息不一致: •App可用的物料和信息比较有限•Ad存在大量图文不符的素材•长尾Query语义与App语义不对齐 •输入3-hop子图增强App表征并缩进Query与App的语义Gap: p1-hop交互Queryp2-hop行为相似Appp3-hop交互稀疏App友好Querypk-hop邻居分别直接聚合并自适应学习融合权重 •App-Tower的两个子网络的App特征Embedding不共享•图子网络与User-Tower共享Query相关特征Embedding 输入标题Title图精排--特征交互 •结合GMCF、GraphFM、L0-Sign各自优势挖掘显式交叉特征: 输入标题未来展望 •图预训练 利用用户、应用、广告等实体在多个场景的多种交互行为得到统一的预训练表征或模型 •噪声过滤 图模型带来信息的同时也带来噪声,噪声>信息则适得其反 2023 DataFunSummit 演讲人:楼星雨—OPPO—高级机器学习算法工程师