网易人工智能实践 AI在云音乐搜索中应用&探索 2021/3/3 个人介绍 2014.07—2017.05 搜索排序 •点击模型 •语义消歧 •时新性 负责视频搜索 •多模态语义匹配 •整体搜索优化 2013.07–2014.02 百度移动凤巢 负责Query理解、云搜 •Query改写、纠错 •Query意图 •专利检索、音乐检索等 2017.05—2020.03 腾讯AI平台部 搜索算法负责人 •搜索流程体系重构 •Query理解 •召回&排序 •新产品形态优化探索 2020.07 网易云音乐数据智能部 网易人工智能实践 腾讯搜索平台部 2020.03—2020.07 腾讯AI平台部 目录 云音乐搜索—背景介绍 网易人工智能实践 云音乐搜索 搜索系统 Query理解体系 召回排序应用&探索 网易人工智能实践 歌曲歌单视频直播、播客…… 特点:音乐搜索是有温度的->用户实时细粒度的表达,蕴含了情感 网易人工智能实践 示例:搜索-男人哭吧不是罪->伤心(情感)->夜空中最闪亮的星(搜索&推荐衍生提供了条件) •工具——搜的到、搜的准 •分发——商业化导流,引导多资源消费 启动页Suggest 网易人工智能实践 综合页 -精准结果 综合页 -相关结果 27bits 用户 10个Doc 排序 1万Doc 检索召回 网易人工智能实践 3bits unigram=》ngram差2-3bits 30bits 10亿Doc 关键词:平均每个字信息含量3-4bits 目录 云音乐搜索—背景介绍 网易人工智能实践 云音乐搜索 搜索系统 Query理解体系 召回排序应用&探索 业务目标+用户价值 内容 产品 算法 系统 网易人工智能实践 召回逻辑精简算法升级提升泛&长尾效果 针对音乐场景深入优化用户体验,更精准 灵活展现增加主动内容提高搜索分发能力 探索多资源互补,反哺内容制作 以体验为基础,强化搜索分发能力;同时加强内容、商业化侧关联,良性互动 Suggest默认词热搜榜 Query归一化&分词 网易人工智能实践 Query纠错Query改写NER识别 单曲歌单 视频播单 展示样式飘红展示内容结果解释性 安全干预 词推荐 Query意图 重排混排 相关性精排 埋点运营 词权重 Query丢词 向量索引 粗排 文本索引 曲库视频等 用户画像 资源画像 日志采集 流式计算 数据挖掘 行为反馈 白盒 黑盒 结论 模块结果 网易人工智能实践 点击维度 消费细节 留存维度 点击位置 资源细分 …… 全流量 覆盖流量 目录 云音乐搜索—背景介绍 网易人工智能实践 云音乐搜索 搜索系统 Query理解体系 召回排序应用&探索 搜索目标:从海量文档中(10亿)找出最相关的若干个(10个),信息量从30bits=〉3bits, 用户 10个Doc 排序 1万Doc 检索召回 网易人工智能实践 3bits 27bits unigunigraramm==》》ngngraramm差差2-3b2-3bititss 30bits 10亿Doc 关键词——精准有效的表达 改写类型 时新性 检测 分析类型 改写 业务类型 紧密度 纠错 分词 同义词 词权重 丢词逻 辑 业务逻 辑 成分分析+意图分类 网易人工智能实践 类型 例子 Query分析 分词 刘德华冰雨刘|德华|冰雨 成分分析 邓紫棋泡沫邓紫棋(歌手:1)泡沫(歌曲:0.9,专辑:0.1) 意图识别 我曾难自拔(《起风了》歌词)歌词:0.9,歌曲:0.1 词权重 抖音热门歌曲抖音-0.6,热门-0.3,歌曲-0.1 紧密度 爱你一万年是谁唱的phrase:爱你一万年 Query改写 纠错 好像爱这个世界啊好想爱这个世界啊 改写 鸡你太美只因你太美 同义 周董周杰伦 丢词 刘德华经典粤语刘德华粤语 Query理解流程 Query理解示例 网易人工智能实践 背景&问题 •纠错对于用户体验影响明显 •纠错召回低,分散在多个地方 目标 •召回解耦灵活增删 网易人工智能实践 •完善特征体系 •基于L2R进行纠错排序和选择 结论 •召回率提升40%+ •准确率提升30%+ •ABTest大盘点击率提升1.6% 不足&难点 •泛化能力不足,难以解决未登录词问题 •流程较复杂,没有seq2seq清晰 背景&问题 •纠错对于用户体验影响明显 •纠错召回低,分散在多个地方 目标 •召回解耦灵活增删 网易人工智能实践 •完善特征体系 •基于L2R进行纠错排序和选择 结论 •召回率提升40%+ •准确率提升30%+ •ABTest大盘点击率提升1.6% 不足&难点 •泛化能力不足,难以解决未登录词问题 •流程较复杂,没有seq2seq清晰 纠错在多个场景的实验结果 背景&问题 •探索形成有向的改写 •音乐场景实体居多,如何改写 •什么样的改写是有效改写 目标 网易人工智能实践 •构建构建灵活的改写召回方式 •通过排序模型离线选择有效候选 •在线Explore&Exploit 不足&难点 •Explore&Exploit流程完善 •离线如何验证改写的有效性 网易人工智能实践 目标 •基于Graphembedding将query和资源映射为向量 •基于向量进行候选query召回,然后筛选 问题 •热门节点会降低关联准确度 •基于Skip-gram着重计算相关性 •出现较多二阶相关性 目标 •搜索场景相对推荐对相关定义更严格 •向量召回更倾向于相似 方法 •热门节点进行降权处理 •将结构由Skip-gram修改为PMI式结构 •目标函数重点衡量两者共现 •ABTest大盘点击率提升1.6% 解决热门节点问题 •边权重=共点击单曲数目*(|log(左节点度)-log(右节点度)|/(log(左节点度)+log(右节点度))) •降低热-热之间的权重,相对增加热-冷,冷-冷之间的权重 解决Skip-gram二阶相关 •将word2vec形式改为基于PMI 网易人工智能实践 •��,Wj分别代表不同节点 •目标函数修改为预测两个节点PMI分数(为pmi分数) 网易人工智能实践 目标 •挖掘相似query簇,归一化长尾query •将Query进行聚簇,进行细粒度的意图识别 效果 •改写单曲点击率提升1.5%+ •Query归一化视频有点率提升1.3%,有效有点率提升1% 网易人工智能实践 •Query改写单曲示例 •Query归一化改写示例 •Query改写视频示例 Query理解中重要环节,包括NER、意图、词权重 •资源类型繁多:歌曲、艺人、歌词、Tag、视频、歌单、播客等 •各资源取名混杂,需要识别用户准确意图 •为下游召回排序服务 Tag 非实体类意图 歌词 实体类意图 艺人名 歌名 混合意图 实体+限定词 节目名 起风了 网易人工智能实践 周深 乘风破浪的姐姐 意图定义 少年抖音 我曾难自拔与世界之大 抖音热歌 Lisa舞蹈 网易人工智能实践 连通检测 热门艺人意图 NER 网易人工智能实践 歌词分类 Tag分类 全字段召回 (向量引擎) Pred Query分析–意图识别算法 Dense BlockN output Block1 CNNEncode σ Input 1-σ 背景 ……. •基于Bert和tinybert等虽然效果比第一版GRU要好,优势不明显 ……. •Bert需要针对性预训练,线上性能差 网易人工智能实践 •基于音乐垂类场景设计识别模型 目标 •兼顾效果和性能 1-σ σ σ Attention Attention Bi-GRU Bi-GRU •实体识别80%+ 结论 •歌词识别AUC提升4.6% •TAG识别AUC提升6.7% •视频意图准确率80%+ •词权重准确率85%+ NER Entity WordEmbedding CharEmbedding Query Query分析–效果 泛意图 优化前 优化后 歌词意图 优化前 优化后 网易人工智能实践 不明确的歌词意图 目录 云音乐搜索—背景介绍 网易人工智能实践 云音乐搜索体系 搜索系统 Query理解 召回排序应用&探索 搜索目标:从海量文档中(10亿)找出最相关的若干个(10个),信息量从30bits=〉3bits, 用户 10个Doc 排序 1万Doc 检索召回 网易人工智能实践 3bits 27bits 30bits 10亿Doc 网易人工智能实践 网易人工智能实践 背景:探索尝试过LR、树模型、Wide&Deep、Esmm、Cin等 目标:基于音乐场景,设计多目标融合模型 目标:在Esmm基础上,针对音乐特点优化 优化点: 整体结构针对性优化 目标函数调优,多目标融合 Hash编码LRU方式更新 性能优化,270Iterm-4ms CTR 线上融合策略 CVR CTCVR FC-Layer 网易人工智能实践 FC-Layer FC-Layer FC-Layer FC-Layer FC-Layer FC-Layer FC-Layer FC-Layer 各任务输入 Emb-Feature Cross-FeatureText-FeatureStat-Feature Cross + × × …… × Text-Similarity …… 共享EmbMatrix:Avg-pooling Tsim Nsim Title Name Query 文本特征 FC:128 FC:512 SongStat QueryStat 数值特征 ConcatLogBucket 用户歌曲消费序列 SongID ArtistIDs AlbumID Style Tags 歌曲离散特征 网易人工智能实践 泛搜词语义召回歌单语义相关 体系 完善意图识别 健全query画像 知识图谱引入 智能深度扩展 隐含语义生成 价值 间接为业务带价值 间接决定其他上限 决定搜索上限 网易人工智能实践 综合页 频道 体系 价值 体系 价值 体系 价值 如何带来流量 播客、广告等 冷启动 自我导流 搜索推荐 业务赋能 完善流量分配 拉新项目 业务融合 直播等导流 流量分配 曝光内容 兴趣-内容 会员业务 扩召回 Mlog导流 排序模型 主动流量 用户-即时兴趣 引流体系 内容体系&召排 Query理解体系—基石 搜索算法体系 Thanks 网易人工智能实践