网易人工智能实践 集团融合数据用户画像实践 杭州研究院-数据服务部 网易人工智能实践 网易人工智能实践 网易人工智能实践 数据联盟 基础属性 婚姻状况 职业 网易人工智能实践 学历 年龄 是否有孩 …常住地点 是否有车 是否有房 手机信息 性别 电商购物 用户画像 客户交易活跃度 真人识别 教育公益 兴趣偏好 新闻资讯 动漫影视 旅游出行 地域主题 … 关系网络 主题域 海量 亿级别月活十亿级用户千亿级数据 数据联盟 宽域 覆盖用户娱乐、在线教育、 网易人工智能实践 电商购物、新闻资讯、即时通讯等行业 多维 包含基础信息、偏好兴趣、行为、设备等 严选画像 •年龄:25岁 •性别:女性 •商品:美妆 •年龄:25岁 •性别:女性 云音乐: 云音乐画像 单独画像下只能在第一时间为 用户推荐童谣、林俊杰的歌曲 新闻画像 •付费习惯:月初消费 •付费频率:老用户、小额高频 •付费金额:每月1000↓ •设备位置:医院 •设备:iphonex •流失预警:近2个月登录次数减少 且没有任何消费 严选:单独画像找不到流失原因 数据割裂时,单个产品能做的事情有限 •曲目偏好:童谣↑、林俊杰 网易人工智能实践 •在线习惯:夜晚听歌 •评论频率:很少评论 •曲目风格:忧伤 有道画像 •设备:iphonex •年龄:25岁 •性别:女性 •课程偏好:无 •使用频率:低频 •设备:iphonex •年龄:25岁 •性别:女性 •阅读习惯:母婴新闻↑、娱乐新闻 •设备:iphonex 新闻:单独画像下只能为用 户推送更多母婴类新闻 有道:无法根据单独画像改善服务 •年龄:25岁 •性别:女性 •设备:iphoneX •商品:美妆 近两个月登录次数减少,没有美妆类消费 严选 云音乐 新闻 有道 “美妆”、“月初消费”、“小额高频”、“每月2000元”↓、“医院”、“即将流失”★“童谣”↑、“林俊杰”、“忧伤”、“很少评论”、“半夜听歌” 网易人工智能实践 “母婴”↑、“娱乐” “低频用户” “听童谣次数增多”、“看母婴新闻频率上升”、“设备位置常在医院”、“不再消费美妆商品”这几个标签符合怀孕用户的画像标签,于是推测这位用户也怀孕了。随后各产品根据“怀孕”标签做服务的优化。 严选 有道 云音乐 逐步推送可能需要的母婴类产品,推送对母婴无害的护肤商品 当该用户近10个月内登录时,推送怀孕知识、早教课程推送心情舒缓的歌曲,半夜时分提醒妈妈注意晚上休息 怀孕不适合使用美妆产品,这是多个产品画像结合下能分析得到的最优结果 网易人工智能实践 网易人工智能实践 基础标签 兴趣偏好 地域分布 关系网络 用户洞察分析 分析报告 增长策略 十亿级用户 用户画像中心 人群圈选定向 标签、竞品等 精准投放 种子人群放大 lookalike 规模倍增 网易人工智能实践 数据联盟 10+业务 基础标签 行业偏好 用户画像中心 跨域行为 推荐系统 关系网络 域内特征 新 客 历史数据 关系网络 行为分析 设备关联 账号互通 真人识别 域内海量用户 用户画像中心 真机识别 低质人群 网易人工智能实践 一人多号、刷单套利等 爬虫、模拟器等 羊毛党等 精准定向 用户 媒体 用户画像中心 特征共建 广告 主 用户分析 人群定向圈选投放 网易人工智能实践 挖掘行业特征, 提升ctr、cvr 潜在广告主挖掘 头部用户分析, 网易人工智能实践 用户ID表示 idfv musicid imei urs idfa yxid mac oaid email phone … userid … 业务5 设备号2 设备号5 URS2 业务4 URS1 OneID 业务2 业务3 phone2 phone1 设备号1 业务1 网易人工智能实践 设备号2 设备标识账户标识唯一标识 设备号2 设备号4 设备号3 设备号1 思路及方案 •结合各种账户、各种设备型号之间的关系对,以及设备使用 规律(时间和频次)等用户数据 网易人工智能实践 •采用规则过滤+数据挖掘算法(连通图划分+社区发现)判别账号是否属于同个人 可能遇到的问题解决思路 用户可能有多个设备使用过一定次数的设备才和账户关联 识别结果示意 设备会过期失效 (僵尸设备) 异常数据 设定一个设备未使用时间衰减函数,对 同时拥有多个设备的账号加大衰减力度 需要识别出一些场景并过滤: 1.借用朋友设备 2.记录设备数据格式错误;有脏数据 3.刷号等行为 UID3 UID4 当前时间采集时间采集源数量采集源列表出现次数(7/30/180天) ID1ID2 参数1参数2参数3参数4参数5…… 输入 1 2 3 4 5 7 6 5 7 6 4 5 1 1 8 4 1 3 2 2 4 0 9 7 6 3 UID1 UID2 网易人工智能实践 构造连通图 8 权值=参数�∗参数重要因子�∗时间衰减系数 9 0 千万级各业务实名认证数据 应用多业务数据 提取多维度特征 昵称文本自填信息 真人系统过滤剔除无效账户融合跨域特征 基于xgb模型进行性别预测输出预测结果以及置信度 剔除低置信结果处理标签间冲突 高可信样本集 关系网络行为序列 网易人工智能实践 兴趣偏好活跃时间 真人模型结果 系统预测处理 三方授权其他标签 标签效果评估 网易人工智能实践 多源兴趣偏好特征表达 算法流程: ①通过IDMapping整合用户在不同产品上的兴趣偏好标签,形成标签序列。 ②由亿级标签序列构建多兴趣偏好Graph,边表示Item之间存在共同用户。 ③利用randomwalk策略在Graph中进行节点采样,生成千万级Item序列。 ④将每个item看成词,整个序列看成句子,利用skip-gram学习获得兴趣标签的embedding值。 ⑤通过卷积或者Average/Sumpooling等方式将用户源标签序列融合成单个User向量。 业务场景验证 线上ABTEST 网易人工智能实践 01 实名认证数据 海量身份认证数据 02 强特征用户数据 实时GPS/IP数据上报 03 外部接入 外部接入高置信度用户数据 算法离线验证 数据分布验证 WEAREHIRING~~~ 1.了解网易数帆-机器学习平台:https://www.163yun.com/product/ml 2.了解网易数帆-多媒体智能开放平台:https://www.163yun.com/product/yz 3.热招岗位: