摘要 推荐算法不仅要广泛应用,更需要广泛善用 推荐算法经过多年的发展已较为成熟,融合数学、计算机等多学科,进行分类与标签匹配,再通过海量运算后进行精准推荐 2012年至今,推荐算法进入了快速的技术革新阶段,也逐步依托技术带来的领先性有效的实现商业化落地,与互联网领域进行了深度的结合。2010年提出的FM技术在2012年成为主流的推荐算法,2014年的GBDT+LR更是带来了技术上的突破,2015年推荐算法由机器学习也正式转为深度学习。推荐算法也自此进入到各行各业,目前广泛应用于图书、音乐、视频、新闻、电影、地图、网购等等领域; —— 推荐算法的应用已经涉及到国民生活的方方面面,确 实为广大用户与内容或产品供应方提供了巨大的便利, 推荐算法与不同领域融合时,考虑到场景的运行逻辑不同也会采用不同的运行机制,以适应场景的特殊性 但随着应用推荐算法的机构与平台影响力逐步扩大,对 推荐算法是通过合理的逻辑运算,为用户推荐最适合的内容,在模型角度上讲,是拟合用户对于内容满意程度的预测函数。新闻资讯领域的推荐算法着重考虑三方面因素,对应模型中的三大要素,第一要素为内容,第二要素为用户特征、第三要素为环境特征;以抖音为代表的短视频领域,多以内容发布为起点,通过智能算法匹配到合适的用户,再根据反馈决定是否扩大内容的传播范围;生活类更多围绕用户的兴趣标签,以及用户的历史搜索标签进行关联推荐与深入推荐; 于算法的善用成为更值得探讨的话题; 推荐算法应用伴生的个人信息安全问题、个人隐私泄 露问题、泛娱乐化趋势、内容传播低质化趋势等,结合 平台与机构运用推荐算法,商业运行效率提高、用户快速获取所需、内容与产品供应商实现高效供应 各类平台与机构的海量流量,影响范围巨大。平台与机 推荐算法作为桥梁快速匹配用户与内容或产品,提高整个链条的运行效率;用户角度,效率明显提高,算法通过分析精准推荐用户感兴趣的内容或产品,省去了搜索与查找得时间,快速定位到用户需要;内容产出者与商家角度,对于内容或产品对于目标用户/客户群体的精准投放得以快速实现,加快了匹配效率,使得内容与产品可以快速传播。 构在获得大量收益的同时,是否也需要采取措施,肩负 起一定的社会责任,由重视企业利益,转变为用户利益 为主,在社会或是国家层面起到更加积极的作用。 定义与分类 推荐算法根据算法逻辑不同分为多个类别,随着智能化的提升对于组合推荐的需求明显更高 推荐算法定义与分类 算法优劣势分析 内容推荐协同推荐规则推荐效用推荐知识推荐 智能推荐算法是计算机专业中的一种算法,通过智能化的数学算法,分析用户的行为数据,判断用户的喜好并进行精准的推荐,目前多应用于互联网领域 新用户问题; 劣势 优势 推荐结果直观,容易解释; 复杂属性难处理; 无需领域知识 需要足够数据构造分类器 以项目的内容信息为评判主体,不考虑 结合用户对于项目的使用效果反馈,综 基 基 稀疏问题; 新异兴趣发现、无需领域知识; 于用户对于项目的评价意见内 ,基于对用户 于合评定供应商的可靠性与产品的可得性效 , 劣势 可扩展性问题; 性能随时间的积累而提高; 优势 新用户问题; 的特征、兴趣范围的判断,评估用户与项目内容的关联性,并进行关联推荐 在推荐的项目范围中,更优先推荐用户可靠性高的项目供应商 自动化程度高; 容 用 质量取决于历史数据集 能处理复杂的非结构化对象 规则抽取难、耗时; 劣势 优势 能发现新兴趣点; 目前应用最早与最成功的推荐算法技术,采用临近技术,基于同群体用户爱好重合度高的特性,评估用户关联度高的其他用户的兴趣范围,并推荐给目标用户 结合推理技术,与用户需求与偏好分析,以项目本身的知识性为研究主体,分析其是否满足某一特定用户群体,并进行精准推荐 基于协同 基 产品名同义性问题; 无需领域知识 于不同知 个性化程度低; 识 用户必须输入效用函数; 无冷开始和稀疏问题; 劣势 优势 推荐是静态的,灵活性差; 对用户偏好变化敏感; 基于关联规则 属性重叠问题; 可考虑非产品特性 以用户已购项目为基点,分析此类项目在销售过程中与其他项目销售的相关性,借助用户对于个别项目的需求,挖掘用户的潜在需求,进行关联推荐 实际应用中最常被采用,结合上述两个 组 合或多个算法进行有效结合推 ,避免与弥补 劣势 知识难获得; 优势 可把用户需求映射到产品上; 各单项技术的弱点或局限性,共同计算产生更加精准的推荐预测结果 推荐是静态的 荐 可考虑非产品属性 组合推荐 头豹洞察 加权组合法 变换组合法 智能推荐算法的不同应用逻辑,在具备优越性的同时也存在着自身的局限性; 元级别组合法 混合组合法 特征扩充组合法 组合推荐法通过七种主流的融合方式,在保留各自优势的同时,对于局限性进行互补,通常测算与推荐的结果会有明显的提升,是当前智能推荐的主要应用逻辑 特征组合法 叠层组合法 发展历程 推荐算法的发展经历了底层设计阶段、商业化初步应用阶段于互联网深度结合阶段 推荐算法的发展历程 头豹洞察 推荐算法的发展已有约30年的历史,其技术的发展史也逐步推动着整个算法的在不同行业的应用; 施乐公司的帕拉奥图研究中心提出一种基于协同过滤算法的推荐系统,并将其用于垃圾邮件过滤 1992 底层设计阶段 1992年至2003年为底层设计阶段,最初的协同过滤算法出现,起到推荐作用,最早应用于垃圾邮件的过滤,并在原有基础上不断进步; 美国明尼苏达大学GroupLens研究组推出第一个自动化推荐系统GroupLens,成为最早的自动化协同过滤推荐系统之一。 1994 2003 Amazon运用基于商品的推荐算法,迈出了推荐算法在互联网的商业应用第一步 2003年至2012年为商业化初步应用阶段,协同过滤技术结合矩阵分解技术,实现了最初级的推荐算法。Amazon与NestFlix也有效利用推荐算法实现了其商业化价值; 2006 Netflix百万美金大赛,出现矩阵分解技术,也成为NetFlix进军线上的起点 商业化初步应用 日本的大阪大学在2010年提出了FM模型,并于2012年以后,FM逐渐成为推荐领域的主流算法。并一直持续到到GBDT应用在推荐领域才结束 2010 2012年至今,推荐算法进入了快速的技术革新阶段,也逐步依托技术带来的领先性有效的实现商业化落地,与互联网领域进行了深度的结合。2010年提出的FM技术在2012年成为主流的推荐算法,2014年的GBDT+LR更是带来了技术上的突破,2015年推荐算法由机器学习也正式转为深度学习。推荐算法也自此进入到各行各业,包括字节跳动,由最初的今日头条所在的新闻领域,也迅速扩张到抖音所在的短视频等领域。 2012 字节跳动的今日头条,开始运用内容推荐算法,正式进入到新闻领域 2014年Facebook提出基于GBDT+LR的解决方案,影响力巨大。推荐算法正式进入特征工程模型化阶段。实现特征的筛选、构造由模型完成,算力上明显高于FM 2014 互联网深度结合 CV领域的AlexNet深度学习网络,正式应用到推荐系统中,结束了推荐领域的机器学习路线 2015 2016 Deep&Crossing与Wide&Deep两大具有影响力的深度学习算法模型问世 目前广泛应用于图书、音乐、视频、新闻、电影、地图、网购等等领域 政策环境 推荐算法在互联网领域的逐步广泛,影响群体庞大,政策上的监管也逐步完善且明确 相关法规与政策列举 ①缓解推荐算法限制用户选择范围 ③严禁非法利用个人数据进行杀熟或垄断 ②保护用户信息与隐私 颁布时间 颁布部门 十二届全国人大会常委会第二十四次会议 政策名称 重点内容 政策解读 第十条建设、运营网络或者通过网络提供服务,应当依照法律、行政法规的规定和国家标准的强制性要求,采取技术措施和其他必要措施,保障网络安全、稳定运行,有效应对网络安全事件,防范网络违法犯罪活动,维护网络数据的完整性、保密性和可用性。 立法保护用户的信息,维护网络安全与健康运行,对推荐内容进行严格审查 2016年11月 《网络安全法》 第十八条电子商务经营者根据消费者的兴趣爱好、消费习惯等特征向其提供商品或者服务的搜索结果的,应当同时向该消费者提供不针对其个人特征的选项,尊重和平等保护消费者合法权益 立法限制推荐算法的过分应用,防止消费者或用户的选择范围被算法框定 十三届全国人大常委会第五次会议 2019年1月 《电子商务法》 平台经济领域垄断协议是指经营者排除、限制竞争的协议、决定或者其他协同行为。协议、决定可以是书面、口头等形式。其他协同行为是指经营者虽未明确订立协议或者决定,但通过数据、算法、平台规则或者其他方式实质上存在协调一致的行为,有关经营者基于独立意思表示所作出的价格跟随等平行行为除外。 《国务院反垄断委员会关于平台经济领域的反垄断指南》 禁止平台通过个人信息进行不正当竞争行为 2021年2月 国务院 十三届全国人大常委会第二十九次会议 第八条开展数据处理活动,应当遵守法律、法规,尊重社会公德和伦理,遵守商业道德和职业道德,诚实守信,履行数据安全保护义务,承担社会责任,不得危害国家安全、公共利益,不得损害个人、组织的合法权益。 立法保护数据安全,严谨算法底层数据库中的数据用于非法用途 2021年9月 《数据安全法》 第二十四条个人信息处理者利用个人信息进行自动化决策,应当保证决策的透明度和结果公平、公正,不得对个人在交易价格等交易条件上实行不合理的差别待遇。通过自动化决策方式向个人进行信息推送、商业营销,应当同时提供不针对其个人特征的选项,或者向个人提供便捷的拒绝方式。 立法保护用户数据,保护个人信息不被泄露或用于非法用途 十三届全国人大常委会第三十次会议 2021年11月 《个人信息保护法》 网信办、工信部、公安部、市场监督管理局 针对服务者:算法推荐服务提供者应当坚持主流价值导向,积极传播正能量 针对推荐算法与各类应用场景,全方位进行明确的规范 《互联网信息服务算法推荐管理规 2022年3月 针对用户权益:明确了对于算法推荐服务提供者的用户权益保护要求①算法知情权②算法选择权③未成年、老年人、劳动者、消费者的合法权益保障 定》 技术分析 推荐算法经历了机器学习与深度学习的两大阶段,融合了多学科与众多的底层算法模型 神经网络(例) 决策树(例) 简化模型逻辑图 简化模型逻辑图 Hidden Layer 用户A/产品A Input Layer Output Layer 不满足 满足 条件一 条件二 取用 满足 不满足 条件三 条件四 满足 满足 不满足 不满足 不取用 取用 可考虑取用 不取用 头豹洞察 头豹洞察 神经网络是深度学习的基础,其中又可分为多种不同的应用算法; 决策树是机器学习中较为重要的预测模型之一,用于判断可行性的决策分析方法; 神经网络算法模拟人体的神经系统,传输由不同的节点向下传递,作为初始的输出层,经历每一隐藏层的算法分析,向下传递结果,并最终在输出层汇总,显示结果; 决策树的模型逻辑为树形结构,其中每个节点表示在某个属性或特性上的测试,每一个分支代表一个测试输出,最终评估可行性; 决策树属于监督学习的常见模型,需要在模型搭建时给定足够的样本,并事先确定样本的分类方式与类别范围,后期机器可以通过学习得到分类器,对新样本给出正确的分类; 神经网络算法是更贴近如甚至高于深度学习的算法范围,对于运算复杂度的阀值较高,且计算结果更加准确且智能; 决策树的可以满足用户与需求的推荐匹配,通过不同的节点测试,最终筛选出最为合适的用户或是产品,进行有效推荐。 神经网络算法应用于推荐领域将