序 阿里妈妈成立于2007年,是淘天集团商业数智营销中台。秉承着“让每一份经营都算数”的使命,阿里妈妈技术团队深耕AI在互联网广告领域的探索和大规模应用,并通过技术创新驱动业务高速成长,让商业营销更简单高效。 2021年5月,我们开始通过「阿里妈妈技术」微信公众号持续分享我们的技术实践与经验,覆盖广告算法实践、AI平台及工程引擎、智能创意、风控、数据科学等多个方向。 每年此时,我们都会整理过去一年颇具表性和创新性的工作沉淀制作成册。《2023阿里妈妈技术年刊》涵盖机制策略、召回匹配、预估模型、智能创意、算法工程/引擎 /系统建设等内容,这些工作有的已为业务创造实际收益,有的是一些常见问题的新解法,希望可以为相关领域的同学带来一些新的思路。 期待明年此时,每位朋友都有新的收获,而我们也带着更多探索实践来与大家分享交流~ 如果对这本电子书有想要探讨的问题,或有更好的建议,也欢迎通过「阿里妈妈技术」微信公众号与我们联系。 最后,祝大家新春快乐~祝福如初,愿不负追求与热爱,万事尽可期待! 本书共435页,全部内容近48万字。如果觉得还不错,别忘了分享给身边的朋友~ 阿里妈妈技术团队 欢迎关注「阿里妈妈技术」微信公众号 目录 机制策略1 迈步从头越-阿里妈妈广告智能决策技术(自动出价&拍卖机制)的演进之路1 Bidding模型训练新范式:阿里妈妈生成式出价模型(AIGB)详解26 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)36 PerBid:在线广告个性化自动出价框架55 AuctionDesignintheAuto-biddingWorld系列一:面向异质目标函数广告主的拍卖机制设计69 自动出价下机制设计系列(二):面向私有约束的激励兼容机制设计79 增广拍卖——二跳页下的拍卖机制探索89 Score-WeightedVCG:考虑外部性的智能拍卖机制设计99 合约广告中端到端流量预估与库存分配108 强化学习在广告延迟曝光情形下的保量策略中的应用123 MiRO:面向对抗环境下约束竞价的策略优化框架134 预估模型142 排序和准度联合优化:一种基于混合生成/判别式建模的方案142 转化率预估新思路:基于历史数据复用的大促转化率精准预估154 基于特征自适应的多场景预估建模174 HC^2:基于混合对比学习的多场景广告预估建模183 AdaSparse:自适应稀疏网络的多场景CTR预估建模193 贝叶斯分层模型应用之直播场景打分校准203 召回匹配216 代码开源!阿里妈妈展示广告Match底层技术架构最新进展216 BOMGraph:基于统一图神经网络的电商多场景召回方法220 CC-GNN:基于内容协同图神经网络的电商召回方法229 RGIB:对抗双边图噪声的鲁棒图学习241 MemorizationDiscrepancy:利用模型动态信息发现累积性注毒攻击251 智能创意262 ACMMM'23|4篇论文解析阿里妈妈广告创意算法最新进展262 上下文驱动的图上文案生成267 基于无监督域自适应方法的海报布局生成273 基于内容融合的字体生成方法278 化繁为简,精工细作——阿里妈妈直播智能剪辑技术详解286 视频分割新范式:视频感兴趣物体实例分割VOIS297 风控技术305 阿里妈妈内容风控模型预估引擎的探索和建设305 大模型时代的阿里妈妈内容风控基础服务体系建设323 隐私计算344 广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH344 阿里妈妈营销隐私计算平台SDH在公用云的落地实践353 算法工程/引擎/系统建设363 积沙成塔——阿里妈妈动态算力技术的新演进与展望363 阿里妈妈智能诊断工程能力建设380 广告深度学习计算:向量召回索引的演进以及工程实现390 Dolphin:面向营销场景的超融合多模智能引擎398 阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践414 DolphinStreaming实时计算,助力商家端算法第二增长曲线424 机制策略 迈步从头越-阿里妈妈广告智能决策技术(自动出价&拍卖机制)的演进之路 作者:妙临、霁光、玺羽 导读 随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等AI技术越来越多地应用到广告智能决策领域。在阿里妈妈技术同学们的持续努力下,我们推动了业界广告决策智能技术的代际革新。本文结合时代发展的视角分享了阿里妈妈广告智能决策技术的演化过程,希望能给从事相关工作的朋友带来一些新思路。 1.前言 在线广告对于大多数同学来说是一个既熟悉又陌生的技术领域。「搜广推」、「搜推广」等各种组合耳熟能详,但广告和搜索推荐有本质区别:广告解决的是“媒体-广告平台-广告主”等多方优化问题,其中媒体在保证用户体验的前提下实现商业化收入,广告主的诉求是通过出价尽可能优化营销目标,广告平台则在满足这两方需求的基础上促进广告生态的长期繁荣。 广告智能决策技术在这之中起到了关键性的作用,如图1所示,它需要解决如下问题在内的一系列智能决策问题:1.为广告主设计并实现自动出价策略,提升广告投放效果;2.为媒体设计智能拍卖机制来保证广告生态系统的繁荣和健康。 图1广告智能决策通过自动出价和拍卖机制等方式实现多方优化 随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等AI技术越来越多地应用到广告智能决策领域,如RL-basedBidding(基于强化学习的出价)帮助广告主显著提升广告营销效果,Learning-basedAuctionDesign(基于学习的拍卖机制设计)使得多方利益的统筹优化更加高效。我们追根溯源,结合时代发展的视角重新审视广告智能决策技术的演化过程,本文将以阿里妈妈广告智能决策技术的演进为例,分享我们工作和思考。也希望能以此来抛砖引玉,和大家一块探讨。 2.持续突破的自动出价决策技术 广告平台吸引广告主持续投放的核心在于给他们带来更大的投放价值,典型的例子就是自动化的出价产品一经推出便深受广告主的喜爱并持续的投入预算。在电商场景下,我们不断地探索流量的多元化价值,设计更能贴近营销本质的自动出价产品,广告主只需要简单的设置就能清晰的表达营销诉求。 图2出价产品逐步的智能化&自动化,广告主只需要简单的设置即可清晰的表达出营销诉求 极简产品背后则是强大的自动出价策略支撑,其基于海量数据自动学习好的广告投放模式,以提升给定流量价值下的优化能力。考虑到广告优化目标、预算和成本约束,自动出价可以统一表示为带约束的竞价优化问题。 其中为广告主的预算,为成本约束,该问题就是要对所有参竞的流量进行报价,以最大化竞得流量上的价值总和。如果已经提前知道要参竞流量集合的全部信息,包括能够触达的每条流量的价值和成本等,那么可以通过线性规划(LP)方法来求得最优解。然而在线广告环境的动态变化以及每天到访用户的随机性,竞争流量集合很难被准确的预测出来。因此常规方法并不完全适用,需要构建能够适应动态环境的自动出价算法。 对竞价环境做一定的假设(比如拍卖机制为单坑下的GSP,且流量竞得价格已知),通过拉格朗日变换构造最优出价公式,将原问题转化为最优出价参数的寻优问题[9]: 对于每一条到来的流量按照此公式进行出价,其中为在线流量竞价时可获得的流量信息,为要求解的参数。而参数并不能一成不变,需要根据环境的动态变 化不断调整。参竞流量的分布会随时间发生变化,广告主也会根据自己的经营情况调整营销设置,前序的投放效果会影响到后续的投放策略。因此,出价参数的求解本质上是动态环境下的序列决策问题。 2.1主线:从跟随到引领,迈向更强的序列决策技术 如何研发更先进的算法提升决策能力是自动出价策略发展的主线,我们参考了业界大量公开的正式文献,并结合阿里妈妈自身的技术发展,勾勒出自动出价策略的发展演进脉络。 图3自动出价策略的演进主线:迈向更强的决策能力 整体可以划分为4个阶段: 第一代:经典控制类 ●把效果最大化的优化问题间接转化为预算消耗的控制问题。基于业务数据计算消耗曲线,控制预算尽可能按照设定的曲线来消耗。PID[1]及相关改进[2][10]是这一阶段常用的控制算法。当竞价流量价值分布稳定的情况下,这类算法能基本满足业务上线之初的效果优化。 第二代:规划求解类 ●相比于第一代,规划求解类(LP)算法直接面向目标最大化优问题来进行求解。可基于前一天的参竞流量来预测当前未来流量集合,从而求解出价参数。自动 出价问题根据当前已投放的数据变成新的子问题,因此可多次持续的用该方法进行求解,即OnlineLP[3][4]。这类方法依赖对未来参竞流量的精准预估,因此在实际场景落地时需要在未来流量的质和量的预测上做较多的工作。 第三代:强化学习类 ●现实环境中在线竞价环境是非常复杂且动态变化的,未来的流量集合也是难以精准预测的,要统筹整个预算周期投放才能最大化效果。作为典型的序列决策问题,第三阶段用强化学习类方法来优化自动出价策略。其迭代过程从早期的经典强化学习方法落地[5][6][8][9],到进一步基于OfflineRL方法逼近「在线真实环境的数据分布」[9],再到末期贴近问题本质基于OnlineRL方法实现和真实竞价环境的交互学习[13]。 第四代:生成模型类 ●以ChatGPT为代表的生成式大模型以汹涌澎湃之势到来,在多个领域都表现出令人惊艳的效果。新的技术理念和技术范式可能会给自动出价算法带来革命性的升级。阿里妈妈技术团队提前布局,以智能营销决策大模型AIGA (AIGeneratedAction)为核心重塑了广告智能营销的技术体系,并衍生出以AIGB(AIGeneratedBidding)[14]为代表的自动出价策略。 为了让大家有更好地理解,我们以阿里妈妈的实践为基础,重点讲述下强化学习在工业界的落地以及对生成式模型的探索。 2.1.1强化学习在自动出价场景的大规模应用实践 跟随:不断学习、曲折摸索 作为典型的序列决策问题,使用强化学习(RL)是很容易想到的事情,但其在工业界的落地之路却是充满曲折和艰辛的。最初学术界[8]做了一些探索,在请求粒度进行建模,基于Model-basedRL方法训练出价智能体(Agent),并在请求维度进行决策。如竞得该PV,竞价系统返回该请求的价值,否则返回0,同时转移到下一个状态。这种建模方法应用到工业界遇到了很多挑战,主要原因在于工业界参竞流量巨大,请求粒度的建模所需的存储空间巨大;转化信息的稀疏性以及延迟反馈等问题也给状态构造和Reward设计带来很大的挑战。为使得RL方法能够真正落地,需要解决这几个问题: 「MDP是什么?」由于用户到来的随机性,参竞的流量之间其实并不存在明显的马尔 可夫转移特性,那么状态转移是什么呢?让我们再审视下出价公式,其包含两部分:流量价值和出价参数。其中流量价值来自于请求粒度,出价参数为对当前流量的出价激进程度,而激进程度是根据广告主当前的投放状态来决定的。一种可行的设计是将广告的投放信息按照时间段进行聚合组成状态,上一时刻的投放策略会影响到广告主的投放效果,并构成新一时刻的状态信息,因此按照时间段聚合的广告主投放信息存在马尔可夫转移特性。而且这种设计还可以把问题变成固定步长的出价参数决策,给实际场景中需要做的日志回流、Reward收集、状态计算等提供了时间空间。典型的工作[5][6][7][8][9][12]基本上都是采用了这样的设计理念。 「Reward如何设计?」Reward设计是RL的灵魂。出价策略的Reward设计需要让策略学习如何对数亿计流量出价,以最大化竞得流量下的价值总和。如果Reward只是价值总和的话,就容易使得策略盲目追求好流量,预算早早花光或者成本超限,因此还需要引导策略在约束下追求更有性价比的流量。另外,自动出价是终点反馈,即直到投放周期结束才能计算出完整的投放效果;且转化等信号不仅稀疏,还存在较长时间的回收延迟。因此我们需要精巧设计Reward让其能够指导每一次的决策动作。实