您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:大模型与AIGC峰会]:大模型与搜索广告满意度 - 凤巢设计与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型与搜索广告满意度 - 凤巢设计与实践

AI智能总结
查看更多
大模型与搜索广告满意度 - 凤巢设计与实践

⼤模型与搜索⼴告满意度 -凤巢设计与实践 演讲人–叶超–百度–资深算法工程师 DataFunSummit#2023 01搜索广告满意度 目录 CONTENT 03PROMPT的应用 01DNN->ERNIE04AIGC与想象力 01 搜索广告满意度 DataFunSummit#2023 商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评估。 商业搜索满意度=大搜搜索满意度and用户行为交互机器评价and商业后验服务质量 商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评估。 本期关注 商业搜索满意度=大搜搜索满意度and用户行为交互机器评价and商业后验服务质量 02 DNN->ERNIE DataFunSummit#2023 ③线上点击率预估模型 背景–典型的广告点击率预估模型 DNNonline inputlayerDNN embedding 训练底层复用sparsetable 产出densetable:顶层MLP矩阵 ①海量用户行为日志 ②离散特征连续化 eg:userid->useridembedding 产出sparsetable:大规模<k,v>词表 Embeddingtasksarejustlike”DNNembedding” 是不是直接把文本输入模型就可以了? 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力 ①搜索相关性最强特征-标题非页面粒度 例如:某电商3000多万营销页标题都一样: “APP下载,超多好货等你来” ②广告有复杂的点击率优化特质,用户点击信号无法代表相关性–信号失效 必须深入落地页进行长文本建模 ③营销页图片多、碎片化、主题零散,语料噪声高 “[通配符]-【品牌】电脑办公_正品低价_品质优选” 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力 重点举措: 常规解法:①新硬件->GPU②蒸馏萃取->128D2H2L③模型剪枝->顶层优化 是不是直接把文本输入模型就可以了? 目标:实现彻底、完全的ERNIE在线化,既要准,又要快 技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力 重点举措: 常规解法:①新硬件->GPU②蒸馏萃取->128D2H2L③模型剪枝->顶层优化 提效举措: ④离散核心词集合输入与序列模型适配 ⑤多层级Token化设计–与凤巢能力结合 优化思路与效果 问题的本质是思考posembedding的作用: 1.ERNIE可否退化为词袋模型? 2.核心词稳定倒排是不是一种可以被学习的LM语法? 3.有没有更好的输入方式? 策略 核心词重要性稳定倒排移除posembedding落地页侧shuffle输入 按照页面顺序还原 效果(AUC) baseline ↓ ↓ ↑ 鲁棒性效果:积分梯度示意 before: after: 背景与问题 业务挑战:落地页侧为长文本,~600-1500汉字信息量,多次人工评估,落地页还原度可用需要~140汉字信息量,压缩比率低,性能挑战巨大,必须采取核心词集合输入 基线:按照一般的思路,我们以核心词重要性稳定倒排作为模型输入问题: 语义片段破坏严重:连续语段会因为重要性倒排而出现语义破坏数据:“北京到上海的机票” 重要度排序核心词:“机票”“上海”“北京” 核心词排序算法与模型耦合严重,预估鲁棒性差:模型对于头部核心词敏感,中部、尾部感知弱,核心词排序算法与模型学习出现耦合(见右图before) 线上quota利用率低:线上quota由于模型与头部核心词耦合,后续的计算浪费严重,未能充分利用算力 Tokenization优化|消歧抗噪,提速增效 策略细节与效果 -Sampledsoftmax -混合层次WWM训练 问题 1字粒度语义特征缺乏对片段文本精确建模的能力: ERNIE的收敛依靠上下文语义辅助,核心词输入形式是离散片段化,语义收敛在高噪声条件下困难 2算力消耗大: 字粒度决定了模型的算力下界为输入序列长度为字数,线上平响约束难以满足 -海量商业语料预训练 Pserver能力 -百万级采样提速 -Lazyadam -Vocab无偏解耦,热启初始化 多层级token化设计 •带入先验切词知识,以每个token的硬编码形式语义收敛取代 soft语义收敛 •以精确语义到宽泛语义逐渐兜底的token策略,保证专名优先,再用basic词粒度承接,最后由字粒度兜底 例如[剪辑师]->[剪辑][师]->[剪][辑][师] Onlinemodel ERNIE “[CLS]”“我”“爱”“天安门” “[CLS]”“我”“爱”“天”“安”“门” 3<字数 5=字数 Sparse/dense都变大既要准,又要快 建模降低复杂语境下的收敛复杂度,消歧抗噪 模型表现AUC↑ 推理性能相同输入,计算路径减少~50%,提速数倍 03 PROMPT的应用 DataFunSummit#2023 业务需要 1凤巢业务行业化发展:运营单元与业务发展单元以行业为颗粒度 2搜索满意度升级:迭代节奏以行业为颗粒度, 集中迭代,小步快跑 方案 训练范式 ①新增行业id作为tokenid,给予独特的pos/typeembedding ②预训练阶段强制mask行业id,增加行业分类任务预估 ③Finetune阶段,将行业id作为softprompt引入样本,作为分类行业锚点,实现隔离性 技术抽象 行业粒度迭代,在迭代过程中,要有行业效果, 也要大盘平稳。 一种具有良好隔离性的增量学习范式。 一般做法: ①预训练一个单塔模型 ②同构或者异构双塔模型,均采用①产出模型作为encoder ③对于每个encoder,输入对应文本作为sentence_A 策略分析 思考: ①有必要预训练一个双塔模型吗? ②预训练样本是pair形式组织的,NSP任务在每个塔的作用上有效吗? ③sentence_B的信号去哪里了? qscored 方案 qscored embed-poolingembed-pooling embed-pooling embed-pooling QueryEncoder DocEncoder QueryEncoder DocEncoder [CLS] T1 … TN [SEP] Sent_A [CLS] T1 … TN [SEP] Sent_A [CLS] P … [SEP] T Sent_A Sent_B [CLS] P … [SEP] T Sent_A Sent_B 04 AIGC与想象力 DataFunSummit#2023 搜索广告商业生态问题再回顾 搜索广告商业生态问题再回顾 结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破 搜索广告商业生态问题再回顾 结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破 求解路径:多管齐下,驱动优质内容建设正循环,联合客户,协同优化 检索端 检索端模型奖优罚劣机制 业务端模型产品端 良好投放效果 库存广告->优质广告 客户有动力协同优化 搜索广告商业生态问题再回顾 结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破 求解路径:多管齐下,驱动优质内容建设正循环,联合客户,协同优化 检索端 检索端模型奖优罚劣机制 业务端模型产品端 良好投放效果 库存广告->优质广告 客户有动力协同优化 判的准-提升效率是提升激励效果 AIGC-提升效率是提升激励效果+生产力 Text&&Pos ERNIEZEUS Output 自动化物料生成、debug&&解释性工具、系统级别LLMreward… 策略 示例 Cot+PET/P-tunning 模板:[soft_prompt..]“query”[soft_prompt..]“lp”[soft_prompt..]请说明原因[gMASK]其中soft_prompt是随机初始化的embVERBALIZER=["0":"劣","1":"可","2":"好","3":"棒"]loss=alpha*nlu_loss+beta*nlg_loss P-tunning 模板:[soft_prompt..]"query"[soft_prompt..]"lp"[soft_prompt..][MASK]其中soft_prompt是随机初始化的embVERBALIZER=["0":"劣","1":"可","2":"好","3":"棒"] PET 模板:查询词:"query"。文本:"lp"。查询词和文本的相关性怎么样?[MASK]VERBALIZER=["0":"劣","1":"可","2":"好","3":"棒"] 直接生成 模板:查询词:query。文本:lp。满分4分,查询词和文本相关性打几分?[gMASK]label:寻参空间vocab_size 感谢观看

你可能感兴趣

hot

阿里云AI搜索RAG大模型优化实践

信息技术
极客传媒2024-10-28
hot

电商大模型及搜索应用实践

商贸零售
全球人工智能开发与应用大会2024-10-28
hot

卞凤杰-申万宏源业务中台质量探索与实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13