信息流场景下的AIGC实践 刘辉-腾讯-算法工程师 DataFunSummit#2023 信息流场景下的AIGC实践 •信息流场景:信息流场景中最先展示给用户的就是内容的标题和封面图,吸引人的标题和封面图是用户消费内容的基础。 •个性化的标题生成 •自动封面图合成 01 个性化的标题生成 DataFunSummit#2023 •标题生成:对于给定文章生成一条和文章匹配的标题,一般要求流畅、和文章相关、不能出现事实错误。 文章 •直接在标题生成数据集上学习一个Seq2Seq模型。 标题 文章 •标题生成:对于给定文章生成一条和文章匹配的标题,一般要求流畅、和文章相关、不能出现事实错误。 •直接在标题生成数据集上学习一个Seq2Seq模型。 •某种风格的标题生成模型 •训练集中的标题都是某种风格的标题,在这种训练集的基础上直接训练。 •学习一个分类器,使用强化学习指导某种风格的标题生成。 ctr高的标题 ...... 作者风格 搜索query 用户兴趣 •个性化标题生成:使用用户内容以及一些个性化的信息生成针对不同用户或者不同应用场景的标题。 •推荐场景:在推荐中,根据用户兴趣,针对不同用户或者群体生成个性化的标题。 文章 •搜索场景:基于用户的搜索query生成query相关的标题。 •创作者平台:模仿创作者历史的标题创作风格,生成和创作者历史风格一致的标题。 •问题难点: •场景表示:用户兴趣、搜索query、作者风格等等显式或者隐式的信息如何表示? •交互设计:场景表示获取之后如何和文章或者标题交互生成个性化的标题? 标题1标题2标题3 •场景表示:使用关键词表示场景。 •搜索场景:Tag、兴趣点、用户画像; •搜索推荐:query、query关键词提取; Diverse,Controllable,andKeyphrase-Aware:ACorpusandMethodforNewsMulti-HeadlineGeneration •交互设计 •Article+Keyphrase •在Decoder端新增加一个子层用于Keyphrase和Headline之间的交互 •Keyphrase-filteredArticle •在Encoder的输�侧直接进行article和keyphrase的交互的得到Filtered-Article •交互设计 •StackFusing •新增加一个子层,但是并不直接和Keyphrase交互,而是和Filtered-Article交互: •AdditionFusing •对Ariticle和Filtered-Article做point-wiseaddition交互 •交互设计 •ParallelFusing •分别单独和Article和Filtered-Article交互,然后对交互结果做pointer-wiseaddition •实验效果 •历史点击序列 •推荐系统中,往往使用历史点击序列作为总要特征用于候选item的ctr预估。 •场景表示:如果基于历史点击序列针对每个用户生成个性化的标题,也能够提高候选item的ctr。 PENS:Adatasetandgenericframeworkforpersonalizednewsheadlinegeneration •pointer-generatornetwork: •AttentionDistribution: •VocabDistribution: •Genertionprobability Gettothepoint:Summarizationwithpointer-generatornetworks •使用userembedding来表示用户点击风格: •作为decoderhiddenstate的初始化 •参与attentiondistribution的计算 •参与generationprobability的计算 •作者风格的标题生成: •对于辅助创作平台,创作者对于机器标题的选择率是评估机器标题生成效果的一个重要指标,而生成符合作者历史风格的标题往往更收到创作者的青睐; •对于平台,创作者历史生成的标题往往是其针对其受众精心构造的往往有更多的点击率; •对于模型,模型参考历史标题的语法和句法信息,能够降低模型训练的难度,从而提高模型的效果; •场景表示:创作者的历史标题。 ContrastiveLearningenhancedAuthor-StyleHeadlineGeneration •模型结构: 。 •将作者的历史标题表示成stylevector •使用对比学习得到更有区分度的stylevector。 •将stylevector用于Decoder交互和指导Pointer生成。 •对比学习: •目的:让标题标题更有区分度。 •正例:来自同一个作者的不同标题之间两两组成正例。 •负例:同一个batch内不同作者的标题两两组成负例。 •Loss: •trainingphase:对比学习的encoder复用Seq2Seq的encoder。 •Inferencephase:丢弃对比学习模块,不影响推理速度。 •交互设计: •stylevector和aritclevector直接concat用于Decoder: •AttentionDistribution: •Genertionprobability: •实验效果: •构造了一个新的基于历史标题的标题生成数据集,给定一篇文档和若干个历史标题生成新的标题。同时过滤掉发文特多的搬运号已经发文特少的创作者。 •实验效果: •构造了一个新的基于历史标题的标题生成数据集,给定一篇文档和若干个历史标题生成新的标题。 •自动评估指标:在Rouge和BLEU上自动评估模型效果。 •实验效果: •构造了一个新的基于历史标题的标题生成数据集,给定一篇文档和若干个历史标题生成新的标题。 •自动评估指标:在Rouge和BLEU上自动评估模型效果。 •风格评估:学习一个分类器,判断给定的两个标题是否来自于同一作者。 •实验效果: •构造了一个新的基于历史标题的标题生成数据集,给定一篇文档和若干个历史标题生成新的标题。 •自动评估指标:在Rouge和BLEU上自动评估模型效果。 •风格评估:学习一个分类器,判断给定的两个标题是否来自于同一作者。 •人工评估:从流畅性、相关性、吸引性的角度人工评估不同模型生成的标题。 •实验效果: •构造了一个新的基于历史标题的标题生成数据集,给定一篇文档和若干个历史标题生成新的标题。 •自动评估指标:在Rouge和BLEU上自动评估模型效果。 •风格评估:学习一个分类器,判断给定的两个标题是否来自于同一作者。 •人工评估:从流畅性、相关性、吸引性的角度人工评估不同模型生成的标题。 •showcase 02 自动封面图合成 DataFunSummit#2023 •背景: •封面图对于用户点击具有非常大的帮助,但是封面图的创作却是比 较费时并且需要一定经验。 •过于简单:给用户呈现的内容过少,可能使得用户错过了自己感兴趣点的内容。 •过于复杂:影响用户体验,并且界面非常杂乱。 •标题信息:封面图中嵌入标题、Tag等关键信息更能第一时间吸引用户。 •封面图生成的目标: •封面图尽量干净、简洁。 •从标题和Tag中提取关键词加入到封面图。 •加入到的文字内容不能遮挡人脸、重要目标等。 •FasterR-CNN封面图清洗 •OCR识别文本框的proposals。 •使用ResNet50对输入图片进行特征提取,得到F1。 •通过特征映射,从F1中获取文本框的特征F2。 •基于F2进行分类,识别是否是文案、台标、 字幕。 •基于inpainting进行内容抹除。 •目标检测 •识别人脸、猫、狗、汽车等65个类别。 •目标框位置使用左上和右下两个点的坐标表示。 •Seq2Seq关键信息提取 •使用带Pointer的预训练T5模型作为底座模型。 •标注一批数据,使用视频的标题、分类和关键词作为输入,人工改写的信息作为结果。 •预测的关键信息可能包含多个片段。 《西游降魔篇》的细节你看懂了吗:尽管有着很多搞笑桥段,却还是如此黑暗 《西游降魔篇》尽管有着搞笑桥段,却还是如此黑暗 •封面图合成模型 •使用端到端的Seq2Seq模型。 •输入端: •所有object的坐标 •文本框的个数 •文本框的大小 •输�端: •文本框的坐标 •封面图合成模型 •使用端到端的Seq2Seq模型。 •输入端: •所有object的坐标 •文本框的个数 •文本框的大小 •输�端: •文本框的坐标 参考文献 [1]LiuD,GongY,YanY,etal.Diverse,Controllable,andKeyphrase-Aware:ACorpusandMethodforNewsMulti-HeadlineGeneration[C]//Proceedingsofthe2020ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).2020:6241-6250. [2]AoX,WangX,LuoL,etal.PENS:Adatasetandgenericframeworkforpersonalizednewsheadlinegeneration[C]//Proceedingsofthe59thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe11thInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers).2021:82-92. [3]LiuH,GuoW,ChenY,etal.ContrastiveLearningenhancedAuthor-StyleHeadlineGeneration[J].arXive-prints,2022:arXiv:2211.03305. [4]RaffelC,ShazeerN,RobertsA,etal.Exploringthelimitsoftransferlearningwithaunifiedtext-to-texttransformer[J].TheJournalofMachineLearningResearch,2020,21(1):5485-5551. [5]GuptaK,LazarowJ,AchilleA,etal.Layouttransformer:Layoutgenerationandcompletionwithself-attention[C]//ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2021:1004-1014. [6]ElharroussO,AlmaadeedN,Al-MaadeedS,etal.Imageinpainting:Areview[J].NeuralProcessingLetters,2020,51:2007-2028. [7]GirshickR.Fastr-cnn[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.2015:1440-1448. [8]SeeA,LiuPJ,ManningCD.Gettothepoint:Summarizationwithpointer-generatornetworks[J].arXivpreprintarXiv:1704.043