金融工程 专题报告 MemSum:基于多步情景马尔可夫决策过程的长文档摘要提取 ——“学海拾珠”系列之一百六十四 报告日期:2023-11-01 主要观点: 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《奇异值分解熵对股市的动态预测能力——“学海拾珠”系列之一百六十三》 2.《基金超额能力、规模报酬递减与价值创造——“学海拾珠”系列之一百六十二》 3.《因子间相关性与横截面资产回报 ——“学海拾珠”系列之一百六十一》 4.《交易量对波动率的非对称效应— —“学海拾珠”系列之一百六十》 5.《基金定期报告中的文本语气能否预测未来业绩?——“学海拾珠”系列之一百�十九》 6.《因子投资中所蕴含的宏观经济风险——“学海拾珠”系列之一百�十八》 7.《基于隐含波动率和实际波动率的系统风险指标——“学海拾珠”系列之一百�十七》 8.《使用机器学习识别基金经理投资能力——“学海拾珠”系列之一百�十六》 本篇是“学海拾珠”系列第一百六十四篇,本文介绍了MemSum,一种基于强化学习的提取总结器,模型迭代地将句子选择到摘要中,考虑:(1)句子的文本内容,(2)全局文本上下文,(3)已经 提取的句子集的历史信息。凭借轻量级结构,MemSum在长文档数据 集(PubMed、arXiv和GovReport)上仍获得了最先进的测试集性能 (ROUGE分数)。 不同尺度的特征提取器对于模型提取摘要的效果提升显著 MemSum模型中包含局部句子编码器、全局句子信息编码器和已提取历史信息编码器三种不同尺度、不同目的的编码器,经过消融实验验证,这三种编码器都显示出了卓越性能,其中全局上下文编码器和提 取历史编码又比局部句子编码器的作用更显著。提取历史编码器是MemSum能够达到SOTA的核心因素之一,经过验证,提取历史信息显著地降低了提取出的摘要的冗余度。 独特的停止机制帮助模型输出合理长度的摘要 与之前的模型不同之处在于,在MemSum中,停止选择句子也被当作一个独立的决策行为,相比于规定固定的句子数量或文本长度,以及在源文本中添加特殊停止标记的方法等,这种停止机制使得模型能够 学习智能地选择摘要长度。 文献来源 核心内容摘选自NianlongGu,ElliottAsh和RichardH.R. Hahnloser在《AssociationforComputationalLinguistics》上发表的文章《MemSum:ExtractiveSummarizationofLongDocumentsUsingMulti-StepEpisodicMarkovDecisionProcesses》 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建 议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1简介4 2相关工作5 3方法5 3.1策略梯度方法5 3.2多步情节MDP策略6 3.3模型框架6 3.4训练7 4实验8 5结果与讨论10 5.1结果比较10 5.2消融实验12 5.3提取历史信息对冗余的降低13 5.4人为评估结果15 6结论15 风险提示:16 图表目录 图表1模型迭代步骤5 图表2模型结构7 图表3模型训练算法8 图表4数据集概述9 图表5PUBMED和ARXIV测试集的结果11 图表6PUBMED-TRUNC和GOVREPORT的结果11 图表7PUBMED-TRUNC数据集中提取句子的位置分布11 图表8MEMSUM提取摘要与HEPOS-SINKHORN生成摘要的比较12 图表9在PUBMED数据集上进行的消融实验13 图表10在冗余PUBMED数据集上的表现13 图表11MEMSUM在提取步骤0到3中计算的50个句子的句子得分14 图表12NEUSUM和MEM-SUM的平均排名(排名越高模型性能越好)15 1简介 自动文本摘要是将长文档自动总结为相对较短的文本,同时保留大部分信息的任务(Tas和Kiyani,2007)。文本摘要方法可分为生成式方法和提取式方法 (Gambir和Gupta(2017),Nenkova和McKeown(2012))。给定一个由N个句子组成的有序列表形式的文档D,提取摘要旨在提取M(M<<N)个句子作为文档的摘要。提取方法生成的摘要往往在语法和语义上都比生成式摘要更可靠(Liu等人(2018),Liu和Lapata(2019a),Luo等人(2019),Liao等人(2020)),因为它们是直接从源文本中选择的。 提取式摘要通常被建模为两个连续阶段(Zhou等人,2018):(1)句子评分和 (2)句子选择。在句子评分阶段,通过诸如双向RNN的神经网络(Dong等人(2018), Narayan等人(2018),Luo等人(2019),Xiao和Carenini(2019))或BERT(Zhang 等人(2019),Liu和Lapata(2019b))来计算每个句子的亲和度得分(AffinityScore)。在句子选择阶段,句子是通过以下方式选择的:(1)根据每个句子的得分 预测每个句子的标签(1或0),并选择标签为1的句子(Zhang等人(2019),Liu和Lapata(2019b),Xiao和Carenini(2019)),或(2)根据得分对句子进行排名,并选择排名前K的句子作为摘要(Narayan等人,2018),或(3)在不替换的情况下对句子进行顺序采样,其中剩余句子的归一化分数被用作采样可能性(Dong等人(2018),Luo等人(2019))。 在这些方法中,句子得分通常不会基于先前选择的句子的当前部分摘要来更新,这表明这些模型缺乏提取历史知识的能力。本文认为,不知道提取历史的摘要提取器很容易提取出冗余的摘要,因为无论以前是否选择过类似的句子,他们都会在摘要中重复添加得分高的句子。而且,冗余会导致ROUGEF1分数下降。 在本文中,作者提出将提取摘要建模为一个多步骤情景马尔可夫决策过程 (MDP)。如图1所示,在一个阶段中的每个时间步长,我们定义了一个由三个子状态组成的句子状态:(1)句子的局部内容,(2)文档中句子的全局上下文,以及(3)提取历史信息,包括之前选择的无序句子集和剩余句子。在每个时间步,策略网络 (agent)将当前句子状态作为输入,并生成用于选择停止提取过程或在候选摘要中选择剩余句子之一的动作的概率。与居于下一阶段的MDP模型(Narayan等人(2018),Dong等人(2018),Luo等人(2019))不同,在多步骤策略中,agent在选择动作之前,在每个时间步长更新提取历史。这种逐步状态更新策略使agent在选择句子时能够考虑部分摘要的内容。 为了有效地对局部和全局句子状态进行编码,本文设计了一种基于LSTM网络的提取系统(Hochreiter和Schmidhuber,1997)。为了对提取历史进行编码并做出决策,本文使用了相对低维度的注意力层(Vaswani等人,2017)。这些选择使我们的模型易于训练,并能够总结科学论文(Cohan等人(2018),Huang等人(2021))或报告(Huang等人,2021)等文。 本文的工作贡献如下:(1)将提取摘要视为一种了解提取历史信息的多步骤情 节MDP。(2)研究表明,与没有历史意识的模型相比,提取历史信息使我们的模型能够提取更紧凑的摘要,并且对文档中的冗余表现得更稳健。(3)在PubMed、arXiv(Cohan等人,2018)和GovReport(Huang等人,2021)数据集上,我们的模型优于提取和抽象摘要模型。(4)最后,经过人工评估,MemSum摘要的质量高于竞争方法的摘要,冗余度较低是其突出优点。 图表1模型迭代步骤 资料来源:《MemSum:ExtractiveSummarizationofLongDocumentsUsingMulti-StepEpisodicMarkovDecisionProcesses》,华安证券研究所 2相关工作 在本文中,我们建议将提取摘要建模为多步情节Markov提取历史意识先前在NeuSum中被考虑(Zhou等人,2018),其中GRU将先前选择的句子编码为隐藏向量,然后用于更新剩余句子的分数,以衡量下一个选择的偏好。NeuSum不包含停止机制,因此它只能提取固定数量的句子,这可能是次优结果。此外,提取历史信息的潜在好处尚未被量化,因此这一想法在很大程度上仍未被充分探索。 最近,基于BERT的提取器,如MatchSum(Zhong等人,2020),在从 CNN/DM(Hermann等人,2015)数据集中提取相对较短的文档摘要时实现了SOTA性能。然而,𝑂(𝑛2)以上的计算和空间复杂度(Huang等人,2021)限制了它们用数千个tokens总结长文档的可扩展性,这在政府报告的科学论文中很常见。尽管具有高效注意力的大型预训练Transformer(Huang等人,2021)已适用于长文档的抽象摘要,但我们认为,一般来说,提取摘要更“忠实可靠”,这就是我们选择提取方法的原因。 3方法 本节概述了用于提取摘要的多步情节MDP模型。 3.1策略梯度方法 在具有最终状态(即摘要的最后一句)的多阶段任务中,梯度策略方法旨在最 大化目标函数𝐽(𝜽)=𝔼�[𝑅0],其中𝑅�=∑�𝑟�是从时间t+1到摘要结束所有阶 �𝑘=𝑡+1 段的累积奖励,在强化学习用于摘要提取的过程中,除了在所有阶段结束计算最终奖励r时,其余阶段的奖励都为0,因此𝑹�≡𝑹�=�。奖励r通常表示为(Dong等 人,2018): 1 �=3(ROUGE-1�+ROUGE-2�+ROUGE-L𝑓) 根据Williams在1992年提出的强化学习算法,策略梯度被定义为: ∇𝐽(𝜽)=➪𝜋[𝑅𝑡∇log𝜋(𝐴�∣𝑆𝑡,𝜽)] 其中𝜋(𝐴�∣𝑆𝑡,𝜽)代表在t时间步给定状态𝑆�情况下做出𝐴�行为的可能性。假定学习率为𝛼,参数更新规则为(Sutton和Barto,2018): 𝜽𝑡+1←𝜽�+𝛼𝑅𝑡∇log𝜋(𝐴�∣𝑆𝑡,𝜽𝑡) 3.2多步情节MDP策略 与通过一个动作提取整个摘要的单步状态MDP策略不同(Narayan等人(2018),Dong等人(2017),Luo等人(2019)),我们定义了一系列情节,即由多个时间步长组成的摘要的生成。在每个时间步t,对应于提取句子编号t,决策𝐴�是停止提取或者从剩余的句子中选择一个句子。可总结为如下模型: 𝜋(𝐴�∣𝑆𝑡,𝜽�)=𝑝(stop∣𝑆𝑡,𝜽�)∗𝑝(𝑎�∣stop,𝑆𝑡,𝜽𝑡) 𝑝(� |stop,�,�)= 𝑢𝑎𝑡(𝑆𝑡,𝜽𝑡) ∑𝑢𝑗(𝑆𝑡,𝜽𝑡) ,ifstop=false ��� 𝑗∈𝐼� 1 ,ifstop=true �|𝐼𝑡| 其中𝐼�表示t时间步剩余句子的索引集。如果在t时刻选择继续提取,模型首先为剩下的每个句子计算一个分数𝑢�,并根据归一化分数的概率分布采样一个句子𝑆𝑎𝑡;若当前时间步的决策为停止选取,不扩充已有摘要,条件似然概率𝒑(𝒂�|stop, �,�)被设置为�(|�|即t时刻剩余句子的数量),其与策略参数无关,这样规定 �� |𝑰𝒕|� 是为了避免策略参数在此种情况下通过条件似然概率产生梯度回传。计算出条件概率后,结合3.1中的奖励分数计算和参数更新策略,模型的框架就很清晰了。 3.3模型框架 本文中,𝜋(𝐴�∣𝑆𝑡,𝜽𝑡)中的𝑆�提供以下信息:(1)句子的局部内容,(2)文档中句子的全局上下文,(3)当前提取历史。为了在状态中对这三个属性进行编码,我们分别使用局部句子编码器、全局上下文编码器