您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[湖南大学]:CCKS 2021:蕴含实体的中文医疗对话生成方案介绍 - 发现报告
当前位置:首页/其他报告/报告详情/

CCKS 2021:蕴含实体的中文医疗对话生成方案介绍

2022-11-07李宾湖南大学我***
CCKS 2021:蕴含实体的中文医疗对话生成方案介绍

CCKS2021:蕴含实体的中文医疗对话生成方案介绍 答辩人:李宾 队伍:VPAI_Lab 队员:陈恩城刘鸿儒翁诣轩 背景介绍 目录 contens 方法建模 实体预测回复生成实验结果 结论汇总 问题背景 医疗对话生成: 是指以实际场景中医患对话为背景,对话均有标注相关的实体信息,模型需要以对话历史为条件,要求生成上下文相关且具有医学意义的回复。评价指标: BLEU(回复相关度评价) F1(回复中实体F1指标) 1 赛题配置 本次比赛提供的训练集共有17864段对话,测试集A一共2747段对话,每段对话平均10.7句,每句话平均19个字。测试集B一共1600段对话,每段对话平均9.8句,每句话平均19.76个字。 2 问题建模 1.使用对话历史实体预测下一句蕴含的实体 2.生成正确且富含医学信息的回复 3 4 系统架构 我们采用Pipeline的训练方式完成训练蕴含实体的对话生成任务,在上游先生成预测实体,然后再通过设计实体感知的对话生成模型,通过多样性集束搜索(DiverseBeamSearch)进行最后的结果输出 实体预测模型 在实体预测模型部分,我们采用了以下的方法,右侧为模型结构: 1.FGM对抗训练、混合精度训练、移动滑动平均策略、Multi-sampleDropout; 2.分层学习率与学习率衰减策略。具体为BERT上层学习率设置较大值,BERT内部学习率较小,并且越接近底层学习率越小; 3.F1指标优化技术优化类别不平衡。在分类问题中,当类别不平衡时,使用交叉熵损失优化得到的结果,F1并不是全局最优的。考虑每一个实体为二分类问题,可以使用阈值搜索,得到一个合理阈值。 5 实体感知对话生成模型 通过Seq2Seq的方式将对话上下文信息与实体信息通过MaskedMuti-headCrossAttention的机制进行融合,使得最后的回复具有预测的实体信息。 6 上下文编码模块+编码融合模块 设计上下文编码模块,将输入进行tokenize得到的token与位置编码、一段句子出现的实体编码进行相加,Eavg为整个句子的平均编码(除以句子长度),其余每一部分都是对应句子的编码,三者相加得到输入编码端的上下文编码。 MHCA为(多头交叉掩码注意力)机制MaskedMulti-headCrossAttention.进行MHCA后进行编码平均,使得输入解码端的信息包括了历史实体信息,预测编码信息,上下文等信息。 7 8 5折交叉验证 充分利用训练数据 降低方差提高性能 模型融合—五折交叉验证 模型融合——bagging 融合不同模型的优点,更具多样性 融合模型: GPT/Transformer/BART /T5/CPM-Prompt 增加预测泛化能力,提分利器 9 0 10 实验结果——实体预测 不同主干网络预测结果如表1所示,符号-Post代表在收集的数据中使用Mac-BERT预训练方法进行继续预训练。我们最后选择PCL-BERT-wwm作为我们的基线主干网络,继续预训练后F1最高。我们还尝试了具有最高主干的不同生成模型结构,如表3所示。结果表明利用最后三层embedding融合并加入注意力机制和Multi-dropout方法时,模型表现具备相当的竞争优势。 11 实验结果——对话生成 不同对话生成模型的结果如表3所示,我们利用BertGPT进行课程5-fold训练,平均得分在原有基础上的高出2.62。随着预训练模型规模的增加,各项指标成绩呈上升趋势。微调后的CPM2-Prompt取得了最高平均分的成绩,达到18.21分。对比我们提出的不同结构,所提出的上下文编码模块有利于提高BLEU分数,因为历史实体对于响应生成同样重要。编码融合模块也有效地提高了0.62的F1分数和0.2的BLEU分数,最后经过模型融合与参数精调,我们在A、B榜我们取得了第一的成绩。 12 结论汇总 我们提出了一个管道式的医疗对话生成框架,包括两部分:医疗实体预测和实体感知融合对话生成。在我们的框架中,我们首先使用F1阈值搜索优化实体预测模型。同时基于Seq2Seq架构提出了医疗感知对话生成模型,融合不同编码进行对话生成,最后采用模型集成的方式提高了最终的结果。我们在CCKS2021蕴含实体的中文医疗对话生成比赛中获得了第一名,这证明了我们提出的方案的有效性和实用性。未来我们将考虑将图网络结构融入对话生成中,使得生成的回复更具准确性。 系统演示 13