用于诊断辅助的医疗数据挖掘的细节:一项调查 莎拉Itani想知道a、b∗,费边Lecronc菲利普Fortempsc a科学研究基金-FNRS(F.R.S.-FNRS),比利时布鲁塞尔b蒙斯大学工程学院数学与运筹学系,比利时蒙斯 c蒙斯大学工程学院工程创新管理系,比利时蒙斯 摘要 数据挖掘继续在医学中发挥重要作用;具体而言,用于开发用于专家和智能系统的诊断辅助模型。尽管我们可以找到有关该主题的大量研究,但临床医生仍然不愿意使用决策支持工具。社会压力部分解释了这种不冷不热的立场 ,但也提出了对可靠性和可信度的担忧。为了解决这种沉默,我们强调了数据挖掘者和临床医生之间合作的重要性。这项调查通过关注诊断辅助的细节和相关的数据建模目标,为这种交互奠定了基础。在这方面,我们建议对临床医生(既是专家又是最终用户)的期望要求进行概述。事实上,我们认为与临床医生的互动应该从过程的第一步开始,到预测模型的整个开发过程中进行,因此不仅仅是在最后的验证阶段。实际上,针对当前由数据盲目驱动的研究方法,我们主张需要一种新的专家意识方法。本调查论文为日常有用的诊断辅助系统的设计提供了指导方针。 关键词:数据挖掘;药;诊断辅助;可解释的人工智能 1.介绍 作为本世纪最时髦的研究课题之一,数据挖掘(DM)为相当多领域的科学和技术进步做出了关键贡献(Gupta,2014;PhridviRaj和GuruRao,2014)。该学科创建于九十年代,面临着激烈的竞争,因为开发总是更强大的算法,旨在处理数据。 ∗通讯作者。蒙斯大学数学与运筹学系,RuedeHoudain,9,7000Mons,比利时。 电子邮件地址: 1990 1995 2000 2005 2010 2015 1200 1000 800 许多出版物 600 400 200 0 一年 图1:与以下方面相关的年度出版物数量的演变情况医学数据挖掘在Scopus数据库(Sco-pus)中四分之一个世纪,从1990 年到2015年 以模式和/或关系的形式推断一些知识(Bellazzi和Zupan,2008)。相关技术源自统计学和机器学习(ML)领域,后者旨在开发能够从一组数据中提取概括的计算方法(Giudici,2005)。 医学应用是糖尿病界关注的问题之一,在过去几年中,研究兴趣大幅增加(见图1)。这种相互作用来自不同的学科(Bellazzi等人,2011):在细胞和分子水平(生物信息学);在这, 苏和器官水平(成像信息);在单个病人级(临床信息学);在人口和社会水平(公共卫生信息学). 半个世纪以来,诊断预测一直是临床信息学的一个非常活跃的研究领域(Wagholikar等人,2012)。在这方面,随着DM的出现,研究已经逐渐摆脱了长期以来被视为标准做法的统计方法。实际上,在假设演绎过程中,统计分析被驱动以检查事先陈述的假设,并为此特殊目的收集数据样本(Yoo等人,2012)。这种统计方法肯定适用于提高病理组和对照组之间的差异,但不能设定个体评估,即每个受试者的临床检查。相比之下,通过ML技术,DM以感应方式处理大量数据,以提取知识并开发能够帮助诊断病理的预测模型(Vieira等人,2017年;俞等人,2012;贝拉齐和祖潘,2008年)。在这样的过程中,统计可能会在特征工程师中找到它的位置 ,在主要基于ML分类或回归方法的模型构建阶段之前(Esfandiari等人,2014)。 在这方面,正是通过数据挖掘,最近的工作致力于癌症的早期检测,例如见吕和哈克(2018);阿里·科维克和苏巴西(2017);Cichoszetal.(2016);纳哈尔等人(2016);埃斯凡迪亚里等人(2014);克里希纳亚等人(2013);帕尔文等人(2013);古普塔等人(2011)。其他病理,如心脏和肺部疾病、糖尿病、高血压、脑膜炎,除了更精确诊断研究的重要组成部分外(Esfandiari等人,2014年)。几种精神疾病,例如注意力缺陷多动障碍 (ADHD)(Itani等人,2018a;亚伯拉罕等人,2017;Milham等人,2012),阿尔茨海默病(Papakostas等人,2015),自闭症(Kos-micki等人,2015),精神分裂症,抑郁症和帕金森(Woo等人,2017)也是广泛调查的对象。 正如大多数研究人员可能认为的那样,当然还有本文的作者,迄今为止提出的诊断决策支持系统并未得到临床医生的一致认可(Wagholikar等人,2012)。值得注意的是,这些系统以及潜在的预测模型与现场现实相去甚远。因此,数据挖掘者很可能对医疗诊断决策支持的细节不够关注。特别是,尽管DM社区对医疗应用的独特性敏感(Cios和Moore,2002),但预测性能实际上是数据挖掘者范围内唯一的参数,这鼓励了竞争。随着全球不同医学和研究中心共享的开放医学数据库的可用性增加,这一趋势更加突出(DiMartino等人,2017年;吴等人,2017;迪马蒂诺等人,2014;埃斯凡迪亚里等人,2014年;门内斯等人,2013;Ihle等人,2012年;克尔等人,2012;米勒姆等人,2012;波林等人,2012年)。其中一些数据集是在官方竞赛之际推出的,例如ADHD-200集合(Milhametal.,2012)。由于几乎完全专注于性能,这些研究工作(1)错过了更好地感知和理解医学领域相关问题的挑战,(2)面临产生不一致模型的风险,因为值得注意的是,最近的研究表明,准确模型的预测背后可能没有逻辑(Ribeiro等人,2016)。 我们坚信,临床医生必须参与整个开发过程 他们的决策支持系统的过程。事实上,他们带来了专业知识和知识,为智能和专家系统做出了贡献。这就是为什么在本文中,我们将阐明医疗数据挖掘的细节,以帮助诊断,并提出相关的数据建模目标。为此,我们将解决以下问题。 (1)决策支持模型如何对临床医生更具吸引力?在这方面有哪些明确要求? (2)在数学修改方面,与这些要求相对应的目标是什么? (3)医疗数据,特别是在这个开放医疗数据激增的时代,如何使数据挖掘更具挑战性? (4)目前的数据挖掘技术在多大程度上能够满足临床医生的需求,并同时处理医疗数据的特殊性质?在回答这些问题时,我们被引导描述一个全面的expert-aware方法 从现有文献中脱颖而出,通过下面揭示的三个主要贡献。 •由于某些模型的有效性有限,Karpatne等人(2017)推动科学理论——引导数据.这种DM模型以理论基础为基础,主要是物理和化学领域。在医学诊断的背景下,我们可以采用类似的方法,不是以理论为指导,而是以专家的领域知识为指导。我们的论文为这种方法奠定了基础,在医学和数据挖掘领域之间建立了一种桥梁。 •我们不仅表示诊断辅助问题具有特殊性质,我们还建议将相关细节转化为建模目标。事实上,大多数对医学领域细节感兴趣的论文范围很广,因此没有特别关注诊断,而是特别关注预后和监测,这涉及建模的讨论不够深入(Bellazzi和Zupan,2008年;首席信息官和摩尔,2002年;拉夫拉,1999年)。此外,与专门针对辅助医疗诊断的论文相比,我们提出了更新的观点(Wagholikar等人,2012年;科诺年科,2001年 )。 •我们不提供DM技术和相关工作的概述;这在以前的调查中被广泛提出(Kalantari等人,2018年;库鲁等人 ,2015年;埃斯凡迪亚里等人,2014年;瓦戈利卡尔等人,2012年;Yoo等人,2012)。我们宁愿质疑现有的 DM技术,因为在理解问题和数据之后提出了建模目标。这使我们能够提出一些可靠的未来研究方向。 预测,d N P -(N) TN 《外交政策》 积极的(P) FN TP 图2:混淆矩阵 本文组织如下。在第2节中,我们公开了我们考虑构建和进行调查的材料。结果在第3节中介绍,并在第4节中讨论。最后,我们在第5节中结束本报告。 2.材料 2.1.术语 医学诊断是一项具有挑战性的任务的结果,其中包括收集和协调不同的信息(Donner-Banzhoff等人,2017;霍默索姆和卢卡斯,2016年;米勒,2016)。后者包括症状(主观数据)和迹象(客观数据)通过临床检查和实验室测试提供的麻烦。为了解释这些症状和体征,临床医生得出存在/不存在问题的结论,即诊断. 一个测试是促使诊断的其他因素之一(Gordis,2014;西奥斯和摩尔, 2002).临床试验的预测有几种类型。患有(分别没有)预测的疾病D的患者被指定为真阳性(职责。真正的负).如果预测错误,患者是假阳性或假阴性分别。设TP(或TN)表示真阳性(或真阴性)的数量,FP(或FN)表示误报的数量(或假阴性);这些量通常暴露在混淆矩阵中(见图2)(Witten等人,2005)。从TP,TN,FP和FN计算不同的标量指标,以评估临床试验的性能;它们在表1中暴露(Lalkhen和McCluskey,2008;阿科本,2007年a,b)。让我们注意到积极的和阴性预测值取决于疾病的患病率(Akobeng,2007a):它们很容易从以下知识中推断出来灵敏度和特异性从这样一个影响,它是免费的。 当需要多项测试来检查是否存在医疗状况时,这些测试可能会在全球范围内根据净的敏感性和净特异性.这些 指标的值取决于测试的管理方式,即顺序或同时进行(Gordis,2014)。图3和图4显示了顺序和并行测试的机制。用于说明 度规定义公式 精度()成功的速度预测一个=TP+TN TP+《外交政策》 灵敏度或 真阳性率(tp) 特异性或 真阴性率(tn) d检测给定患者的能力 疾病。tp=TTPP+FN d患有不适的患者检测呈阳性的概率。 d检测病人没有能力 鉴于疾病。tn=TTNN+《外 d无疾病患者检测呈阴性的概率。 阳性预测值(PPV)阴性预测值(NPV) 一个被预测为患有特定疾病的患者确实如此 。 一个被预测为没有特定疾病的患者确实如此。 PPV= 净现值 TP TP+《外交政策》 TN TN+FN 表1:性能指标的筛选试验 负 测试1 (̃̃1, 积极的 测试2 (̃̃2, 积极的 负 图3:顺序测试 测试1 (̃̃1, ̃̃1) 测试2 (̃̃2, ̃̃2) 测试1 (̃̃1, ̃̃1) 测试2 (̃̃2, ̃̃2) 负负积极的负消极的积极 图4:平行测试 目的,该示例呈现了两个测试的情况;相关的推理可以推广到涉及更多测试的情况。在顺序检测的情况下,如果患者检测呈阳性,则进行另一轮检查,以明确解决他/她的医疗状况。如果患者在第二轮检查后检测呈阳性,则受试者被诊断出患有相关疾病。因此,如果两种测试之一均呈阴性结果,则认为患者无病。相关的净敏感性和特异性表示为: tp=tp1·tp2和tn=tn1tn2−tn1·tn2. 相反,在平行测试的情况下,一旦所有测试同时确认这种情况,患者就被认为是阴性。在这种情况下,相关的净特异性和敏感性由下式给出: tn=tn1·tn2和tp=tp1tp2−tp1·tp2. 就像临床医生可以征求专家的意见一样,他/她可以诉诸模型用于诊断辅助。两种情况之间的唯一区别在于诊断支持的外部性质,无论是人工的还是计算机化的。一个或多个测试的数据是诊断辅助模型的潜在输入。应该指出的是,non-interpreted测试结果(例如胆固醇水平,扫描)构成模型输入,而不是测试的值, 即正面或负面。实际上,预测模型的作用是确定输出中的患者的医疗状况。鉴于上述情况,在本调查中,我们称之为模型不同于测试, 后者是前者的潜在投入。模型提供诊断建议;除其他潜在信息外,测试提供的结果允许做出诊断。 2.2.知识发现过程 以诊断辅助为目的提取知识适合知识发现过程(KDP)。自从Fayyad等人(1996)率先正式化以来,提出了具有学术或工业思想的替代模型(Kurgan和Musilek,2006)。特别是,KDP被改编为医疗应用,并由Cios等人 (2007年,2000年)针对诊断辅助