热门搜索：

用于诊断辅助的医学数据挖掘的特点（英）

医药生物2022-11-09-未知机构甜***

AI智能总结

该调查论文强调了数据挖掘在医学中的重要作用，特别是用于开发诊断辅助模型。尽管有大量的研究，但临床医生仍然不愿意使用决策支持工具。为了解决这种不冷不热的立场，作者主张数据挖掘者和临床医生之间需要合作，并建议对临床医生的期望要求进行概述。该调查论文为设计日常有用的诊断辅助系统提供了指导方针。关键词包括数据挖掘、药物、诊断辅助和可解释的人工智能。

用于诊断辅助的医疗数据挖掘的细节：一项调查莎拉Itani想知道a、b∗,费边Lecronc菲利普Fortempsc a科学研究基金-FNRS（F.R.S.-FNRS），比利时布鲁塞尔b蒙斯大学工程学院数学与运筹学系，比利时蒙斯 c蒙斯大学工程学院工程创新管理系，比利时蒙斯摘要数据挖掘继续在医学中发挥重要作用;具体而言，用于开发用于专家和智能系统的诊断辅助模型。尽管我们可以找到有关该主题的大量研究，但临床医生仍然不愿意使用决策支持工具。社会压力部分解释了这种不冷不热的立场，但也提出了对可靠性和可信度的担忧。为了解决这种沉默，我们强调了数据挖掘者和临床医生之间合作的重要性。这项调查通过关注诊断辅助的细节和相关的数据建模目标，为这种交互奠定了基础。在这方面，我们建议对临床医生（既是专家又是最终用户）的期望要求进行概述。事实上，我们认为与临床医生的互动应该从过程的第一步开始，到预测模型的整个开发过程中进行，因此不仅仅是在最后的验证阶段。实际上，针对当前由数据盲目驱动的研究方法，我们主张需要一种新的专家意识方法。本调查论文为日常有用的诊断辅助系统的设计提供了指导方针。关键词:数据挖掘;药;诊断辅助;可解释的人工智能 1.介绍作为本世纪最时髦的研究课题之一，数据挖掘（DM）为相当多领域的科学和技术进步做出了关键贡献（Gupta，2014;PhridviRaj和GuruRao，2014）。该学科创建于九十年代，面临着激烈的竞争，因为开发总是更强大的算法，旨在处理数据。 ∗通讯作者。蒙斯大学数学与运筹学系，RuedeHoudain，9，7000Mons，比利时。电子邮件地址: 1990 1995 2000 2005 2010 2015 1200 1000 800 许多出版物 600 400 200 0 一年图1：与以下方面相关的年度出版物数量的演变情况医学数据挖掘在Scopus数据库（Sco-pus）中四分之一个世纪，从1990 年到2015年以模式和/或关系的形式推断一些知识（Bellazzi和Zupan，2008）。相关技术源自统计学和机器学习（ML）领域，后者旨在开发能够从一组数据中提取概括的计算方法（Giudici，2005）。医学应用是糖尿病界关注的问题之一，在过去几年中，研究兴趣大幅增加（见图1）。这种相互作用来自不同的学科（Bellazzi等人，2011）：在细胞和分子水平（生物信息学);在这, 苏和器官水平(成像信息);在单个病人级(临床信息学);在人口和社会水平(公共卫生信息学). 半个世纪以来，诊断预测一直是临床信息学的一个非常活跃的研究领域（Wagholikar等人，2012）。在这方面，随着DM的出现，研究已经逐渐摆脱了长期以来被视为标准做法的统计方法。实际上，在假设演绎过程中，统计分析被驱动以检查事先陈述的假设，并为此特殊目的收集数据样本（Yoo等人，2012）。这种统计方法肯定适用于提高病理组和对照组之间的差异，但不能设定个体评估，即每个受试者的临床检查。相比之下，通过ML技术，DM以感应方式处理大量数据，以提取知识并开发能够帮助诊断病理的预测模型（Vieira等人，2017年;俞等人，2012;贝拉齐和祖潘，2008年）。在这样的过程中，统计可能会在特征工程师中找到它的位置，在主要基于ML分类或回归方法的模型构建阶段之前（Esfandiari等人，2014）。在这方面，正是通过数据挖掘，最近的工作致力于癌症的早期检测，例如见吕和哈克（2018）;阿里·科维克和苏巴西（2017）;Cichoszetal.（2016）;纳哈尔等人（2016）;埃斯凡迪亚里等人（2014）;克里希纳亚等人（2013）;帕尔文等人（2013）;古普塔等人（2011）。其他病理，如心脏和肺部疾病、糖尿病、高血压、脑膜炎，除了更精确诊断研究的重要组成部分外（Esfandiari等人，2014年）。几种精神疾病，例如注意力缺陷多动障碍（ADHD）（Itani等人，2018a;亚伯拉罕等人，2017;Milham等人，2012），阿尔茨海默病（Papakostas等人，2015），自闭症（Kos-micki等人，2015），精神分裂症，抑郁症和帕金森（Woo等人，2017）也是广泛调查的对象。正如大多数研究人员可能认为的那样，当然还有本文的作者，迄今为止提出的诊断决策支持系统并未得到临床医生的一致认可（Wagholikar等人，2012）。值得注意的是，这些系统以及潜在的预测模型与现场现实相去甚远。因此，数据挖掘者很可能对医疗诊断决策支持的细节不够关注。特别是，尽管DM社区对医疗应用的独特性敏感（Cios和Moore，2002），但预测性能实际上是数据挖掘者范围内唯一的参数，这鼓励了竞争。随着全球不同医学和研究中心共享的开放医学数据库的可用性增加，这一趋势更加突出（DiMartino等人，2017年;吴等人，2017;迪马蒂诺等人，2014;埃斯凡迪亚里等人，2014年;门内斯等人，2013;Ihle等人，2012年;克尔等人，2012;米勒姆等人，2012;波林等人，2012年）。其中一些数据集是在官方竞赛之际推出的，例如ADHD-200集合（Milhametal.，2012）。由于几乎完全专注于性能，这些研究工作（1）错过了更好地感知和理解医学领域相关问题的挑战，（2）面临产生不一致模型的风险，因为值得注意的是，最近的研究表明，准确模型的预测背后可能没有逻辑（Ribeiro等人，2016）。我们坚信，临床医生必须参与整个开发过程他们的决策支持系统的过程。事实上，他们带来了专业知识和知识，为智能和专家系统做出了贡献。这就是为什么在本文中，我们将阐明医疗数据挖掘的细节，以帮助诊断，并提出相关的数据建模目标。为此，我们将解决以下问题。 (1)决策支持模型如何对临床医生更具吸引力？在这方面有哪些明确要求？ (2)在数学修改方面，与这些要求相对应的目标是什么？ (3)医疗数据，特别是在这个开放医疗数据激增的时代，如何使数据挖掘更具挑战性？ (4)目前的数据挖掘技术在多大程度上能够满足临床医生的需求，并同时处理医疗数据的特殊性质？在回答这些问题时，我们被引导描述一个全面的expert-aware方法从现有文献中脱颖而出，通过下面揭示的三个主要贡献。 •由于某些模型的有效性有限，Karpatne等人（2017）推动科学理论——引导数据.这种DM模型以理论基础为基础，主要是物理和化学领域。在医学诊断的背景下，我们可以采用类似的方法，不是以理论为指导，而是以专家的领域知识为指导。我们的论文为这种方法奠定了基础，在医学和数据挖掘领域之间建立了一种桥梁。 •我们不仅表示诊断辅助问题具有特殊性质，我们还建议将相关细节转化为建模目标。事实上，大多数对医学领域细节感兴趣的论文范围很广，因此没有特别关注诊断，而是特别关注预后和监测，这涉及建模的讨论不够深入（Bellazzi和Zupan，2008年;首席信息官和摩尔，2002年;拉夫拉，1999年）。此外，与专门针对辅助医疗诊断的论文相比，我们提出了更新的观点（Wagholikar等人，2012年;科诺年科，2001年）。 •我们不提供DM技术和相关工作的概述;这在以前的调查中被广泛提出（Kalantari等人，2018年;库鲁等人，2015年;埃斯凡迪亚里等人，2014年;瓦戈利卡尔等人，2012年;Yoo等人，2012）。我们宁愿质疑现有的 DM技术，因为在理解问题和数据之后提出了建模目标。这使我们能够提出一些可靠的未来研究方向。预测,d N P -(N) TN 《外交政策》积极的(P) FN TP 图2:混淆矩阵本文组织如下。在第2节中，我们公开了我们考虑构建和进行调查的材料。结果在第3节中介绍，并在第4节中讨论。最后，我们在第5节中结束本报告。 2.材料 2.1.术语医学诊断是一项具有挑战性的任务的结果，其中包括收集和协调不同的信息（Donner-Banzhoff等人，2017;霍默索姆和卢卡斯，2016年;米勒，2016）。后者包括症状(主观数据)和迹象（客观数据）通过临床检查和实验室测试提供的麻烦。为了解释这些症状和体征，临床医生得出存在/不存在问题的结论，即诊断. 一个测试是促使诊断的其他因素之一（Gordis，2014;西奥斯和摩尔， 2002）.临床试验的预测有几种类型。患有（分别没有）预测的疾病D的患者被指定为真阳性(职责。真正的负).如果预测错误，患者是假阳性或假阴性分别。设TP（或TN）表示真阳性（或真阴性）的数量，FP（或FN）表示误报的数量（或假阴性）;这些量通常暴露在混淆矩阵中（见图2）（Witten等人，2005）。从TP，TN，FP和FN计算不同的标量指标，以评估临床试验的性能;它们在表1中暴露（Lalkhen和McCluskey，2008;阿科本，2007年a，b）。让我们注意到积极的和阴性预测值取决于疾病的患病率（Akobeng，2007a）：它们很容易从以下知识中推断出来灵敏度和特异性从这样一个影响,它是免费的。当需要多项测试来检查是否存在医疗状况时，这些测试可能会在全球范围内根据净的敏感性和净特异性.这些指标的值取决于测试的管理方式，即顺序或同时进行（Gordis，2014）。图3和图4显示了顺序和并行测试的机制。用于说明度规定义公式精度()成功的速度预测一个=TP+TN TP+《外交政策》灵敏度或真阳性率(tp) 特异性或真阴性率(tn) d检测给定患者的能力疾病。tp=TTPP+FN d患有不适的患者检测呈阳性的概率。 d检测病人没有能力鉴于疾病。tn=TTNN+《外 d无疾病患者检测呈阴性的概率。阳性预测值(PPV)阴性预测值(NPV) 一个被预测为患有特定疾病的患者确实如此。一个被预测为没有特定疾病的患者确实如此。 PPV= 净现值 TP TP+《外交政策》 TN TN+FN 表1:性能指标的筛选试验负测试1 (̃̃1, 积极的测试2 (̃̃2, 积极的负图3:顺序测试测试1 (̃̃1, ̃̃1) 测试2 (̃̃2, ̃̃2) 测试1 (̃̃1, ̃̃1) 测试2 (̃̃2, ̃̃2) 负负积极的负消极的积极图4:平行测试目的，该示例呈现了两个测试的情况;相关的推理可以推广到涉及更多测试的情况。在顺序检测的情况下，如果患者检测呈阳性，则进行另一轮检查，以明确解决他/她的医疗状况。如果患者在第二轮检查后检测呈阳性，则受试者被诊断出患有相关疾病。因此，如果两种测试之一均呈阴性结果，则认为患者无病。相关的净敏感性和特异性表示为： tp=tp1·tp2和tn=tn1tn2−tn1·tn2. 相反，在平行测试的情况下，一旦所有测试同时确认这种情况，患者就被认为是阴性。在这种情况下，相关的净特异性和敏感性由下式给出： tn=tn1·tn2和tp=tp1tp2−tp1·tp2. 就像临床医生可以征求专家的意见一样，他/她可以诉诸模型用于诊断辅助。两种情况之间的唯一区别在于诊断支持的外部性质，无论是人工的还是计算机化的。一个或多个测试的数据是诊断辅助模型的潜在输入。应该指出的是，non-interpreted测试结果（例如胆固醇水平，扫描）构成模型输入，而不是测试的值，即正面或负面。实际上，预测模型的作用是确定输出中的患者的医疗状况。鉴于上述情况，在本调查中，我们称之为模型不同于测试, 后者是前者的潜在投入。模型提供诊断建议;除其他潜在信息外，测试提供的结果允许做出诊断。 2.2.知识发现过程以诊断辅助为目的提取知识适合知识发现过程（KDP）。自从Fayyad等人（1996）率先正式化以来，提出了具有学术或工业思想的替代模型（Kurgan和Musilek，2006）。特别是，KDP被改编为医疗应用，并由Cios等人（2007年，2000年）针对诊断辅助

点击免费查看完整报告

你可能感兴趣

用于诊断辅助的医学数据挖掘的特点（英）

你可能感兴趣

肋骨骨折人工智能辅助CT诊断技术的开发及临床应用评价

用于共同目的的数据：利用同意建立信任（英）

2021-是否有数据可用于跟踪阿富汗营养政策、方案和成果的进展？（英）

医疗行业：基因芯片研究，潜在的医学诊断需求为基因芯片创造市场空间

海外计算机&互联网行业一周回顾：腾讯扩展人工智能在辅助诊断上的探索