您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:可解说人工智能(XAI) : 在内可解说词到大语言模型 - 发现报告

可解说人工智能(XAI) : 在内可解说词到大语言模型

信息技术2025-01-17-未知机构话***
AI智能总结
查看更多
可解说人工智能(XAI) : 在内可解说词到大语言模型

APREPRINT Fuseini Mumuni∗Alhassan Mumuni† 摘要 人工智能(AI)在近期继续取得巨大的成功。然而,这些框架的决策逻辑往往不够透明,这使得利益相关者难以理解、解释或解释其行为。这一限制阻碍了对机器学习系统的信任,并导致在实际应用中普遍缺乏对其采用的积极性,特别是在关键任务领域如医疗保健和自动驾驶等。可解释的人工智能(XAI)技术能够使机器学习模型的可解释性或可理解性增强,使用户能够识别决策的基础并可能避免不良行为。本文综述了可解释AI方法的发展,从固有的可解释模型到现代实现各种“黑盒”模型可解释性的方法,包括大型语言模型(LLM)。此外,我们还回顾了利用LLM和视觉-语言模型(VLM)框架来自动化或改进其他机器学习模型的可解释性技术。将LLM和VLM用作可解释性方法特别能提供高级别的、语义上有意义的模型决策和行为解释。在整个论文中,我们强调了最先进的方法的科学原理、优势和局限性,并概述了不同的改进领域。在适当的情况下,我们还提供了不同方法的定性和定量比较结果,以展示它们之间的差异。最后,我们讨论了XAI的关键挑战以及未来研究的方向。 关键词可解释的 AI·LLM·LLM 的可解释性·大型语言模型的可解释性·调查·可解释性方法综述 1 介绍 人工智能 (AI) 受到了极大的关注 - 没有任何附带信息显示整体模型的复杂性模糊了机器学习系统的决策逻辑。因此,大多数基于数据驱动的深度学习方法本质上具有黑盒性质,其中输入直接映射到预测结果。可解释其预测的模型行为或预测 1.1 机器学习和可解释的 AI arXiv: 2501.09967 v1 [cs. LG] 2025 年 1 月 17 日由于其巨大的权力和重新决定 , 最近的时间。然而 , 对于高利益的应用程序 -在医疗、金融和机器人等领域解决看似难以解决的问题方面展现出明显的潜在价值。跨越各种现实世界领域。机器学习是利益相关者了解底层的必要条件使人工智能系统能够从数据中提取相关关系,并理解人工智能系统的决策 rationale。through a training process, and then use this knowledge to tems. For this reason, there has been an increasing need to在操作期间对新实例进行准确推断。使用透明或已经开发了几种机器学习方法 , 开发人员和其他相关人员可以理解 -and used extensively in diverse practical applications. In holders such as regulators, managers, and end users. In其中一些应用 (例如 , [1 , 2 , 3 , 4]) 在模型尚不可解释的准确性情况下 , 通常机器学习模型的数量与设计解释其甚至超过了人类专家。深度学习方法和机器学习模. 可解释的人工智能(XAI) 目标 在实现这一目标时 , 通常比其他人获得更高的精度。型。然而,这种性能提升是以对数据需求过度增加为代价的。 1.2 可解释性或可解释性 ? 模型失败,最终能够使任何因设计不当或误用而导致损失的责任方承担责任。 可解释性和可理解性是密切相关的概念,这两个术语经常被互换使用。然而,几位作者(例如[5, 6, 7,8, 9])试图澄清它们各自的含义及其细微差别。尽管目前尚无统一的技术定义,但人们对这些术语大致含义并无争议。具体而言,可解释模型被认为是指那些突出输入空间与输出空间之间某些联系的模型,或者其预测机制明显且可以从其内部结构或工作原理中理解的模型。例如,稀疏决策树以直观的方式将输入映射到输出。相比之下,可理解性通常指模型(或其代理)能够通过逻辑规则、问答或类似丰富的人类可理解信息的方式提供明确描述其决策依据的能力。尽管在含义上存在差异,但在本文中我们松散地且互换地使用这些术语,这与文献中的常见做法一致。 ( 六) 模型调试[19], [20]: 机器学习系统的可解释性可以通过后续改进检测和纠正不良行为。这样的改进可以提高预测准确性,并防止模型从数据中学习到虚假相关性时可能出现的不良预测结果。这一问题被称为“ Clever Hans效应”[21],在机器学习中经常遇到。 1.4 重要的 XAI 概念 我们在本节简要介绍了可解释人工智能的一些最重要概念。这些概念在文献中以及本文中得到了广泛的应用。 1.范围:解释可以有一个全球or当地范围取决于其覆盖程度。全局解释提供了模型行为的一般见解,而局部解释则专注于解释单个预测。某些可解释性方法可以在同一时间解释全局行为和局部实例。 1.3 可解释 AI 的好处 在机器学习中使用 XAI 方法的一些最重要的好处和优势包括 : 1.透明度可解释的人工智能增强了机器学习系统的透明度,促进利益相关者的理解。了解人工智能系统的工作原理使开发者和用户能够最大限度地发挥其优势并最小化潜在风险。 2.适用性: 一种可解释性方法被描述为模型 - 不可知如果其实施与所解释的模型无关,则可以独立于该模型进行实施。另一方面,模型特定的方法使用的技术在其所应用于的机器学习模型中具有特定实现方式。一个优点是特定于模型的可解释性方法的一个优势在于该方法可能允许将机器学习模型的细节纳入其中,以获得更好的和更定制化的解释。然而,某些技术可能会以损害预测性能的方式干扰原始的黑盒模型。总体而言,模型无关的可解释性方法更具通用性,可以在不“打开”模型的情况下应用于任何黑盒模型。 1.Trust理解机器学习模型的决策能够增强对这些系统的信任,并增加决策者在关键任务应用中采用它们的意愿。 2.公平可解释性方法可以帮助揭露模型预测中的偏见,从而确保最终决策对所有利益相关者(无论性别、种族、宗教或任何受压迫群体)都是公平的。 3.实施阶段:可解释性方法可以在机器学习系统的不同阶段被集成。这导致了两大类方法:Post - hoc解释性和ante - hoc可解释性Post - hoc解释方法在训练模型之后应用。大多数可解释性人工智能(XAI)技术属于这一类。后 hoc 可解释性的关键思想是在不干扰的情况下解释模型的行为。然而,这种方法可能会牺牲忠实度,因为解释可能并不总是遵循预测的真实推理逻辑。Ante - hoc可解释性技术 (例如 , 概念瓶颈模型 [22] 寻求赋予模型 1.安全可解释的人工智能可以揭示不符合安全要求的机器学习系统的运行行为,从而在部署前甚至部署后解决这些问题,最终提高安全性。类似地,可解释性还可以帮助确保机器学习模型遵循伦理标准和良好实践。 1.Accountability当机器学习模型的决策导致灾难性后果时,模型解释可以帮助确立这些决策的理由或理解其原因。 模型通常倾向于在准确性和可解释性之间呈现相反的趋势,即准确性越高,可解释性越低。这一准确性和可解释性的权衡关系如图2所示,是一种广泛研究的现象[23], [24], [25],并且有一些努力[26], [27]旨在仔细平衡这些相互冲突的目标。 通过在训练或设计阶段同时学习用于分类和影响预测的特征来解释可解释性。该方法增强了模型的忠实度,但其中一些技术可能施加额外的约束,最终损害预测准确性。 一些作者分类ante - hoc可解释性方法作为 i固有的然而,尽管这些模型在设计时获得了可解释性,它们仍需要在设计中进行明确的干预才能实现这一点,这与真正的可解释性模型不同。固有的可解释的模型。图 1 说明了 XAI 中的一些 1.6 动机和工作大纲 由于可解释人工智能在实践中的重要性以及相关工作的不断增加,该领域存在许多权威综述(例如[28]、[29]、[30]、[31]、[32])。此外,还有一些综述专门讨论大型语言模型[33]、[34]或特定领域如医疗或健康应用[35]、[36]、[37]。另外,最近的一项研究[38]回顾了利用各种形式的先验知识表示(包括逻辑规则和知识图谱)与大语言模型来提高深度学习模型解释性的最新方法。这项研究还讨论了使用先验知识提高对抗鲁棒性和零样本泛化的技术。尽管该领域的综述文献众多,但大多数现有工作主要关注更通用的解释性概念,并通常提供高层次的方法描述。只有少数几项工作(例如[29]、[32])提供了足够的深度或详细地介绍了具体的技术(这包括解释其工作原理或明确突出其优缺点)。此外,据我们所知,目前没有综述——即使是提交本文时最新发表的研究——涵盖了该领域的一些新兴但极为重要的发展。特别是,没有任何研究强调视觉语言模型和大型语言模型在增强和自动化其他黑盒模型解释性方面的日益增加的应用。鉴于这些原因,我们旨在通过全面介绍并讨论这些方法的相关问题来填补这一空白。我们对所有解释性方法类别进行了综合回顾。在这篇文章中,我们特别为使用视觉语言模型和大语言模型进行解释性处理的方法分配了一个完整的部分(第5节)。此外,我们还详细呈现了一些最受欢迎方法的定量结果。 重要概念。 1.5 准确性与可解释性 固有的或内在的可解释模型相对简单,由于这一特性,其预测的基础可以直观理解。不同模型家族的内在可解释性程度不一,如图2所示。最具有可解释性的模型家族包括规则集、决策树和线性模型。由于其简洁性,这些模型通常在复杂任务上表现出中等或较低的准确度。 本文结构如下:第1部分概述了研究的总体介绍。第2部分涵盖了固有可解释框架,包括其关键原则、挑战和解决方案。第3部分介绍了解释通用黑盒模型的方法。第4部分详细介绍了大型语言模型的可解释性。在第5部分中,我们介绍了利用视觉语言和大型语言模型来改进和自动化可解释AI的技术。第6部分讨论了重要问题、当前状态以及未来可能的发展和所需的发展。在第7部分中,我们通过总结重要观点来总结工作。本工作的更详细大纲见图3。 另一方面,较大的且更为复杂的数据模型如深度神经网络能够从高维度的训练数据中捕捉到有价值的信息,从而实现令人印象深刻的准确率,但它们的决策过程并不容易被利益相关方理解,因此被称为“黑箱”模型。不透明or黑匣子模型。如图 2 所示 , 机器学习的可解释性和准确性 - 2 白盒模型的内在互动性 贝叶斯网络等。我们在这里描述最受欢迎的。 研究可解释的人工智能正因该领域的重要性和其所带来的机会而逐渐获得越来越多的关注。然而,一些模型由于其设计本身就已经具有内在的可解释性。换句话说,这些模型本身就是自解释的,允许开发者或用户无需进行额外修改即可了解其内部工作机制或决策逻辑。这些固有的可解释性或白色盒子模型广泛应用于各种机器学习任务中。由于可解释性是模型固有的特性,因此解释更有可能忠实地反映模型的决策过程。此外,在确保可解释性方面不需要额外的设计或训练时间。这类模型包括线性模型、广义可加模型、决策树等。 2.1 线性模型的可解释性 线性模型是一类机器学习框架,用于捕捉描述相关属性及其伴随的系数或权重,以指定每个特征的相对强度。对于线性模型,如简化方程[1]所示,每个特征的贡献为()。x,x等) 到最终预测y can1 2通过观察相应的系数 (k,k等) 对特征或描述符进行加权 -1 2在等式中a是基线。幅度和0系数分别描述特定特征对模型预测影响的程度和方向(即,该特征值增加是降低还是放大了结果)。 分数匹配并将协变量视为额外的输入变量。 除了模型的复杂性或大小外,线性模型的可解释性还取决于输入特征的意义。然而,在某些应用领域中,原始特征值可能并不容易从人类的角度提供相关信息。此外,在输入维度高或表示低级特征的应用中,理解模型决策中单个输入单元的重要性对人类来说变得具有挑战性。例如,在图像分类中,像素是处理以确定结果的基本变量。然而,单独的像素并不能提供与模型决策相关的线索。进一步地,专注于单个像素进行可解释性的方法可能会受到来自不影响给定图像感知质量的像素值变化所引起噪声的影响。 因此,这类模型的可解释性直接源自其内在组件和对输入数据的理解。然而,在大多数实