EXPLAINABLE人工智能(XAI):从内在解释到大语言模型 APREPRINT FuseiniMumuni∗AlhassanMumuni† 摘要 人工智能(AI)在近期继续取得巨大的成功。然而,这些框架的决策逻辑往往不够透明,这使得利益相关者难以理解、解释或解释其行为。这一限制阻碍了对机器学习系统的信任 ,并导致在实际应用中普遍缺乏对其采用的积极性,特别是在关键任务领域如医疗保健和自动驾驶等。可解释的人工智能(XAI)技术能够使机器学习模型的可解释性或可理解性增强,使用户能够识别决策的基础并可能避免不良行为。本文综述了可解释AI方法的发展 ,从固有的可解释模型到现代实现各种“黑盒”模型可解释性的方法,包括大型语言模型(LLM)。此外,我们还回顾了利用LLM和视觉-语言模型(VLM)框架来自动化或改进其他机器学习模型的可解释性技术。将LLM和VLM用作可解释性方法特别能提供高级别的、语义上有意义的模型决策和行为解释。在整个论文中,我们强调了最先进的方法的科学原理 、优势和局限性,并概述了不同的改进领域。在适当的情况下,我们还提供了不同方法的定性和定量比较结果,以展示它们之间的差异。最后,我们讨论了XAI的关键挑战以及未来研究的方向。 关键词 可解释的AI·LLM·LLM的可解释性·大型语言模型的可解释性·调查·可解释性方法综述 1介绍 1.1机器学习和可解释的AI 整体模型的复杂性模糊了机器学习系统的决策逻辑 。因此,大多数基于数据驱动的深度学习方法本质上具有黑盒性质,其中输入直接映射到预测结果。 可解释其预测的模型 arXiv:2501.09967v1[cs.LG]2025年1月17日 人工智能(AI)受到了极大的关注-没有任何附带信息显示行为或预测 .可解释的人工智能(XAI)目标 由于其巨大的权力和重新决定,最近的时间。然而,对于高利益的应用程序- 在医疗、金融和机器人等领域解决看似难以解决的问题方面展现出明显的潜在价值。跨越各种现实世界领域。机器学习是利益相关者了解底层的必要条件 使人工智能系统能够从数据中提取相关关系,并理解人工智能系统的决策rationale。 throughatrainingprocess,andthenusethisknowledgetotems.Forthisreason,therehasbeenanincreasingneedto在操作期间对新实例进行准确推断。使用透明或 已经开发了几种机器学习方法,开发人员和其他相关人员可以理解- andusedextensivelyindiversepracticalapplications.Inholderssuchasregulators,managers,andendusers.In其中一些应用(例如,[1,2,3,4])在模型尚不可解释的准确性情况下,通常 机器学习模型的数量与设计解释其 甚至超过了人类专家。深度学习方法和机器学习模在型实。现然这而一,目这标种时性,能提通升常是比以其对他数人据获需得求更过高度的增精加度。为代价的。 *矿业与技术大学(UMaT),加纳Tarkwa †海岸角技术大学,海岸角,加纳。 1.2可解释性或可解释性? 可解释性和可理解性是密切相关的概念,这两个术语经常被互换使用。然而,几位作者(例如[5,6,7, 8,9])试图澄清它们各自的含义及其细微差别。尽管目前尚无统一的技术定义,但人们对这些术语大致含义并无争议。具体而言,可解释模型被认为是指那些突出输入空间与输出空间之间某些联系的模型,或者其预测机制明显且可以从其内部结构或工作原理中理解的模型。例如,稀疏决策树以直观的方式将输入映射到输出。相比之下,可理解性通常指模型(或其代理)能够通过逻辑规则、问答或类似丰富的人类可理解信息的方式提供明确描述其决策依据的能力。尽管在含义上存在差异,但在本文中我们松散地且互换地使用这些术语,这与文献中的常见做法一致。 1.3可解释AI的好处 在机器学习中使用XAI方法的一些最重要的好处和优势包括: 1.透明度可解释的人工智能增强了机器学习系统的透明度,促进利益相关者的理解。了解人工智能系统的工作原理使开发者和用户能够最大限度地发挥其优势并最小化潜在风险。 1.Trust理解机器学习模型的决策能够增强对这些系统的信任,并增加决策者在关键任务应用中采用它们的意愿。 2.公平可解释性方法可以帮助揭露模型预测中的偏见,从而确保最终决策对所有利益相关者(无论性别、种族、宗教或任何受压迫群体 )都是公平的。 1.安全可解释的人工智能可以揭示不符合安全要求的机器学习系统的运行行为,从而在部署前甚至部署后解决这些问题,最终提高安全性。类似地,可解释性还可以帮助确保机器学习模型遵循伦理标准和良好实践。 1.Accountability当机器学习模型的决策导致灾难性后果时,模型解释可以帮助确立这些决策的理由或理解其原因。 模型失败,最终能够使任何因设计不当或误用而导致损失的责任方承担责任。 (六)模型调试[19],[20]:机器学习系统的可解释性可以通过后续改进检测和纠正不良行为。这样的改进可以提高预测准确性,并防止模型从数据中学习到虚假相关性时可能出现的不良预测结果。这一问题被称为“CleverHans效应”[21],在机器学习中经常遇到。 1.4重要的XAI概念 我们在本节简要介绍了可解释人工智能的一些最重要概念。这些概念在文献中以及本文中得到了广泛的应用。 1.范围:解释可以有一个全球or当地 范围取决于其覆盖程度。全局解释提供了模型行为的一般见解,而局部解释则专注于解释单个预测。某些可解释性方法可以在同一时间解释全局行为和局部实例。 2.适用性:一种可解释性方法被描述为模型-不可知如果其实施与所解释的模型无关 ,则可以独立于该模型进行实施。另一方面,模型特定的方法使用的技术在其所应用于的机 器学习模型中具有特定实现方式。一个优点是特定于模型的可解释性方法的一个优势在于该 方法可能允许将机器学习模型的细节纳入其中 ,以获得更好的和更定制化的解释。然而,某些技术可能会以损害预测性能的方式干扰原始的黑盒模型。总体而言,模型无关的可解释性方法更具通用性,可以在不“打开”模型的情况下应用于任何黑盒模型。 3.实施阶段:可解释性方法可以在机器学习系统的不同阶段被集成。这导致了两大类方法:Post-hoc解释性和ante-hoc可解释性Po st-hoc解释方法在训练模型之后应用。大多数可解释性人工智能(XAI)技术属于这一类 。后hoc可解释性的关键思想是在不干扰的情况下解释模型的行为。然而,这种方法可能会牺牲忠实度,因为解释可能并不总是遵循预测的真实推理逻辑。Ante-hoc 可解释性技术(例如,概念瓶颈模型[22]寻求赋予模型 通过在训练或设计阶段同时学习用于分类和影响预测的特征来解释可解释性。该方法增强了模型的忠实度,但其中一些技术可能施加额外的约束,最终损害预测准确性。 模型通常倾向于在准确性和可解释性之间呈现相反的趋势,即准确性越高,可解释性越低。这一准确性和可解释性的权衡关系如图2所示,是一种广泛研究的现象[23],[24],[25],并且有一些努力[26],[27]旨在仔细平衡这些相互冲突的目标。 一些作者分类ante-hoc可解释性方法作为i固有的然而,尽管这些模型在设计时获得了可解释性,它们仍需要在设计中进行明确的干预才能实现这一点,这与真正的可解释性模型不同。 深度学习 变压器 CNN RNN NAMs 随机森林 XGB SVM Decision树木 马尔可夫模型 线性模型 规则集 High High CRF 贝叶斯网络 固有的可解释的模型。图1说明了XAI中的一些重要概念。 性能 Low 可解释性 图2:不同家族的机器学习模型的准确性和可解释性关系。尽管该示意图捕捉到了准确率较低端的简单规则基础和线性模型,但需要注意的是,这一假设前提是这些模型应用于复杂问题。对于更简单的問題,这些简单模型也能取得竞争力的结果。 1.6动机和工作大纲 由于可解释人工智能在实践中的重要性以及相关工作的不断增加,该领域存在许多权威综述(例如[28] 、[29]、[30]、[31]、[32])。此外,还有一些综述专门讨论大型语言模型[33]、[34]或特定领域如医疗或健康应用[35]、[36]、[37]。另外,最近的一项研究[38]回顾了利用各种形式的先验知识表示(包括逻辑规则和知识图谱)与大语言模型来提高深度学习模型解释性的最新方法。这项研究还讨论了使用先验知识提高对抗鲁棒性和零样本泛化的技术。尽管该领域的综述文献众多,但大多数现有工作主要关注更通用的解释性概念,并通常提供高层次的方法描述。只有少数几项工作(例如[29]、[32])提供了足够的深度或详细地介绍了具体的技术(这包括解释其工作原理或明确突出其优缺点)。此外,据我们所知,目前没有综述——即使是提交本文时最新发表的研究——涵盖了该领域的一些新兴但极为重要的发展。特别是,没有任何研究强调视觉语言模型和大型语言模型在增强和自动化其他黑盒模型解释性方面的日益增加的应用。鉴于这些原因,我们旨在通过全面介绍并讨论这些方法的相关问题来填补这一空白。我们对所有解释性方法类别进行了综合回顾。在这篇文章中,我们特别为使用视觉语言模型和大语言模型进行解释性处理的方法分配了一个完整的部分(第5节)。此外,我们还详细呈现了一些最受欢迎方法的定量结果。 1.5准确性与可解释性 固有的或内在的可解释模型相对简单,由于这一特性,其预测的基础可以直观理解。不同模型家族的内在可解释性程度不一,如图2所示。最具有可解释性的模型家族包括规则集、决策树和线性模型。由于其简洁性,这些模型通常在复杂任务上表现出中等或较低的准确度。 另一方面,较大的且更为复杂的数据模型如深度神经网络能够从高维度的训练数据中捕捉到有价值的信息,从而实现令人印象深刻的准确率,但它们的决策过程并不容易被利益相关方理解,因此被称为“黑箱”模型。不透明or黑匣子模型。如图2所示,机器学习的可解释性和准确性- 本文结构如下:第1部分概述了研究的总体介绍。第2部分涵盖了固有可解释框架,包括其关键原则、挑战和解决方案。第3部分介绍了解释通用黑盒模型的方法。第4部分详细介绍了大型语言模型的可解释性 。在第5部分中,我们介绍了利用视觉语言和大型语 言模型来改进和自动化可解释AI的技术。第6部分讨论了重要问题、当前状态以及未来可能的发展和所需的发展。在第7部分中,我们通过总结重要观点来总结工作。本工作的更详细大纲见图3。 (a)透明模型 (b)带有事后解释的黑箱模型 Input 已学习的功能 热图 (c)带有事先说明的黑箱模型 Input x kok S x 1 1 y 2 k 2 归因得分 XAI算法 类标签:Car 已学习 特性和 概念 类标签概念得分 图1:(a)白盒模型、(b)和(c)可通过后hoc和antehoc方法解释的黑盒模型的示意图。圈内的数字说明了从输入到预测和解释的操作顺序。 6Discussions 7Conclusion SECTION1 Introduction 可解释的AI SECTION5 LLM的解释能力预测 o机器学习和可解释的AI o可解释性还是可解释性? o可解释AI的好处 oXAI重要概念 ouracyvs解释性 o动机和工作大纲 第2节第3节 SECTION4 o改进基于梯度的可解释性使用VLM o 使用LLM解释解释 固有的可解释性白盒模型 黑色的可解释性盒子模型 LLM的解释能力预测 o改进基于概念的学习 VLM和LLM oLLM辅助概念的比较 学习方法 o线性模型的可解释性 o广义加性模型的可解释性 o决策树的可解释性 o其他固有的可解释的方法 o特征归因概述 o方法 o基于梯度的方法 o梯度和CAM方法的忠实 o与模型无关的方法o基于注意力的方法o反事实解释 o基于案例的推理 o当地解释 o当地解释 o