行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

AI 安全的关键概念：机器学习中的可靠不确定性量化

信息技术2024-06-12CSET秋***

AI智能总结

AI 安全概述及不确定性量化挑战

引言与背景：

AI 发展与挑战：过去十年，机器学习研究取得了巨大进展，赋予了AI系统令人惊叹的能力，但同时也暴露出不可靠的问题。以ChatGPT为代表的人工智能系统展示了这种能力与不可靠性的紧张关系。

不确定性量化的概念：

核心思想：构建“知道自己不知道什么”的机器学习系统，即能够识别其预测错误可能性的系统。
挑战：设计能够识别自身局限性的AI系统比预想的更为复杂。

校准与不确定性量化：

校准：理想情况下，AI模型的置信度分数应与实际正确率相匹配。
不确定性量化：衡量模型在预测时的不确定性，旨在提高系统在面临未知情况时的安全性和可靠性。

分配转移与挑战：

定义：机器学习系统在不同环境下（数据分布变化）的表现差异。
挑战：难以准确检测、测量或定义分配转移，尤其是实际部署环境中的未知情况。

准确表征不确定性：

概率分数的局限：高概率分数不必然意味着高正确率。
缺失“以上都不是”选项：数据集限制了AI模型学习广泛的可能性。

解决方案概览：

确定性方法：通过训练调整模型以在某些输入上表现出高不确定性。
模型融合：集成多个模型以提高预测准确性和不确定性估计。
共形预测：提供数学保证的统计方法，但依赖于模型部署数据与训练数据来自同一生成过程的假设。
贝叶斯推理：数学原理框架，用于更新假设的概率，但计算上不可行在现代机器学习模型上精确实现。

实际应用考虑：

人机交互：解释不确定性估计，了解系统何时可能不可靠。
用户界面设计：影响不确定性估计的实际有用性。

展望：

未来研究：关注大型语言模型的不确定性量化，特别是语言生成的挑战。
技术发展：从基础研究向实际工程挑战转变，采用不同方法解决不确定性量化问题。

结论：

AI安全领域的不确定性量化是关键研究方向，旨在提升AI系统在复杂和不可预测环境中的可靠性和安全性。尽管存在挑战，现有的方法和技术正在逐步提高我们构建能够识别其“不知道”的AI系统的能力，这对未来的AI应用至关重要。

本文是“AI安全”系列文章的第五期，这是一个机器学习研究领域，旨在识别机器学习系统中意外行为的原因，并开发工具以确保这些系统安全可靠地工作。该系列中的其他论文描述了三类AI安全问题-鲁棒性，保证和规范问题。本文引入了不确定性量化的思想。Procedres.，训练机器学习系统“知道他们不知道的东西。." Introduction 机器学习研究的过去十年取得的进展已经产生了令人惊讶的能力，但众所周知也不可靠的系统。由OpeAI开发的聊天机器人ChatGPT很好地说明了这种紧张关系。在2022年11月发布后，与该系统进行交互的用户很快发现，虽然它可以巧妙地发现编程代码和作者Seifeld场景中的错误，但它也可能被简单的任务混淆。例如，一段对话显示，机器人声称最快的海洋哺乳动物是游eg，然后改变主意，选择旗鱼，然后回到猎鹰-尽管显而易见的事实是，这两种选择都不是哺乳动物。这种不平衡的性能是深度学习系统的特征-近年来取得了最大进展的AI系统类型-并对其在现实环境中的部署提出了重大挑战。处理这个问题的一种直观方法是构建“知道他们不知道什么”的机器学习系统，也就是说，可以识别和解释他们更有可能犯错误的情况的系统。例如，聊天机器人可以在其答案旁边显示置信度分数，或者自动驾驶汽车在发现自己无法处理的情况下发出警报。这样，系统在性能良好的情况下可能是有用的，而在性能不佳的情况下是无害的。这对于在各种环境中使用的AI系统尤其有用，例如大型语言模型（为ChatGPT等聊天机器人提供动力的技术），因为这些系统很可能会遇到与训练和测试不同的场景。不幸的是，设计能够识别其局限性的机器学习系统比乍一看更具挑战性。事实上，使机器学习系统能够“知道他们不知道的东西”——在技术圈中被称为“不确定性量化”——是机器学习中一个开放且广泛研究的研究问题。本文介绍了不确定性量化是如何工作的，为什么很难，以及未来的前景。可靠地量化不确定性的挑战原则上，我们想要构建的系统听起来很简单：机器学习模型通常会做出正确的预测，但可以指示其预测何时更可能不正确。理想情况下，这样的模型既不经常也不很少表明高度的不确定性。一个系统在它实际上可以很好地处理的情况下不断表达信心不足并不是很有用，但是如果系统有时在实际上即将失败时没有表明不确定性，那么这就违背了试图量化不确定性的目的。专家在这里使用“校准”的思想来描述期望的行为：机器学习模型分配给给定预测的不确定性水平-其“预测不确定性”-应校准到预测实际上不正确的概率。图1：校准曲线描述了置信度不足、近乎完美的校准和置信度过高图显示了自信不足(左)、校准良好(中央)和自信过度(右)的校准曲线。理想情况下，模型（在x轴上）表示的置信度应对应于预测正确（在y轴上）的机会。如果一个模型的预测比它的置信水平所暗示的更经常是正确的，那么它就是自信不足的模型（根据左边的图表），而对于一个过度自信的模型（在右边）则相反。资料来源：CSET。例如，假设一个医疗机器学习分类系统，它使用患者眼睛的扫描来预测患者是否患有视网膜疾病。1Ifthesystemiscalibrated,thenitspredictions—typicallyexpressedaspercentages—shouldcorresponsetothetrueproportionofdiseasedretinas.Thatis,itshouldbethecasethat 在预测表现出疾病迹象的视网膜图像中,有50%的机会,一半实际上是患病的,或者预测具有80%的概率表现出疾病迹象的十分之八的视网膜图像实际上是患病的,等等。分配的概率越接近评估数据中的实际比例，系统校准得越好。校准良好的系统是有用的,因为它允许用户考虑预测是正确的可能性。例如，医生可能会做出不同的决定，对扫描显示0.1％的疾病机会的患者进行进一步的测试和治疗，而扫描显示30％的机会-即使没有扫描将被归类为可能的疾病。了解分配移位构建一个能够在实验室中表达良好校准的预测不确定性的系统——虽然不是简单的——是可以实现的。挑战在于创建机器学习模型，当它们被部署在现实世界的混乱时，可以可靠地量化不确定性。这一挑战的根源在于一个被称为“分配转移”的想法。“这是指机器学习系统遇到的数据类型（“数据分布”）从一种设置变为另一种设置的方式。例如，使用旧金山道路数据训练的自动驾驶汽车不太可能遇到雪，所以如果同一辆车在冬季部署在波士顿，它将遇到不同的数据分布(包括道路上的雪)，使其更有可能发生故障。分配转移很容易非正式地描述，但很难准确地检测、测量或定义。这是因为很难预见和解释系统在实践中可能遇到的所有可能类型的分配转移。例如，如果在旧金山训练自动驾驶汽车的工程师计划在波士顿部署并考虑天气差异，那么管理起来相对简单。然而，在大多数情况下，不可能事先知道部署在混乱的现实世界中的系统可能会遇到什么样的意外情况-未知的未知情况。处理分布变化的需要使得量化不确定性变得困难，类似于现代机器学习系统中更广泛的泛化问题。尽管可以在实验室中对有限的一组数据点评估模型的准确性，但没有数学保证可以确保模型在部署时也能执行（i.Procedres.，即系统学到的东西将“泛化”到其训练数据之外)。同样，对于不确定性量化，也没有保证。一个看似校准良好的模型将在与训练数据有意义不同的数据点上保持校准。但是，虽然有大量的经验和理论文献关于模型如何推广到看不见的例子，但关于模型可靠地识别其不确定性应该很高的情况的能力的工作相对较少，这使得“不确定性推广”成为机器学习研究中最重要但相对未充分探索的领域之一。准确表征不确定性在上面的医学成像示例中，我们描述了用于分类的机器学习模型如何为每个类别产生概率（e。Procedre，患病和未患病)，但这样的概率可能不足以进行可靠的不确定性量化。这些概率得分指示模型预测给定输入对应于给定输出的强度。例如,用于读取邮政编码的图像分类器获取手写数字的图像,然后将分数分配给十个可能输出中的每一个(对应于图像中的数字为“0”、“1”、“2”等)。).具有最高分数的输出指示分类器认为最有可能在图像中的数字。不幸的是，这些分数通常不是模型不确定性的有用指标，原因有两个。首先，它们是训练过程的结果，该过程为模型优化以产生准确的输出，而不是校准的概率；2因此,没有特别的理由相信99.9%的分数可靠地对应于比95%的分数更高的输出正确的机会。其次，以这种方式设计的系统没有办法表达“以上都没有”——比如说，如果邮政编码阅读器遇到了一个错误在页面上飞溅。该模型在数学上被迫将概率分数分配给可用输出，并确保这些分数总和为1。3 这自然提出了一个问题，为什么不可能添加“以上都不是”选项。原因很简单：模型从数据中学习，并且由于上述分配转移的挑战，AI开发人员通常没有代表广泛可能性的数据，这些数据可以适合“以上都不是”选项。这使得训练能够一致地将输入识别为有意义不同的模型是不可行的。总而言之，使不确定性量化变得困难的核心问题是，在许多现实世界的环境中，我们无法清晰地阐明并为模型可能需要处理的每种情况做好准备。目的是为系统找到一种方法来识别可能失败的情况-但因为不可能将系统暴露在每一种可能表现不佳的情况下，不可能提前验证系统是否会适当地估计其在新颖的、未经测试的条件下表现良好的机会。在下一节中，我们将讨论几种尝试解决这一困难的方法。不确定性量化的现有方法不确定性量化的关键挑战是开发能够准确可靠地表达其预测正确的可能性的模型。已经开发了旨在实现这一目标的各种方法。一些方法主要将不确定性量化视为工程挑战，可以通过量身定制的算法和更多的训练数据来解决。其他人则寻求使用更多数学基础的技术，这些技术在理论上可以提供水密的保证，即模型可以很好地量化其自身的不确定性。不幸的是，目前不可能在不使用不切实际的假设的情况下产生这种数学保证。相反，我们能做的最好的事情是开发模型，在精心设计的实证测试中很好地量化不确定性。现代机器学习中不确定性量化的方法分为四个不同的类别： 1.确定性方法 2.模型融合 3.共形预测 4.贝叶斯推理这些方法中的每一种都有不同的优点和缺点，其中一些提供数学保证，而另一些在经验测试中表现特别好。我们在本节的剩余部分详细阐述了每种技术。如果下面的更多技术材料不感兴趣，欢迎读者跳到下一节。确定性方法确定性方法通过明确鼓励模型在训练期间对某些输入示例表现出高不确定性来工作。例如，研究人员可能首先在一个数据集上训练一个模型，然后引入一个不同的数据集，期望模型应该在没有训练的数据集中的例子上表达高度不确定性。使用这种方法会产生模型，这些模型对类似于训练的数据非常准确，并且表明其他数据的不确定性很高。4 但是，目前尚不清楚我们在实践中可以在多大程度上依靠这些研究成果。以这种方式训练的模型经过优化，可以识别出某些类型的输入超出了它们可以处理的范围。但是，由于现实世界是复杂且不可预测的，因此这种培训不可能涵盖输入超出范围的所有可能方式。例如,即使我们训练上述医学成像分类器以对表现出通常已知的图像损坏的图像具有高预测不确定性,如果模型在具有特定类型的设备的一家医院中获得的图像上训练,并且在具有不同类型的设备的另一医院中部署,则其在部署时仍然可能失败。因此，这种方法在部署模型时容易失败，并且没有已知的方法来保证预测不确定性估计实际上是可靠的。模型融合模型集成是一种简单的方法，它结合了多个经过训练的模型并对其预测进行平均。与仅使用单个模型相比，这种方法通常会提高预测准确性。集合的预测不确定性表示为不同预测的标准偏差，这意味着如果集合中的所有模型都做出类似的预测，那么不确定性就很低；如果它们做出非常不同的预测，不确定性就很高。集成方法通常在实践中成功地提供了良好的预测性不确定性估计，因此是一种流行的方法-尽管它们可能很昂贵，因为必须训练多个模型。使用集成进行不确定性量化的潜在机制是集成中的不同模型将可能在类似于训练数据的输入示例上达成一致,但可能在与训练数据有意义不同的输入示例上不一致。因此，当集合组件的预测不同时，这可以用作不确定性的替代。5 但是，无法验证此机制是否适用于任何给定的集成和输入示例。特别是，对于某些输入示例，集合中的多个模型可能都给出了相同的错误答案，这将给人一种错误的置信度印象，并且不可能确保给定的集合将全面提供可靠的，校准良好的预测不确定性估计。对于某些用例，集成通常提供相当好的不确定性估计的事实可能足以使其值得使用。但是在用户需要能够信任系统将可靠地识别可能发生故障的情况的情况下，集成不应被视为可靠的方法。共形预测与确定性方法和集成方法相反，共形预测是一种在统计上有充分依据的方法，它提供了数学可靠性保证，但依赖于一个关键假设：模型一旦部署将遇到的数据是由与训练数据相同的基础数据生成过程生成的（i。Procedres.，即没有分配转移)。使用该假设,共形预测可以提供给定预测范围包括正确预测的概率的数学保证。例如，在天气预报设置中，保形预测可以保证95%的可能性，即当天的最高温度将落在一定范围内。（也就是说，它可以提供数学保证，即100个类似预测中有95个将落在该范围内。).6例如，82ºF-88ºF的预测范围意味着比83ºF-85ºF的范围更大的不确定性。共形预测的主要优点是可以在数学上保证其预测不确定性估计在某些假设下是正确的。它的主要缺点是，这些假设-主要是模型在部署到其训练数据时会遇到类似的数据-通常不成立。更糟糕的是，通常无法检测到何时违反了这些假设，这意味着可能会触发确定性方法的相同类型的输入变化也可能导致共形预测失败。事实上,在机器学习模型容易失败并且我们希望找到改进不确定性量化的方法的所有示例应用问题中,将违反共形预测的标准假设。贝叶斯推理最后，贝叶斯不确定性量化使用贝叶斯推理，它提供了一个数学原理框架，用于在更多证据或信息可用时更新假设的概率。7贝叶斯推理可用于训练神经网络，

点击免费查看完整报告