
费尔南多·佩雷斯·克鲁兹和Hyun Song Shin 国际清算银行公告由国际清算银行的工作人员撰写,并不时由其他经济学家撰写,并由银行出版。这些论文涉及主题,并且具有技术性。其中表达的观点是作者的观点,不一定是国际清算银行的观点。作者感谢Loisa Wager的行政支持。 BIS公告系列的编辑是Hyun Song Shin。 该出版物可在BIS网站(www. bis. org)上获得。 © Bank for International Settlements 2024. All rights reserved. Brief excerpts may be replicated or translated provided thesource is stated. ISSN:2708 - 0420(在线)ISBN:978 - 92 - 9259 - 692 - 7(在线) 测试大型语言模型的认知极限 关键要点 当遇到逻辑难题时,需要对他人的知识和反事实进行推理,大型语言模型(LLM)显示出独特且揭示的失败模式。LLM在互联网上提供的谜题的原始措辞时表现完美,但在偶然的细节改变时表现不佳,暗示缺乏对潜在逻辑的真正理解。我们的发现并没有减损中央银行将机器学习应用于数据管理,宏观分析和监管/监督的重大进展。但是,他们确实建议在需要经济分析中严格推理的环境中部署LLM时应谨慎行事。 大型语言模型(LLM)令人眼花缭乱的技巧激起了公众的想象力。生成预训练变压器(GPT)和类似的LLM已经展示了一系列令人印象深刻的功能,从生成计算机代码和图像到解决复杂的数学问题。然而,即使用户对大型语言模型的精湛技巧感到眼花缭乱,一个经常出现的问题是他们是否“知道”或“理解”他们在说什么,或者-正如Beder和Koller(2020)所认为的-他们只是在广泛的训练过程中在互联网上遇到的模仿文本。这些问题不仅在知识哲学方面很重要,而且在评估LLM的最终经济影响方面可能至关重要。 设计自我意识的测试并不容易,但是有些问题只能通过掌握情境意识所需的推理来回答。本着这种精神,我们用所谓的谢丽尔的生日难题对GPT - 4(Achiam et al(2023))进行了测验。这是一个众所周知的逻辑难题,在2015年传播开来,并拥有自己的Wikipedia页面。1鉴于广泛的在线讨论,最新的LLM将遇到难题及其解决方案,作为其广泛的训练文本语料库的一部分。解决难题需要对知识进行推理(关于自己的知识和他人的知识),以及对形式进行反事实推理的复杂性:“p是错误的,但如果它是正确的,那么q也是正确的。. " 显而易见的是,虽然LLM在呈现谜题的原始措辞时完美无缺地解决了谜题,但当一些小的附带细节(如字符名称或特定日期)被更改时,它始终失败。具有讽刺意味的是,一旦该公告发布并在互联网上提供,该公告中报告的有缺陷的推理将很快得到纠正,因为正确的分析将成为LLM培训文本的一部分。尽管如此,本公告中的发现有助于强调LLM可能难以处理的一般问题,并对其产生更广泛的影响。 在需要严格推理的上下文中部署LLM。在讨论更广泛的课程之前,我们首先介绍这个难题及其解决方案。 谢丽尔的生日拼图 谢丽尔给她的两个朋友阿尔伯特和伯纳德设定了猜测她生日的任务。阿尔伯特和伯纳德之间的常识是谢丽尔的生日是10个可能的日期之一:5月15日,16日或19日; 6月17日或18日; 7月14日或16日;或8月14日,15日或17日。为了帮助大家,谢丽尔告诉阿尔伯特她的生日月份,同时告诉伯纳德她的生日月份。没有向他们传达任何其他信息。 从目前的情况来看,阿尔伯特和伯纳德都无法取得进一步的进步。他们也不能同意汇集他们的信息。但随后,阿尔伯特宣称:“我不知道谢丽尔的生日是什么时候,但我肯定知道伯纳德也不知道。听到这个声明,伯纳德说:“根据你刚才所说的,我现在知道谢丽尔的生日是什么时候了。反过来,当阿尔伯特听到伯纳德的这一声明时,他宣称:“根据你刚才所说的,现在我也知道谢丽尔的生日是什么时候。. " 问题:根据上面的交流,谢丽尔的生日是什么时候? 解决难题 从表面上看,阿尔伯特的第一个陈述似乎只是重申了阿尔伯特和伯纳德的无知。然而,经过仔细检查,阿尔伯特的第一个陈述是一个非常翔实的陈述-特别是他声明的后半部分:“我确信伯纳德也不知道。“它的信息量很大,因为它揭示了谢丽尔一定告诉阿尔伯特的内容。虽然伯纳德无知并没有增加新的信息,但阿尔伯特可以说伯纳德无知的事实是非常有用的。 图1 为了解释,以网格格式列出Cheryl生日的可能日期是很有用的,如图表1所示。在这个网格中,阿尔伯特被告知谢丽尔生日的月份,而伯纳德被告知谢丽尔生日的月份。因此,如果谢丽尔的生日是5月19日,阿尔伯特会被告知“梅”,伯纳德会被告知“ 19 ”。但是被告知“19 ”将使伯纳德立即得到正确的答案,因为只有一个可能的日期落在一个月的第19天。同样,如果谢丽尔的生日是6月18日,伯纳德可能会立即得出正确的答案,因为只有一个可能的日期落在每月的第18天。阿尔伯特的声明“我确信伯纳德也不知道”是非常有益的,因为它告诉我们阿尔伯特能够排除5月19日和6月18日。如果有人告诉他“5月”或“ 6月”,他不可能排除他们。因此,阿尔伯特可以断言伯纳德不知道的事实意味着他(阿尔伯特)没有被谢丽尔告知“五月”或“六月”。 这样,伯纳德就可以排除五月或六月的任何日期为谢丽尔的生日。图2. A中指出了消除的第一步,其中灰色阴影单元格表示已排除的日期。阿尔伯特的无伤大雅的陈述:“我肯定知道伯纳德也不知道”事实证明是非常有用的。它排除了10个可能日期中的5个。 现在考虑一下伯纳德的声明:“根据你刚才所说的,我现在知道谢丽尔的生日是什么时候了。”如果伯纳德被告知“14 ”,则不可能发表此声明,因为7月14日和8月14日都与被告知“ 14 ”相符。因此,伯纳德可以断言他知道答案的事实意味着他(伯纳德)没有被告知“14 ”。因此,7月14日和8月14日都可以消除,如图2中的灰色单元格所示。B. 最后,考虑阿尔伯特的最后声明:“根据你刚才所说的,现在我也知道谢丽尔的生日了。如果阿尔伯特被告知“八月”,他不可能发表这一声明,因为8月15日和8月17日都与被告知“八月”兼容。他(Albert)可以做出这种断言的事实意味着他没有被告知“Agst ”。因此,8月15日和8月17日可以划掉,如图2所示。C. 经过三轮淘汰,只剩下一个日期- 7月16日。这是唯一与Albert和Bernard的三项声明兼容的日期。谢丽尔的生日是7月16日。 将拼图摆到GPT - 4 谢丽尔生日之谜所涉及的推理需要在两个方面进行完善。首先,它利用意识参与高阶知识的陈述-即关于其他人知道或不知道的知识。2谢丽尔的生日需要复杂推理的第二个方面是,它要求我们有能力使用反事实进行推理-即形式的陈述:“p是假的,但如果它是真的,那么q也是真的。“能够处理反事实取决于推理者能够将一种结构强加给可能的世界— —既是我们的现实世界,也是其他未实现的可能世界。3 2认知逻辑(知识和可能性的逻辑)处理关于知识的推理。哲学家索尔·克里普克也许是在这种情况下最著名的(请参阅:e。维基百科。org / wii / Kripe _ sematic)。然后使用高阶知识对谜题的分析将如下进行。Albert可以区分图1中表格的行,而Berard可以区分列。事件“伯纳德知道答案”是集合{5月19日,6月18日},事件“伯纳德不知道”是其补充。因此,“阿尔伯特知道伯纳德不知道”的事件是{7月14日,16日,14日,15日,8月17日}。根据此事件的常识,事件“伯纳德知道答案”是{7月16日,8月15日,17日}。最后,事件“阿尔伯特知道伯纳德知道”是单例{7月16日}。有关这种类型的分析框架,请参阅Shi(1993)和Williamso(2000)有关知识推理背后的哲学。 3哲学家大卫·刘易斯通过可能的世界提供了反事实的规范分析。请参阅https: / / en. wikipedia. org / wiki / David _ Lewis _ (哲学家)。 三个测试与原始名称和日期 我们提出了Cheryl的生日的难题GPT - 4使用众所周知的2015年的措辞。在每一轮之后,我们清除内存并开始新的会话。在附件中,我们报告了三次试运行(图表A1至A3)。GPT - 4在所有三个运行中都完美无缺,在博览会上非常流畅和清晰。特别令人印象深刻的是展示的解释能力。GPT - 4给出的解释遵循不同的阐述风格,没有死记硬背的暗示。答案的风格多样性使GPT - 4参与与解决难题相关的真实推理和理解这一概念得到了信任。 三项测试附带更改名称和日期 在对原始措辞无懈可击的答案之后,然后将拼图的一个版本提交给GPT - 4,并附带修改了字符和月份的名称。和以前一样,我们在每一轮后都刷新了记忆,这样以后的答案就不会受到早期交流的影响。拼图的调整日期在图3中列出,其中月份的日期是相同的,但是月份是新的并且已经被扰乱。鉴于拼图的相同结构,解决方案是4月16日。对问题背后的逻辑的真正理解在解决问题的新版本中不会出现任何困难。然而,这种偶然的变化导致GPT - 4性能的急剧恶化。 “这意味着乔尼的生日不能是五月或六月,因为如果是的话,乔恩就有可能知道生日(如果他被告知'18'或'19',这是给定列表中的独特日子)。因此,我们可以消除10月19日,1月17日和1月18日。” GPT - 4仍然指的是“5月”和“ 6月”,即使这几个月没有出现在谜题中。这个错误似乎是一种“肌肉记忆”的形式,反映了GPT - 4接受的训练,正如5月和6月在谜题的原始措辞中所指出的那样。 更严重的是,GPT - 4在推理中出现了几个逻辑错误。声明“因此,我们可以消除10月19日,1月17日和1月18日”未能消除10月的其他日子。这暗示着反事实推理的失败。鉴于这一失误,在解决这一难题方面没有进一步的进展。但是,GPT - 4缺乏自己无知的自我意识,无法在这一点上停止。无论如何,它都会进行,并给出明确的答案,给出12月17日作为正确答案(当然,这是不正确的)。这次试运行突出了两个关键弱点。首先是未能适当地进行反事实推理。第二是意识到自己的无知的失败。较早的GPT版本和其他LLM的情况更糟,此处未报告其输出。 Exhibit A5使用新的措辞(内存被刷新)给出了第二次试运行的输出。同样,GPT - 4通过提到“May ”和“ June ”来屈服于肌肉记忆,即使这几个月没有出现在难题中。此外,GPT - 4在推理中出现了几个逻辑错误,并且未能 找到取得进展的必要步骤。然而,它再次缺乏意识到自己已经陷入僵局,并自信地提出了一个(不正确的)答案。在使用新措辞的最后一次运行中(如图表A6所示),GPT - 4在推理中出现了错误,就像在使用新措辞的前两次运行中一样,但不知何故绊倒了正确的答案- 4月16日-但没有提供推理。 面对原始措辞时的完美无瑕的逻辑与面对措辞偶然变化时的糟糕表现之间的对比非常惊人。很难消除这种怀疑,即即使GPT - 4正确无误(使用原始措辞),它也是由于措辞的熟悉而这样做的,而不是通过在分析中借鉴必要的步骤。在这方面,逻辑的明显掌握似乎是肤浅的。 中央银行用例的经验教训 中央银行的活动非常适合机器学习和人工智能(AI)的应用,反映了结构化和非结构化数据的充足可用性,以及需要复杂的分析来支持政策。甚至在人工智能成为流行评论和广泛迷恋的焦点之前,中央银行就已经在统计,宏观经济分析和监管/监督中早期采用机器学习方法(参见Arajo等(2022,2023))。本公告中的发现并没有减损在这些领域以及在人工智能的科学应用方面取得的切实和迅速的进展。 尽管如此,我们的发现确实表明,在需要谨慎和严格的经济推理的环境中部署大型语言模型时应谨慎行事。到目前为止的证据是,当前一代的LLM没有达到中央银行应用所需的高风险分析所需的