来自经验反馈的强化学习:在经济政策中的应用 TohidAtashbar WP/24/114 货币基金组织工作文件描述了作者正在进行的研究,并发表了这些论文,以引起评论并鼓励辩论。 国际货币基金组织工作文件中表达的观点是 不一定代表国际货币基金组织、其执行董事会或国际货币基金组织管理层的观点。 2024 JUN ©2024国际货币基金组织WP/24/114 IMF工作文件 战略、政策和审查部 来自经验反馈的强化学习:在TohidAtashbar制定的经济政策中的应用* EugenioM.Cerutti授权发行2024年6月 货币基金组织工作文件描述了作者正在进行的研究,并发表了这些论文,以引起评论并鼓励辩论。基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执行董事会或基金组织管理层的观点。 摘要:从过去学习对于塑造未来至关重要,尤其是在经济决策方面。在将强化学习(RL)应用于大型语言模型(LLM)的当前方法的基础上,本文介绍了来自经验反馈的强化学习(RLXF),该过程基于过去的经验来调整LLM。RLXF以两种关键方式将历史经验整合到LLM培训中-通过在历史数据上训练奖励模型,并使用该知识来微调LLM。作为案例研究,我们应用RLXF来调整使 用IMF的MONA数据库的LLM,以生成具有历史基础的政策建议。结果表明,RLXF具有为生成AI配备细致入微的视角的潜力。总的来说,RLXF似乎可以为经济政策提供更明智的LLM应用,但这种方法并非没有严重依赖历史数据的潜在风险和局限性,因为它可能会延续偏见和过时的假设。 推荐引用:T.Atashbar。2024。“从经验反馈中强化学习:在经济政策中的应用”,国际货币基金组织工作文件,WP/24/114。 JEL分类号: C89;D83;O38 关键字: 法学硕士;GAI;RLHF,RLAIF; RLXF 作者的电子邮件地址: *作者要感谢MiraVessel,MohamedAfzalNorat,MartinSchindler和EugenioCerutti的有益意见和建议。也感谢来自IMFSPR和AFR部门的 AI工作组。我很感谢IMFSPR-MP演示文稿与会者的反馈和想法。任何错误都是我的。 工作文件 来自经验反馈的强化学习:在经济政策中的应用 作者:TohidAtashbar Contents 词汇表3 INTRODUCTION4 文献综述5 History 5LLM如何工作 6LLMDevelopment7 培训7 调谐7 对齐8 风险9 钢筋学习和LLMS9来自人类反馈的强化学习(RLHF)10来自AI反馈的强化学习(RLAIF)10 来自先前经验的强化学习(RLXF)11与人类和AI反馈对齐的差距11与人类经验保持一致的必要性12 方法12 案例研究14 设置14 Data15 模型16 Results17 潜力和陷阱:将RLXF应用于政策分析18 TABLES 1.语言强化学习方法的对齐利弊14 2.MONA的随机样本16 3.使用域特定信息和RL模型对LLM进行预/后微调18 Conclusion19 参考文献20 词汇表 AI人工智能 来自变压器BPE字节对编码的BERT双向编码器表示 GAI生成AI GPT生成预训练变压器HIRHindsight指令重新标记 LLM大型语言模型专家的MoE混合物 MONA监测资金安排PPO近端政策优化ReLU整流线性单元 ReST强化自我训练RL强化学习 来自AI反馈的RLAIF强化学习来自人类反馈的RLHF强化学习基于经验反馈的RLXF强化学习 Introduction 在决策中,从历史结果和现实世界的经验教训中学习对于制定务实的解决方案至关重要。如果不将过去的经验适当地纳入政策设计过程,政策就有可能在实施时构思不佳,肤浅或完全无效。通过彻底分析过去的政策成功和失败,政策制定者可以做出更明智的决定,从而有更大的机会产生预期的影响。 国际货币基金组织在诸如基金安排监测(MONA)数据库之类的数据集中拥有数十年的实际专业知识。这些数据集提供了有关IMF支持的经济计划的大量历史数据,包括定量目标,政策条件和结果。通过彻底分析这种经验,并将关键课程编码到如何训练和调整人工智能模型中,它们的输出可以更好地与经济政策制定的细微差别现实保持一致。 大型语言模型(LLM)凭借其熟练的文本处理能力,代表了AI的重大进步,为各个领域开辟了新的可能性。LLM越来越多地应用于政策问题,例如起草和总结,情景规划,集思广益和生成政策建议。通过利用其参数中编码的知识,LLM可以快速综合信息并提供有用的见解来指导政策决策。随着计算能力和模型规模的不断提高,LLM在政策分析中的有用性只会越来越大,政策制定者开始挖掘其潜力,以加强政策制定,治理和成果。 但是,至关重要的是要意识到与使用LLM进行政策评估和建议相关的潜在陷阱和风险。一个重要的问题是LLM对历史模式的固有偏见。由于语言模型是根据大量过去的数据进行训练的,因此它们往往会延续并强化嵌入在这些数据中的偏见和假设。在经济政策的背景下,这可能导致LLM赞成过时或不适当的政策,这些政策在过去有效,但可能不适合当前情况。 政策制定者必须谨慎,不要盲目遵循LLM建议,而无需严格审查其对当前情况的适用性。 另一个风险是LLM可能提供过于简单或简化的政策评估。虽然LLM可以处理和分析大量信息,但它们可能难以完全捕捉经济系统和政策影响的复杂性和细微差别。LLM可能会产生忽略重要的上下文因素,意外后果或分配效应的建议。过于依赖LLM输出而不考虑这些限制可能导致次优甚至有害的政策决定。 为了减轻这些风险,必须使用LLM作为人类专业知识和实证研究的补充,而不是替代。LLM的产出应该由领域专家仔细审查和验证 ,他们可以根据当前的经济现实评估他们的相关性和可行性。政策制定者还应该努力提高使用LLM的透明度,清楚地传达这些模型在决策过程中的作用,并承认它们的局限性。 将现实世界的课程系统地整合到LLM培训中对于使他们的产出与实际的政策智慧保持一致至关重要。一种方法是将有关政策案例研究和结果的精选数据集作为模型预训练过程的一部分。对编码领域知识的专家演示进行培训后微调是另一种有效的技术。使用定制和精心设计的少量或思想链(CoT)提示是另一种方法,可用于在推理过程中提取更多相关的输出。 强化学习(RL)提供了一种有前途的范例,用于以结合其他输入的方式对LLM进行微调。在RL中,模型通过与环境的试错交互来学习。以前,RL已被应用于将LLM与人类价值观对齐,以通过称为“来自人类反馈的强化学习(RLHF)”的过程使输出更有帮助,更少有害,在该过程中,人类审阅者和注释者对LLM输出进行评估和排名,以训练用于重新调整LLM的奖励模型。 在RLHF的基础上,整合了将RL应用于LLM的最新进展的见解,本文介绍了一个概念,其中RL利用过去的经验来构建奖励模型,随后完善LLM。我们将证明,通过在RL中设计奖励信号来编码先前政策课程的课程,在我们称之为经验反馈强化学习(RLXF)的过程中,LLM可以系统地将这些知识集成到他们的输出生成中。 在本文中,我们提供了应用所提出的技术来增强LLM以进行经济政策分析的案例研究。出于经济政策目的,我们应用RLXF来增强中等规模的开源LLM。使用IMF的MONA数据集和Meta的LLaMA2-7B1,我们将演示RLXF如何调整LLM以生成更实用和上下文化的见解。案例研究强调了将LLM扎根于人类经验的价值,以使其对政策问题有益。 我们认为RLXF在微调LLM以融入现实世界的知识方面可能具有独特的优势。与基于指令的调优(通常受到固定的人类演示的限制 )不同,RL允许模型通过试错学习探索更广泛的选择。与监督学习(可能会在其他风险中对文本进行优化)不同,RL将模型重点放在通过将经验中的见解直接编码为奖励信号来开发更深层次的能力。RLXF还可以有效地将细微差别的专业知识注入LLM,而无需持续的人为监督。与以前的RL方法(如RLHF)依赖于人类对输出的判断,或者最近使用AI创建奖励模型的方法中的有限规则集相比,这种方法可以在经济政策应用中提供更高效和可扩展的学习。通过基于历史数据或经验设计奖励信号,而不是人类反馈或一组做和不做,该模型可以从一组指数级更大的场景中学习,并无缝扩展,而不会对人类评估者造成瓶颈。这也可以提供一个有针对性的机制,向法学硕士灌输务实的技能和先前的历史教训。 总之,虽然LLM能够吸引自然语言,但政策的真正有用性除了智慧和价值观外,还需要与人类经验保持一致。仅仅就文本对他们进行培训可能会导致产出与现实脱节。像数据集策展,专家演示和基于经验的奖励的RL之类的技术,我们在其中介绍了为向LLM灌输实用知识的途径。目标不是将LLM拟人化,而是使它们能够提供实质性见解,以补充人类在政策角色中的专业知识。 在本文中,我们将首先回顾有关LLM如何工作的文献,并概述培训,调整和对齐方法。然后,我们将分析当前调整和调整方法中可能存在的差距,强调需要纳入现实世界的经验教训。接下来,我们将提出从经验反馈中获得强化学习作为一种方法,除了使用其他方法外,还可以帮助解决这些差距。最后,使用基金的MONA数据集,我们将介绍应用所提出的技术来增强经济政策分析的LLM的案例研究。案例研究将强调在人类经验中扎根LLM的价值,使其对政策问题有益。 文献综述 History LLM是一类基于深度神经网络的自然语言处理系统,在海量文本语料库上训练。LLM的历史可以追溯到2013年,当时像word2vec这样的单词嵌入模型(Mikolov等人,2013)证明了无监督/自我监督预训练的力量。然而,在OpeAI引入GPT之后,该领域在2018年开始腾飞,GPT是第一个基于变压器的LLM之一。从那时起,模型迅速扩展,最先进的LLM拥有超过数万亿的参数。这种增长是由模型架构、优化技术和计算基础设施的进步推动的。LLM现在涵盖了广泛的功能,包括但不限于文本生成,分类,摘要,翻译和问答。 1随着本文的定稿,引入了较新的模型,包括LLaMA3系列。本文概述的方法也适用于这些新模型。 变压器架构是在“注意就是你所需要的一切”中介绍的(Vaswai等人。2017年),显示注意力可以取代复发。GPT-1在“通过生成性预培训提高语言理解”中表现出强大的预培训迁移学习能力(Radford等人。2018)。BERT在“用于语言理解的深度双向变压器的预训练”中说明了训练双向模型和预训练的力量(Devli等人。2019年),GPT-3的论文“语言模型是少数学习者”(Brow等人。2020)。从那时起,许多新的封闭和开源LLM,如GPT,LLAMA,Clade,Mixtral,Gemii等。已经发展起来,显示出持续的进步。最近的快速进步表明LLM将继续改进和寻找跨语言任务的新应用程序2。 LLM如何工作 大型语言模型通常是使用Transformer体系结构构建的。Transformer由包含两个主要组件的块组成,这些组件在处理过程中一起工作: 多头注意机制允许模型关注输入序列的不同部分。使用多个并行注意头,每个计算查询和关键向量之间的兼容性分数。这些分数用于将值聚合为每个标记的更新表示。这通常表示为: Attention(,softmax( √𝑑� 函数Attention使用计算注意力分数Queries,K眼睛,和Values.�确定兼容性得分,而√缩放它们。通过softmax进行归一化后,分数会对Values进行加权以聚合相关信息。 前馈神经网络然后通过非线性提供深度。它们通常包括两个围绕非线性激活函数的仿射变换,如整流线性单元(ReLU): FFN()=(0,W1+1)W2+2 WhereW1,W2是权重矩阵和1,2是偏见术语。 在处理之前,必须对原始文本输入进行标记化。标记化使用字节对编码(BPE)等技术将文本转换为较小的单元,如子