行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

来自经验反馈的强化学习：在经济政策中的应用

2024-06-06国际货币基金组织尊***

来自经验反馈的强化学习：在经济政策中的应用 Tohid Atashbar WP / 24 / 114 货币基金组织工作文件描述了作者正在进行的研究，并发表了这些论文，以引起评论并鼓励辩论。国际货币基金组织工作文件中表达的观点是不一定代表国际货币基金组织、其执行董事会或国际货币基金组织管理层的观点。 2024JUN IMF工作文件战略、政策和审查部来自经验反馈的强化学习：在Tohid Atashbar制定的经济政策中的应用* 货币基金组织工作文件描述了作者正在进行的研究，并发表了这些论文，以引起评论并鼓励辩论。基金组织工作文件中表达的观点是作者的观点，不一定代表基金组织、其执行董事会或基金组织管理层的观点。摘要：从过去学习对于塑造未来至关重要，尤其是在经济决策方面。在将强化学习（RL）应用于大型语言模型（LLM）的当前方法的基础上，本文介绍了来自经验反馈的强化学习（RLXF），该过程基于过去的经验来调整LLM。RLXF以两种关键方式将历史经验整合到LLM培训中-通过在历史数据上训练奖励模型，并使用该知识来微调LLM。作为案例研究，我们应用RLXF来调整使用IMF的MONA数据库的LLM，以生成具有历史基础的政策建议。结果表明，RLXF具有为生成AI配备细致入微的视角的潜力。总的来说，RLXF似乎可以为经济政策提供更明智的LLM应用，但这种方法并非没有严重依赖历史数据的潜在风险和局限性，因为它可能会延续偏见和过时的假设。推荐引用:T. Atashbar。2024。“从经验反馈中强化学习：在经济政策中的应用”，国际货币基金组织工作文件，WP / 24 / 114。工作文件来自经验反馈的强化学习：在经济政策中的应用作者：Tohid Atashbar Contents 文献综述5History5L LM如何工作 LM Development7培训7调谐7对齐8风险9 钢筋学习和LLMS 9来自人类反馈的强化学习（RLHF）10来自AI反馈的强化学习(RLAIF)10来自先前经验的强化学习(RLXF)11与人类和AI反馈对齐的差距11与人类经验保持一致的必要性12 方法12 案例研究14设置14Data15模型16Results17潜力和陷阱：将RLXF应用于政策分析18 TABLES 1.语言强化学习方法的对齐利弊142.MONA的随机样本163.使用域特定信息和RL模型对LLM进行预/后微调18 20 词汇表 AI人工智能来自变压器BPE字节对编码的BERT双向编码器表示GAI生成AIGPT生成预训练变压器HIR Hindsight指令重新标记LLM大型语言模型专家的MoE混合物MONA监测资金安排PPO近端政策优化ReLU整流线性单元ReST强化自我训练RL强化学习来自AI反馈的RLAIF强化学习来自人类反馈的RLHF强化学习基于经验反馈的RLXF强化学习 Introduction 在决策中，从历史结果和现实世界的经验教训中学习对于制定务实的解决方案至关重要。如果不将过去的经验适当地纳入政策设计过程，政策就有可能在实施时构思不佳，肤浅或完全无效。通过彻底分析过去的政策成功和失败，政策制定者可以做出更明智的决定，从而有更大的机会产生预期的影响。国际货币基金组织在诸如基金安排监测（MONA）数据库之类的数据集中拥有数十年的实际专业知识。这些数据集提供了有关IMF支持的经济计划的大量历史数据，包括定量目标，政策条件和结果。通过彻底分析这种经验，并将关键课程编码到如何训练和调整人工智能模型中，它们的输出可以更好地与经济政策制定的细微差别现实保持一致。大型语言模型（LLM）凭借其熟练的文本处理能力，代表了AI的重大进步，为各个领域开辟了新的可能性。LLM越来越多地应用于政策问题，例如起草和总结，情景规划，集思广益和生成政策建议。通过利用其参数中编码的知识，LLM可以快速综合信息并提供有用的见解来指导政策决策。随着计算能力和模型规模的不断提高，LLM在政策分析中的有用性只会越来越大，政策制定者开始挖掘其潜力，以加强政策制定，治理和成果。但是，至关重要的是要意识到与使用LLM进行政策评估和建议相关的潜在陷阱和风险。一个重要的问题是LLM对历史模式的固有偏见。由于语言模型是根据大量过去的数据进行训练的，因此它们往往会延续并强化嵌入在这些数据中的偏见和假设。在经济政策的背景下，这可能导致LLM赞成过时或不适当的政策，这些政策在过去有效，但可能不适合当前情况。政策制定者必须谨慎，不要盲目遵循LLM建议，而无需严格审查其对当前情况的适用性。另一个风险是LLM可能提供过于简单或简化的政策评估。虽然LLM可以处理和分析大量信息，但它们可能难以完全捕捉经济系统和政策影响的复杂性和细微差别。LLM可能会产生忽略重要的上下文因素，意外后果或分配效应的建议。过于依赖LLM输出而不考虑这些限制可能导致次优甚至有害的政策决定。为了减轻这些风险，必须使用LLM作为人类专业知识和实证研究的补充，而不是替代。LLM的产出应该由领域专家仔细审查和验证，他们可以根据当前的经济现实评估他们的相关性和可行性。政策制定者还应该努力提高使用LLM的透明度，清楚地传达这些模型在决策过程中的作用，并承认它们的局限性。将现实世界的课程系统地整合到LLM培训中对于使他们的产出与实际的政策智慧保持一致至关重要。一种方法是将有关政策案例研究和结果的精选数据集作为模型预训练过程的一部分。对编码领域知识的专家演示进行培训后微调是另一种有效的技术。使用定制和精心设计的少量或思想链（CoT）提示是另一种方法，可用于在推理过程中提取更多相关的输出。强化学习（RL）提供了一种有前途的范例，用于以结合其他输入的方式对LLM进行微调。在RL中，模型通过与环境的试错交互来学习。以前，RL已被应用于将LLM与人类价值观对齐，以通过称为“来自人类反馈的强化学习（RLHF）”的过程使输出更有帮助，更少有害，在该过程中，人类审阅者和注释者对LLM输出进行评估和排名，以训练用于重新调整LLM的奖励模型。在RLHF的基础上，整合了将RL应用于LLM的最新进展的见解，本文介绍了一个概念，其中RL利用过去的经验来构建奖励模型，随后完善LLM。我们将证明，通过在RL中设计奖励信号来编码先前政策课程的课程，在我们称之为经验反馈强化学习（RLXF）的过程中，LLM可以系统地将这些知识集成到他们的输出生成中。在本文中，我们提供了应用所提出的技术来增强LLM以进行经济政策分析的案例研究。出于经济政策目的，我们应用RLXF来增强中等规模的开源LLM。使用IMF的MONA数据集和Meta的LLaMA 2 - 7B1，我们将演示RLXF如何调整LLM以生成更实用和上下文化的见解。案例研究强调了将LLM扎根于人类经验的价值，以使其对政策问题有益。我们认为RLXF在微调LLM以融入现实世界的知识方面可能具有独特的优势。与基于指令的调优（通常受到固定的人类演示的限制）不同，RL允许模型通过试错学习探索更广泛的选择。与监督学习（可能会在其他风险中对文本进行优化）不同，RL将模型重点放在通过将经验中的见解直接编码为奖励信号来开发更深层次的能力。RLXF还可以有效地将细微差别的专业知识注入LLM，而无需持续的人为监督。与以前的RL方法（如RLHF）依赖于人类对输出的判断，或者最近使用AI创建奖励模型的方法中的有限规则集相比，这种方法可以在经济政策应用中提供更高效和可扩展的学习。通过基于历史数据或经验设计奖励信号，而不是人类反馈或一组做和不做，该模型可以从一组指数级更大的场景中学习，并无缝扩展，而不会对人类评估者造成瓶颈。这也可以提供一个有针对性的机制，向法学硕士灌输务实的技能和先前的历史教训。总之，虽然LLM能够吸引自然语言，但政策的真正有用性除了智慧和价值观外，还需要与人类经验保持一致。仅仅就文本对他们进行培训可能会导致产出与现实脱节。像数据集策展，专家演示和基于经验的奖励的RL之类的技术，我们在其中介绍了为向LLM灌输实用知识的途径。目标不是将LLM拟人化，而是使它们能够提供实质性见解，以补充人类在政策角色中的专业知识。在本文中，我们将首先回顾有关LLM如何工作的文献，并概述培训，调整和对齐方法。然后，我们将分析当前调整和调整方法中可能存在的差距，强调需要纳入现实世界的经验教训。接下来，我们将提出从经验反馈中获得强化学习作为一种方法，除了使用其他方法外，还可以帮助解决这些差距。最后，使用基金的MONA数据集，我们将介绍应用所提出的技术来增强经济政策分析的LLM的案例研究。案例研究将强调在人类经验中扎根LLM的价值，使其对政策问题有益。文献综述 History LLM是一类基于深度神经网络的自然语言处理系统，在海量文本语料库上训练。LLM的历史可以追溯到2013年，当时像word2vec这样的单词嵌入模型(Mikolov等人，2013)证明了无监督/自我监督预训练的力量。然而，在OpeAI引入GPT之后，该领域在2018年开始腾飞，GPT是第一个基于变压器的LLM之一。从那时起，模型迅速扩展，最先进的LLM拥有超过数万亿的参数。这种增长是由模型架构、优化技术和计算基础设施的进步推动的。LLM现在涵盖了广泛的功能，包括但不限于文本生成，分类，摘要，翻译和问答。变压器架构是在“注意就是你所需要的一切”中介绍的(Vaswai等人。2017年），显示注意力可以取代复发。GPT - 1在“通过生成性预培训提高语言理解”中表现出强大的预培训迁移学习能力（Radford等人。2018)。BERT在“用于语言理解的深度双向变压器的预训练”中说明了训练双向模型和预训练的力量（Devli等人。2019年），GPT - 3的论文“语言模型是少数学习者”（Brow等人。2020）。从那时起，许多新的封闭和开源LLM，如GPT，LLAMA，Clade，Mixtral，Gemii等。已经发展起来，显示出持续的进步。最近的快速进步表明LLM将继续改进和寻找跨语言任务的新应用程序2。 LLM如何工作大型语言模型通常是使用Transformer体系结构构建的。Transformer由包含两个主要组件的块组成，这些组件在处理过程中一起工作：多头注意机制允许模型关注输入序列的不同部分。使用多个并行注意头,每个计算查询和关键向量之间的兼容性分数。这些分数用于将值聚合为每个标记的更新表示。这通常表示为: 函数Attention使用计算注意力分数Queries,K眼睛，和Values.𝑄确定兼容性得分，而√缩放它们。通过softmax进行归一化后，分数会对Values进行加权以聚合相关信息。前馈神经网络然后通过非线性提供深度。它们通常包括两个围绕非线性激活函数的仿射变换，如整流线性单元（ReLU）： WhereW1,W2是权重矩阵和1,2是偏见术语。在处理之前，必须对原始文本输入进行标记化。标记化使用字节对编码(BPE)等技术将文本转换为较小的单元，如子字单元。这减少了所需的词汇量。训练大型语言模型带来了计算挑战。扩展是指通过添加更多层、扩展层宽度或使用更大的训练数据集来增加模型容量。这提高了模型泛化和捕获复杂模式的能力。然而，它也增加了过度拟合的风险。像L2归一化这样的正则化技术向损失函数添加惩罚项以约束参数：这里,是最初的损失，是正则化系数，并且||表示模型参数的平方大小这种技术惩罚大的参数值以防止过拟合。训练损失通常是预测和真实令牌概率之间的交叉熵。优化算法，如随机梯度下降(e。Procedre，自适应矩估计- Adam）用于最小化损失并更新每个训练步骤的参数。可以采用诸如位置编码之类的其他技巧来提供顺序信息并更好地理解单词序列。 LLM Development 大型语言模型的功能源于其开发过程中的训练技术，调优程序和对齐机制的组合。LLM首先在大量文本数据集上进行训练，以开发广义语言表示。在预训练

点击免费查看完整报告