人工智能和宏观经济建模: RBC模型中的深度强化学习 拟Atashbar和鲁伊(Aruhan)史WP/23/40 基金组织工作文件描述了作者正在进行的研究,并发表这些研究以征求意见并鼓励辩论。 基金组织工作文件中表达的观点是作者的观点,不一定代表基 金组织、其执董会或基金组织管理层的观点。 2023 2月 ©2023年国际货币基金组织(imf)wp/23/40 国际货币基金组织的工作论文 战略、政策和审查部门 人工智能和宏观经济建模:由TohidAtashbar和Rui(Aruhan)Shi准备的RBC模型中的深度强化学习 授权由斯蒂芬·丹宁格于2023年2月分发 基金组织工作文件描述了作者正在进行的研究,并发表这些研究以征求意见并鼓励辩论。基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执董会或基金组织管理层的观点。 文摘:本研究旨在构建一个基于强化学习的基本人工智能宏观经济模拟器。我们在RBC宏观经济模型中使用深度RL(DRL)方法(DDPG)。我们设置了两个学习场景,其中一个是没有技术冲击的确定性,另一个是随机的。确定性环境的目标是将学习代理的行为与确定性稳态方案进行比较。我们证明了在确定性和随机性场景中,代理的选择都接近其最佳值。我们还介绍了不稳定学习行为的案 例。这种人工智能宏观模型可以在未来的研究中通过向模型添加额外的变量或扇区或通过合并不同的DRL算法来增强。 建议引用:阿塔什巴尔,T.和Shi,R.A.2023。“人工智能和宏观经济建模:RBC模型中的深度强化学习”,基金组织工作文件 ,WP/22/40。 冻胶分类数字: C63C54;D83;D87;E37 关键词: 强化学习;深度强化学习;人工智能,RL;DRL;学习算法;宏观建模,RBC;真实的商业周期;DDPG;深度确定性政策梯度;演员-评论家算法 作者的电子邮件地址: tatashbar@imf.org;ashi@imf.org *作者要感谢StephanDanninger的有益意见和建议。我们赞赏MicoMrkaic,DmitryPlotnikov,SergioRodriguez以及国际货币基金组织SPR宏观政策司Brownbag研讨会的与会者提供的意见和建议。AllanDizioli的评论也得到了感谢。所有错误都是我们自己的。 工作底稿 人工智能和宏观经济建模:RBC模型中的深度强化学习 由拟Atashbar和鲁伊(Aruhan)史 内容 I. II. A. B. C. D. III. A. B. C. IV. 数据 图1所示。SL,UL和RL毫升7 图2培训期间的工时(200集)17 图3训练和测试期间的工时序列17 图4工时和消耗的稳态(SS)值的距离18 图5的生产率变化系列zt型19 图6100个测试周期的模拟序列20 图7学习前后的工时选择(200集)21 图8工时和消耗到确定性稳态(SS)的距离22 图9产出和投资到确定性稳态(SS)的距离22 图10每单位产出劳动力23图11投资单位劳动24 表 表1。基线参数RBC模型10表2算法相关参数13 表3RL15RBC模型的建立 术语表 AGI通用人工智能安人工神经网络 DDPG深度确定性策略梯度DL深度学习款深层神经网络 DPG确定性策略梯度DQN深度Q网络 drl深强化学习 MADDPG多智能体深度确定性策略梯度RBC真实商业周期 RL强化学习软Actor-Critic囊SL监督式学习td3双延迟DDPGUL无监督学习 介绍 宏观经济建模是构建描述宏观经济系统行为的模型的过程。此过程可用于开发有关系统未来行为的预测,了解系统中不同变量之间的关系或模拟行为。 人工智能(AI)是计算机科学的一个分支,涉及智能计算机系统的设计和开发。人工智能研究涉及如何创建能够进行智能行为的程序的问题,即与人类相关的行为类型,例如推理、学习、解决问题和自主行动。 这两个领域可以在概念上结合起来,因为人工智能技术可以用来开发更准确的宏观经济模型,或者可以使用宏观经济模型来帮助设计能够更好地模拟经济(或更广泛的社会)行为的人工通用智能系统,以及许多其他任务。人工智能可用于自动识别变量之间的关系,或开发表示经济系统的新方法。人工智能还可用于开发自动从数据中学习的方法,这些方法可用于提高预测的准确性。人工智能还可用于开发更复杂的模型,这些模型考虑了更广泛的因素,包括政治不稳定或天气模式等非经济因素。 除了优化、市场设计和算法博弈论方面的一些最新发展外,越来越多的工作利用机器学习进行预测(Atashbar和Shi,2022年),但人工智能对经济学的影响,尤其是在宏观经济建模领域,到目前为止一直不大。这是由多种因素共同造成的,包括该领域的相对较新 ,设计能够真实地模仿经济中人类行为的AI代理的困难,缺乏可用于训练AI模型的数据,以及缺乏训练和运行大型宏观经济模拟所需的计算资源。 但随着称为强化学习(RL)的新一代人工智能模型的出现,人们越来越相信人工智能将对宏观经济建模产生变革性影响(Tilbury,2022年)。这主要是因为RL模型比以前的AI模型更适合模仿人类行为。此外,RL模型需要训练的数据要少得多(它们通过与环境的交互生成自己的数据),并且在特定设置或算法中的计算资源方面可能更有效。 本文的目标是建立一个基于RL的相对简单和可扩展的宏观经济模型,该模型可以生成与理性预期假设下的模型相当的现实宏观经济动态,同时不会对经济主体施加不切实际的限制,例如完美的预见。由此产生的模型将用作未来政策实验扩展的原型,或对其进行定制以更好地匹配特定或全球经济的条件、冲击或数据。 为此,我们在真实商业周期(RBC)宏观经济模型中实施了先进的深度RL(DRL)算法(深度确定性政策梯度(DDPG))。我们为此基本模型选择了DDPG算法(着眼于未来模型的可能扩展),原因有几个(Sutton和Barto(2018),Graesser和Keng(2019),Zai和Brown(2020)和Powell(2021)): 首先,它是可以应用于连续动作空间问题的现代RL算法之一,这对于对宏观经济变量进行建模至关重要。其次,它是可以处理高维状态和行动空间的强化学习算法之一,这在宏观经济模型中是典型的(例如,不同经济部门的数量)。第三,算法中策略函数和价值函数的分离允许在学习过程中独立分析每个组件。第四,DDPG算法是为数不多的可以应用于宏观经济建模中常见的非平稳问题的RL算法之一 。 第五,它是为数不多的可以应用于具有很长时间范围的问题的强化学习算法之一,这对于宏观经济建模可能很重要。第六,DDPG算法是为数不多的可以在特定设置中应用于部分可观察马尔可夫决策过程(POMDP)问题的RL算法之一,或者, 换句话说,观察窗口有限或信息设置有限的问题。这对于一些宏观经济建模工作可能很重要,因为观察窗口通常受到数据频率的限制 。最后,在RL文献中,DDPG算法已被证明在各种具有挑战性的问题上表现良好。但是,与其他RL算法类似,DDPG算法在某些设置中也不稳定,如果学习过程未正确调整,则可能会发散。 我们发现,一旦学习代表代理学习了许多模拟周期,RL增强RBC模型在理性预期假设下的表现与RBC模型相似。这是从代表代理人不了解经济结构、其偏好或经济如何随时间过渡的阶段实现的。但是,训练需要大量的模拟周期,部分原因是代理需要生成自己的经验才能从中学习的机制。为了模拟与经验学习期相匹配的真实家庭行为,需要进一步的工作来校准参数,或将过去的经验转移到学习代理作为学习的起点。 需要正确看待这些令人鼓舞的结果。除了我们模型结构的基本(但可扩展)特征外,我们工作的一个缺点也是RBC模型的范围有限。商业周期的变化只能通过外生的生产率冲击传播。经验上隐含的真实技术冲击幅度可能小于RBC模型的预测。 失业也以过于简化的方式解释:劳动和休闲之间的跨期替代解释了就业变化。为了让工人获得高效用,最好在生产时期多工作,在非生产性时期少工作。然而,RBC模型是DSGE模型的核心组成部分,主要应用于政策机构和中央银行。它是可扩展的,并且易于构建 。它是众所周知和研究的,因此很容易将学习结果与现有理论进行比较。 我们希望这项工作将鼓励进一步研究人工智能和深度强化学习在宏观经济问题中的应用,并将开辟一个新的研究方向,将深度强化学习与标准宏观经济模型相结合。特别是,我们预计它将成为基金组织更高级应用的基础和延伸,这些应用探索使用深度强化信贷进行宏观经济政策分析。 本文的其余部分组织如下。第一部分简要综述了人工智能和强化学习/深度强化学习在宏观经济政策中的应用。第二节介绍RBC模型。第三节介绍了DRL算法、环境和我们进行的人工智能实验、结果以及学习过程中的问题,第四节总结。 I.文献的概述 人工智能(AI)是一个不断发展的计算机科学领域,专注于创建可以自主推理、学习和行动的智能计算机系统或机器。人工智能系统旨在模仿人类的认知能力,例如学习、解决问题和自然语言处理。 “人工智能”一词最早是由计算机科学家约翰·麦卡锡(JohnMcCarthy,Andresen,2002)于1956年创造的。人工智能研究是高度跨学科的,涉及计算机科学、心理学、神经科学、语言学、哲学和人类学等学科。 人工智能系统有三大类(Goertzel,2007): 1.狭义人工智能或弱人工智能系统旨在执行特定任务,例如面部识别或模拟金融市场。 2.通用AI或强AI系统旨在执行广泛的任务,例如推理和规划。 3.超级人工智能或通用人工智能(AGI)是匹配或超过人类智能的假设人工智能系统。 人工智能已经在多个领域和行业得到大量应用,包括医疗保健、零售、金融、图像处理、自动驾驶等等。人工智能在经济学中的应用仍处于早期阶段,尚未在其应用中得到充分发展。尽管如此,一些理论认为,人工智能经济学家机器迟早可以在许多领域赶上人类经济学家(Atashbar,2021a,2021b)。人工智能在经济学中主要用于预测和预测、市场分析和替代政策的影响分析。卢和周(2021 ),鲁伊斯-雷亚尔等.等人,(2021),戈德法布等。al.,(2019),Cao(2020)和Veloso等人,(2021)研究了人工智能如何/可以用于经济和金融。 机器学习(ML)是人工智能的一个分支,它使用人工神经网络(ANN)从数据中学习,而无需显式编程。ANN是一种数据驱动的机器学习方法,它基于人工神经元或节点的思想,这些神经元或节点在层中连接。输入层接收输入数据,输出层生成输出。中间的隐藏层通过调整节点之间连接的权重来执行学习。深度学习(DL)是机器学习的一个子集,它使用深度神经网络(DNN)对数据中的复杂模式进行建模。DNN是具有深度架构的ANN。这意味着神经网络不仅包含输入层和输出层,还包含中间的一个或多个层,以添加进一步的非线性,以便识别数据集中的复杂模式。 机器学习中的学习过程有三种常规方法: 1.监督学习(SL):为机器提供一组训练数据,其中包括输入数据和所需的输出。数据已标记。然后,机器能够从这些数据中学习和泛化,以便为新数据产生所需的输出。监督学习的主要应用是分类、回归和预测。 2.无监督学习(UL):机器提供一组输入数据,但不是所需的输出。输入未标记。然后,机器必须学习在数据中找到模式和关系,以产生所需的输出。半监督学习结合了监督和无监督学习。这意味着训练数据集既包含标记数据(即,每条输入数据都附加到所需的输出)和未标记的数据(即,输入数据未附加到所需的输出)。无监督学习的主要应用是聚类、降维 (例如,主成分)和关联规则学习。 3.强化学习(RL):它与监督和无监督学习的不同之处在于它没有一组训练数据。机器被赋予了一套规则或目标,它必须学习如何通过与环境的反复交互来最好地实现这些目标。强化学习的主要应用是控制、机器人、优化和游戏。 图1所示。SL,UL和RL毫升 资料来源:作者的建设 深度强化学习(DRL)是