人工智能与宏观经济建模:在RBC模型中的深度强化学习 TohidAtashbar和Rui(Aruhan)ShiWP2340 国际货币基金组织工作描论述文研究内容作者(们)的进展,并已发表至 引发评论并鼓励辩论。IMF工作论文中表达的观点是作者(们)的,不一定 代表国际货币基金组织(IMF)及其执行董事会的观点或国际货币基金组织管理层。 2023 二月 2023国际货币基金组织WP2340 国际货币基金组织工作论文 策略、政策与审查部门 人工智能与宏观经济学建模:RBC模型中的深度强化学习,由TohidAtashbar和RuiAruhanShi准备。 授权由StephanDanninger分发,2023年2月 国际货币基金组织工作论文描述作者(们)正在进行的研究,并公开发表以征求评论和促进辩论。国际货币基金组织(IMF)工作报告中表达的观点为作者(们)的个人观点,并不必然代表IMF、其执行董事会或IMF管理层的观点。 摘要:本研究旨在构建一个基于基本强化学习的人工智能宏观经济学模拟器。我们在RBC宏观经济模型中采用了一个深度强化学习(DRL)方法(DDPG)。我们设定了两种学习场景,其中一种是不含技术冲击的确定性场景,另一种是随机场景。确定性环境的目的是将学习代理的行为与确定性稳态场景进行比较。我们证明在确定性和随机场景中,代理的选择都接近其最优值。我们还展示了不稳定学习行为的情况。这个AI宏观模型可能在未来的研究中通过向模型添加更多变量或部门或者通过整合不同的DRL算法来得到改进。 JEL分类编号:C63C54D83D87E37 强化学习;深度强化学习; 关键词:智能,强化学习;深度强化学习;学习算法;宏观模型,真实业务循环模真实商业周期;DDPG;深度确定性策略梯度; 演员评论家算法 作者电子邮件地址:tatashbarimforgashiimforg 推荐引用:AtashbarT和ShiRA2023“人工智能与宏观经济建模:深度”强化学习在RBC模型中的应用”,国际货币基金组织工作论文,WP2240。 型; 作者们想对StephanDanninger表示感谢,感谢他提出的有益评论和建议。我们感谢MicoMrkaic、DmitryPlotnikov、Sergidriguez以及国际货币基金组织(IMF)宏观政策部门春季政策研讨会的与会者所提供的观点和建议。对AllanDizioli的评论亦表示衷心的感谢。所有错误均由我们自行承担。 工作论文 人工智能与宏观经济建模:在RBC模型中的深度强化学习 由TohidAtashbar和RuiAruhanShi准备 目录 词汇表3 引言4 I文献综述概述5 第二一部个分实际商业周期(RBC)模型8 A住户 8B公司 9C函数形式和参数 10DAdeterministicsteadystate 10 III人工智能实验11 A实验一:确定环境15B实验II: 随机环境19C学习过程中遇到的 问题22 第四结章论24 附件IDDPG算法26 参考文献27 图表 图1机器学习中的SL、UL和RL 7 图2训练过程中的劳动小时数(200个回合) 17 图3训练和测试过程中的劳动小时数序列 17 图4劳动小时和消费稳态(SS)值距离18 图5生产冲击序列zt 19 图6100个测试期间模拟序列20 图7学前后(200个回合)劳动小时选择21 图8劳动小时和消费的确定性稳态(SS)距离22 图9输出和投资的确定性稳态(SS)距离22 表格 图10每单位劳动的产出 23 表图11R每BC单模位型劳的动基的本投参资数1 024 表2算法相关参数1 3 表3RBC模型的RL设置 15 词汇表 通用人工智能(AGI)、人工通用智能(ArtificialGeneralIntelligence)、人工智能(AI)人工智能 ANN人工神经网络DDPG深度确定性策略梯度DL深度学习DNN深度神经网络,DPG确定性策略梯度,DQN深度Q网络 ,DRL深度强化学习,MADDPG多智能体深度确定性策略梯度RBC实际商业周期RL强化学习 SACSoftActorCriticSL督导学习 TD3双延迟深度确定性策略梯度无监督学习 引言 宏观经济建模是构建一个描述宏观经济体系行为的过程。这个过程可用于开发对未来系统行为的预测,理解体系内不同变量之间的关系,或模拟行为。 人工智能(AI)是计算机科学的一个分支,涉及智能计算机系统的设计和开发。人工智能研究关注如何创建能够实现智能行为的程序,即与人类行为相关联的行为,如推理、学习、问题解决和自主行动。 这两者可以从概念上进行结合,因为人工智能技术可以用来开发更精确的宏观经济模型,或者有人可以使用宏观经济模型来帮助设计更善于模拟经济(或更广泛地说是社会)行为的人工通用智能系统,许多其他任务也是如此 。人工智能可以用来自动识别变量之间的关系,或者开发新的方式来表示经济体系。人工智能还可以用来开发从数据中自动学习的方法,这些方法可以用以提高预测的准确性。人工智能还可以用于开发更复杂的模型,这些模型考虑了更广泛的因素,包括非经济因素,如政治不稳定或天气模式。 越来越多的研究利用机器学习进行预测(Atashbar和Shi,2022年),除了优化、市场设计和算法博弈论的一些近期发展之外,但人工智能对经济学的影响,特别是在宏观经济建模领域,至今为止相对有限。这归因于多种因素的组合,包括该领域的相对较新,设计能够真实地模仿经济中人类行为的AI智能体的困难,缺乏可用于训练AI模型的可用数据,以及训练和运行大型宏观经济模拟所需的计算资源的短缺。 但是,随着新一代人工智能模型强化学习(RL)的出现,越来越多的人相信人工智能将对宏观经济建模产生变革性影响(Tilbury,2022)。这主要是因为与之前的AI模型相比,RL模型在模仿人类行为方面更适合。此外,RL模型在训练时所需的数据量要少得多(它们通过与环境的互动生成自己的数据),并且在特定设置或算法中可能在计算资源方面更加高效。 本论文的目标是构建一个相对简单且可扩展的基于强化学习(RL)的宏观经济模型,该模型能够生成与在理性预期假设下模型相当的现实宏观经济动态,同时不对经济主体施加如完美预见等不切实际的限制。该模型将作为未来政策实验扩展的原型,或根据特定或全球经济条件、冲击或数据进行定制以更好地匹配。 为此,我们在实际商业周期(RBC)宏观经济模型中实施了一种高级深度强化学习(DRL)算法(即深度确定性策略梯度(DDPG))。我们选择DDPG算法作为该基本模型的原因(同时考虑到模型未来可能的扩展)有以下几个(SuttonandBarto2018GraesserandKeng2019ZaiandBrown2020andPowell2021): 首先,它是一种现代强化学习算法,可应用于连续动作空间问题,这对于建模宏观经济变量至关重要。其次,它是一种可处理高维状态和动作空间的强化学习算法,这在宏观经济模型(例如,不同经济部门的数量)中很典型 。第三,算法中策略函数和值函数的分离允许在学习过程中独立分析每个组件。第四,DDPG算法是少数几种可应用于非平稳问题的强化学习算法之一,这在宏观经济建模中很常见。第五,它是一种可应用于非常长时间跨度问题的强化学习算法之一,这可能是宏观经济建模的重要考虑。第六,DDPG算法是少数几种在某些特定设置下可应用于部分可观察马尔可夫决策过程(POMDP)问题的强化学习算法之一。 换句话说,针对具有有限观察窗口或有限信息设置问题。这对于一些宏观经济建模工作可能很重要,因为观察窗口通常受到数据频率限制。最后,DDPG算法在强化学文献中各种具有挑战性问题上已被证明表现良好。然而,与其他强化学算法类似,DDPG算法也已知在某些设置中不稳定,如果学过程没有被适当调整,可能会导致发散。 我们发现,一旦学代表代理在多个模拟期间学后,RL增强RBC模型在理性预期假设下与RBC模型表现相似。这是从代表代理不理解经济结构、其偏好或经济如何随时间过渡阶段开始。然而,训练需要大量模拟期间,部分原因是因为代理需要生成自己经验以从中学。为了模拟与经验学期相匹配现实家庭行为,需要进一步校准参数,或将过去经验转移到学代理作为学起点。 这些鼓舞人心成果需要从多个角度来看待。除了我们模型结构具有基本(但可扩展)特性之外,我们 工作一个缺点也是RBC模型应用范围受限。商业周期变化仅通过外生生产率冲击进行传播。实际上技术冲击实证所暗示规模可能比RBC模型预测要小。失业也以一种过于简化方式解释:劳动与休闲之间跨时期替代解释了就业变化。为了使工人获得高效用,在生产力较强时期工作更多,而在生产力较弱时期工作较少会更好。然而,RBC模型是大多数应用于政策机构和中央银行中DSGE模型核心组成部分。它是可扩展,并且易于构建。它是众所周知并经过研究,因此可以轻松地比较学结果与现有理论。 我们希望这项工作将鼓励进一步研究AI和深度强化学在宏观经济问题中应用,并开辟将深度强化学与标准宏观经济模型相结合新研究方向。特别是,我们期望它能成为基金更高级应用基础和扩展,探索使用深度强化学进行宏观经济政策分析。 本文结构如下。第一部分提供了关于人工智能和强化学深度强化学在宏观经济政策中应用简要文献综述。第二部分描述了RBC模型。第三部分绍了DRL算法、环境、我们进行AI实验、结果以及学过程中问题,第四部分得出结论。 I文献综述概述 人工智能(AI)是计算机科学增长领域,专注于创造能够推理、学和自主行动智能计算机系统或机器。AI系统旨在模拟人类认知能力,例如学、解决问题和自然语言处理。 1956年,计算机科学家约翰麦卡锡(JohnMcCarthy)首次提出了“人工智能”这一术语(Andresen,200 2年)。人工智能研究高度跨学科,涉及计算机科学、心理学、神经科学、语言学、哲学和人类学等领域 。 有三个广泛AI系统类别(Goertzel,2007): 1窄人工智能或弱人工智能系统旨在执行特定任务,例如人脸识别或模型金融市场。2广泛人工智能或强人工智能系统旨在执行广泛任务,如推理和规划。3超级人工智能或人工通用智能(AGI)是假设人工智能系统,其智能与人类或超越人类智能。 人工智能已经在多个领域和行业中得到广泛应用,包括医疗保健、零售、金融、图像处理、自动驾驶等。人工智能在经济学中应用仍处于初级阶段,其应用尚未得到充分发展。尽管如此,一些理论家认为,迟早人工智能经济学家机器会在许多领域赶上甚至超越人类经济学家(Atashbar,2021a,2021b)。人工智能在经济学中 应用主要集中于预测和预测、市场分析和替代政策冲击分析。LuZhou(2021)、RuizRealetal(2021)、Goldfarbetal(2019)、Cao(2020)和Velosoetal(2021)探讨了人工智能在经济学和金融学中应用及其可能应用方式。 机器学(ML)是人工智能一个分支,它使用人工神经网络(ANN)从数据中学,而不需要明确编程。ANN是一种基于人工神经元或节点层连接数据驱动机器学方法。输入层接收输入数据,输出层产生输出。隐藏层通过调整节点之间连接权重来执行学。深度学(DL)是机器学一个子集,它使用深度神经网络(DNN)来模拟数据中复杂模式。DNN是一种具有深层架构ANN。这意味着神经网络不仅包含输入层和输出层 ,还包含一个或多个中间层,以添加更多非线性,以便在数据集中识别复杂模式。 机器学中学过程三个一般方法: 1监督学(SL):机器被提供一组训练数据,这些数据包括输入数据和期望输出。数据被标注。然后机器能够从这些数据中学和推广,以便为新数据生成期望输出。监督学主要应用包括分类、回归和预测。 2无监督学(UL):机器被提供一组输入数据,但没有期望输出。输入数据未经标记。然后,机器必须学会在数据中找到模式和关系,以生成期望输出。半监督学结合了监督学和无监督学。这意味着训练数据集既包含标记