您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[IMF]:深度强化学习:宏观经济学的新兴趋势和未来展望 - 发现报告
当前位置:首页/其他报告/报告详情/

深度强化学习:宏观经济学的新兴趋势和未来展望

2022-12-16IMF阁***
深度强化学习:宏观经济学的新兴趋势和未来展望

深度强化学习:宏观经济学的新兴趋势和未来展望 拟Atashbar和鲁伊(Aruhan)史WP/22/259 基金组织工作文件描述了作者正在进行的研究,并发表这些研究以征求意见并鼓励辩论。 基金组织工作文件中表达的观点是作者的观点,不一定代表基 金组织、其执董会或基金组织管理层的观点。 2022 12月 ©2022年国际货币基金组织(imf)wp/22/259 国际货币基金组织的工作论文 战略、政策和审查部门 深度强化学习:宏观经济学的新兴趋势和未来展望,作者:TohidAtashbar和Rui(Aruhan)Shi 授权由斯蒂芬·丹宁格于2022年12月分发 基金组织工作文件描述了作者正在进行的研究,并发表这些研究以征求意见并鼓励辩论。基金组织工作文件中表达的观点是作者的观点,不一定代表基金组织、其执董会或基金组织管理层的观点. 文摘:近年来,深度强化学习(DRL)在经济学中的应用一直是积极研究的领域。最近的一些工作已经表明,深度强化学习如何用于研究各种经济问题,包括最优决策、博弈论和有限理性。在本文中,在对深度强化学习和各种DRL算法进行理论介绍之后,我们概述了经济学中深度强化学习的文献,重点介绍了深度强化学习在宏观建模中的主要应用。然后,我们分析了深度强化学习在宏观经济学 中的潜力和局限性,并确定了需要解决的一些问题,以便深度强化学习在宏观建模中得到更广泛的应用。. 建议引用:T.阿塔什巴尔和R.A.施2022。“深度强化学习:宏观经济学的新趋势和未来前景”,货币基金组织工作文件,WP/22/259。 冻胶分类数字: C63,C89D85D87 关键词: 强化学习;深度强化学习;人工智能,RL;DRL;学习算法;宏建模 作者的电子邮件地址: tatashbar@imf.org;ashi@imf.org 工作底稿 深度强化学习:宏观经济学的新兴趋势和未来展望 由拟Atashbar,鲁伊(Aruhan)史 内容 I. A. B. C. II.经济深度强化学习:应用与新兴宏观经济趋势16 A.解决方案方法17 B. III.宏观经济学的深度强化:前景与问题19 A. B. IV. 附件 完整的算法25 数据 1.马尔可夫决策过程(强化学习问题)6 2.8RL和其他方法的比较 3.9RL算法概述 4.前馈深安13 5.工作流的RL算法14 6.可替换主体rl15 表 1。术语强化学习7 术语表 交流Actor-Critic A2C优势Actor-CriticA3C异步优势演员评论家 人工神经网络人工神经网络 CDRL因果很深的强化学习戴斯。莱纳姆:深度学习DRL深入强化学习 DDPG深决定性策略梯度DQN深问网络 MDP马尔可夫决策过程 毫升机器学习 RL强化学习 PPO近端政策优化 QRL量子强化学习撒尔沙State-Action-Reward-State-Action道明时间的差异 TRPO信赖域策略优化 介绍 人工智能(AI)技术广泛应用于许多领域。深度强化学习(DRL)作为人工智能的一个子集,是通过交互式学习解决复杂问题的最有效方法之一,并已广泛应用于机器人、自动驾驶、计算机视觉和自然语言处理等多个领域。DRL近年来取得了重大进展。这些进步是由深度学习(DL)和强化学习(RL)中各种方法的结合推动的,强化学习是机器学习(ML)的一个分支,涉及代理如何通过交互从环境中学习以最大化其奖励。这种组合可以为RL算法提供更具表现力,使它们更有能力从数据中学习和泛化。 DRL模型可以从多维和连续的状态动作空间以及非平稳的复杂和不断变化的环境中学习,这使得它们更有效。从理论上讲,这些模型还能够通过称为元学习的过程(机器学习)来改进自己的学习算法。 可以学习如何改善学习的技术,也称为“学会学习”,“从经验中学习”或“边做边学”。 强化倾斜和深度强化学习在经济学中的应用一直有限(但正在获得牵引力),主要是由于环境建模、设计最优奖励函数和求解高维经济模型的困难。 本文讨论了深度强化学习算法在经济学中的最新应用,同时以相对非技术性的术语介绍了强化学习(RL)和深度强化学习(DRL)的主要理论。然后,以宏观经济学为重点,探讨了这类算法的前景及其开放问题。 通过讨论经济学中深度强化学习算法的几个用例1,本文旨在阐明这类算法:如何使用它来回答现有问题并鼓励新的研究领域。 我。什么是强化学习和深度强化学习? 强化学习(RL)是一种机器学习,它允许代理通过采取行动并获得对其行动的奖励,在交互式环境中学习(主要通过反复试验)。深度强化学习(DRL)是一种强化学习,它使用深度神经网络来近似其值或策略函数,然后用于指导代理的决策。 强化学习不同于机器学习文献中的监督学习和无监督学习。监督学习需要一个标记的训练数据集,以便它可以用于衡量监督机器学习预测标记输出的能力。无监督学习方法主要用于没有标签的数据,以便对数据进行分类或查找结构。RL,然而,不需要在监督或无监督学习中看到的训练数据集。它从与所谓的“环境”的相互作用中学习。代理通过奖励函数学习,奖励函数是一种反馈机制,可以告诉 1机器学习技术和人工智能技术在经济学中的应用调查。Mosavi等人(2020)专注于神经网络的应用,而不是强化学习算法。Charpentier等人(2021)专注于经济和金融,但是他们的论文中没有包含很多实际的应用案例。Athey( 2018)讨论了机器学习对经济学的影响,并强调了使用机器学习方法的重要性和注意事项。她专注于有监督和无监督的机器学习方法,没有对强化学习算法进行太多讨论。Fisher(2018)对强化学习技术在金融市场中的应用进行了调查。 该算法,如果它正在做正确的事情并尝试在该环境中找到最佳响应。RL算法通过让RL代理与环境主动交互来生成模拟数据,并使用模拟数据或学习经验来解决RL问题。 A.短暂的历史 强化学习起源于行为主义,最初是作为解释动物学习行为的一种方式提出的。RL与心理学和神经科学密切相关。RL的早期发展涉及 AlanTuring,NorbertWiener和RichardBellman的作品。然而,直到1970年代,计算机科学家才开始广泛研究强化学习。 两部分文献在RL的发展中发挥了重要作用,可以追溯到它的婴儿期:第一个是时间差异更新(通过使用期望值和实际值之间的差异从经验中学习)和跟踪和错误学习(其中代理尝试不同的动作,以便在给定的情况下找到最佳行动或最大奖励),与动物学习心理学文献有密切联系;第二个是最优控制的文献,涉及动态规划(Sutton和Barto,2018)。 在早期的人工智能中,工程文献中的研究人员探索了跟踪和错误的概念。Minsky(1954)和Farley和Clark(1954)是最早研究计算技术中使用跟踪和错误的研究人员之一。Minsky(1961)开始使用术语“强化”和“强化学习”。他的论文讨论了强化学习的一个核心问题,即信用分配问题,即,你如何在可能涉及的许多决策中分配成功的信用? 在1950年代末和1960年代初,贝尔曼在工作中更加正式地将RL化,这成为动态编程的基础。最优控制首先用于描述设计控制器的问题,以最小化动态系统随时间推移的行为度量。贝尔曼(1957)是最早提出解决这个问题的解决方案的人之一,扩展了汉密尔顿和雅各比的早期理论。在贝尔曼的方法中,它使用最优返回函数,称为值函数或贝尔曼方程,通过求解该方程来解决最优控制问题。Klopf(1972)将试错学习与时间差分学习相结合。此外,他还将试错学习与动物学习心理学联系起来。Sutton和Barto(1981 )对此进行了扩展,他们将学习规则描述为由时间连续预测的变化驱动(因此时间差异更新)。他们还开发了一种基于时间差异学习的经典条件反射心理模型。 在1970年代和1980年代初,RL与控制理论和自适应控制相结合来描述代理的行为。在1980年代后期,RL进入了机器学习社区,在那里它被应用于简单的移动机器人和国际象棋等问题。Watkin(1989)将时间差分学习和最优控制文献相结合,开发了Q学习算法,这是第一个现代RL算法。 在1990年代初期,RL被应用于简单的问题,例如平衡倒立的钟摆和玩西洋双陆棋。1995年,Tesauro提出使用时间差分(TD)学习来玩西洋双陆棋游戏,并表明它可以实现人类的表现。Schultz等人(1997)探索了时间差异学习与神经科学之间的联系。同年,Schmidhuber提出了一种算法,用于学习高维机器人控制任务的复杂控制策略。同年,Sutton和Barto提出了一种名为Sarsa的算法,这是最流行的RL算法之一。 在1990年代中期,RL与函数近似相结合,使其能够应用于学习如何控制机器人手臂等问题。在1990年代后期,RL与人工神经网络相结合,使其能够应用于学习如何玩视频游戏等问题。在2000年代初期,RL与进化计算相结合,使其能够应用于学习如何控制机器人手臂等问题。 最后在2000年代后期,RL与深度学习相结合,使其能够应用于学习如何玩视频游戏或导航3D环境等问题。从那时起,深度强化学习引起了越来越多的兴趣,并已应用于机器人、医疗保健、金融和许多其他领域的许多任务。本文的其余部分将讨论经济学领域的最新应用。 B.理论 B.1强化学习问题和术语 强化学习涉及一类旨在解决马尔可夫决策过程(MDP)的算法。MDP是一种数学框架,用于在结果不确定的情况下对决策进行建模 ;部分随机,部分在决策者的控制之下。MDP可以被视为一种模型,通过考虑即时和长期回报,帮助代理在任何给定状态下做出最佳决策。RL中的环境通常建模为马尔可夫链,这意味着环境的下一个状态仅取决于当前状态,而不取决于过去的状态。这使得问题更容易解决,但代价是在现实世界中简化学习过程。 图1.马尔可夫决策过程(强化学习问题) page48来源:萨顿和Barto(2018) 图1显示了一个MDP。给定表示环境的状态,RL代理执行操作,并且状态部分由于代理的操作而转换到下一个状态。然后,代理将获得奖励。 在经济环境下,以简单的随机最优增长模型为例,代表性家庭可以是RL代理。状态可以是已实现的外生冲击和主体的可用资源,行动可以是消费投资的决定,回报可以是效用,这取决于消费水平。国家转换如何取决于经济的基础数据生成过程。在类似的情况下,国家可能是可能受家庭决策影响的所有关键因素的组合。行动空间是不同部门的投资金额。家庭的目标是最大化消费的累积效用。RL代理可以学习一种接近最优的策略,为不同部门分配投资,以最大限度地提高效用。 在另一个使用企业作为代理的例子中,代理可能是一家试图最大化其利润的公司。状态可以是当前的市场状况,例如投入和产出的价格,需求水平等。行动空间将是公司可以选择的不同生产水平。该公司的目标是学习一项政策,使其能够实现利润最大化。 表1。术语在强化学习 术语 描述 状态,� 从状态空间绘制的环境表示形式 行动,� 从操作空间中提取的RL代理的行为 奖励,￿ 发送给RL代理的刺激,部分原因是其作用和当前状态 政策功能,￿ 代理的决策策略,从状态到行动的映射(确定性策略)或分布操作(随机策略) 价值函数,￿(￿, 预期累积奖励,从状态-操作对到期望值的映射 表1总结了RL中使用的主要术语。状态是从状态空间绘制的环境的表示形式。操作表示代理的选择,从操作空间中提取。奖励是一种依赖于状态和行动的功能,是指导主体决策和学习的刺激。策略函数可以是随机的,也可以是确定性的,是RL代理的决策策略。随机策略返回给定状态的操作的概率分布。确定性策略返回给定状态的单个操作。动作-值函数,采用状态-动作对的输入,给出累积奖励(在期望中)。 RL代理的目标是找到最佳策略,即𝜋,这将最大化其奖励总和,该总和由值函数近似,如等式(1)所述。 饾湅鈭�=argmax饾憚(饾憼,饾憥) ￿ 1 value函数是一个状态-操作对,指示代理处于给定状态并执行给定操作的效果。值函数也称为状态操作值函