如何使用强化学习优化动态资产配置? ——“学海拾珠”系列之一百七十九 金融工程 专题报告 主要观点: 报告日期:2024-2-21 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:吴正宇 执业证书号:S0010522090001邮箱:wuzy@hazq.com 相关报告 1.《如何改进短期反转策略?——“学海拾珠”系列之一百七十》 2.《如何衡量基金产品创新与差异化 ——“学海拾珠”系列之一百七十一》 3.《低风险组合构建:基于下行风险的缩放策略——“学海拾珠”系列之一百七十二》 4.《基于端到端神经网络的风险预算与组合优化——“学海拾珠”系列之一百七十三》 5.《历史持仓回报会影响基金经理后续选股吗?——“学海拾珠”系列之一百七十四》 6.《基于残差因子分布预测的投资组合优化——“学海拾珠”系列之一百七十�》 7.《美元beta与股票回报——“学海拾珠”系列之一百七十六》 8.《基金经理技能之卖出能力的重要性——“学海拾珠”系列之一百七十七》 9.《高成交量回报溢价与经济基本面 ——“学海拾珠”系列之一百七十八》 本篇是“学海拾珠”系列第一百七十九篇,本文研究如何使用强化学习进行动态资产配置,特别关注投资约束和非平稳性方面的影响。作者首先探讨了将金融时间序列数据的非平稳性纳入强化学习算法的重要性,研究结果强调了在环境设置中引入如状态(regime)变化等特定变量 以提高预测准确性的重要性。此外,强化学习在配置策略中的优化条件设置上具有显著优势,使得可以将投资者面临的实际约束集成到算法中,从而实现有效的优化。 回到国内市场,机器学习和量化投资的结合当前大多应用于选股,资产配置领域的研究相对较少,本文对强化学习和动态资产配置的研究值得学习。 非平稳性与强化学习 本研究强调了在强化学习模型中纳入金融时间序列数据的非平稳性 的重要性,通过考虑市场状态变化等变量,显著提升了模型的预测性能。这表明,通过对市场动态和结构性变化的深入理解,强化学习模型能够更准确地捕捉到市场机会。 投资约束的集成 作者成功地将投资过程中遇到的各种实际约束集成到强化学习框架 中,包括风险管理、资金要求和交易成本等,展示了在满足这些约束条件下如何进行有效的资产配置。这一发现突出了强化学习在处理复杂投资决策问题时的灵活性和应用潜力。 通过强化学习优化动态资产配置 通过实证分析,本文展示了强化学习在动态调整资产配置以适应市 场变化中的有效性。特别是,研究通过考虑市场的非平稳性和实际投资约束,提出了一种能够在多变市场环境下优化投资组合表现的方法。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2相关研究4 3研究方法5 3.1数据预处理5 3.2学习技术5 4考虑状态变化的样本外回测6 4.1分析方法6 4.2回测结果6 5考虑投资约束的决策比较8 5.1分析方法8 5.2回测结果9 6结论14 风险提示:15 图表目录 图表1文章框架4 图表2回测的历年夏普比率7 图表3近十年的结果(横坐标:夏普比率)8 图表4投资组合优化中考虑的指标+和规则的例子9 图表5信号精度和性能9 图表6类别(1)的回测设置绩效管理指标列表10 图表7信号和行为11 图表8风险和资产偏好的变化#00211 图表9风险和资产偏好的变化#00312 图表10风险和资产偏好的变化#00412 图表11风险和资产偏好的变化#00512 图表12风险和资产偏好比率的变化#00613 图表13风险和资产偏好比率的变化#00713 图表14再平衡约束13 图表15信号精度和资产选择比率的变化14 图表16信号精度差和资产选择比14 1引言 图表1文章框架 资料来源:华安证券研究所整理 近年来,机器学习应用于投资策略的研究和开发取得了显著进展。这些研究方向主要分为两类:第一类是使用深度学习构建的模型来阅读或解释非结构化数据,如文本和图像;第二类是使用机器学习模型估计先前通过财务工程中的线性或统计模型估计的参数。后者的优势在于能扩展到非线性和更复杂的模型,如深度学习和集成机器学习,从而提供比传统模型更高维度上估计参数的可能性,因此可以构建操作性能更高的模型。投资组合经理使用典型量化方法的投资决策过程可以分为三个步骤:数据收集与处理、分析与信号生成以及投资组合优化。本研究聚焦于在投资决策制定阶段中如何应用机器学习和人工智能技术,即第三步。在这种情况下,基于对财务会计、法律和监管事务以及税务的多方面理解,寻找公司的最佳投资组 合变得必要,而不仅是追求理论上的高效投资组合。因此,本研究考察了强化学习方法在制定包含此类实际约束的最优投资组合中的应用价值。 2相关研究 强化学习是机器学习的一部分,设计用于学习顺序决策规则。强化学习的独特之处在于,它通过奖励来达成目标,并且在不完全了解其应用的系统或环境的情况 下,从数据中学习如何实现这些目标。在投资决策中,使用强化学习主要考虑的是 如何建模金融时间序列数据的非平稳性。这意味着均值、方差和协方差随时间不是常数,历史上曾观察到诸如阶段突变或波动率激增等多个事件。在强化学习中应对非平稳性的特定方法已在以往的文献中描述。 3研究方法 3.1数据预处理 本研究检验了通过决策重新平衡两种资产,即风险资产和无风险资产,来实现动态最优配置。使用的数据是从2000年4月到2023年3月的每日数据。作者选择 以美元计价的标普500总回报指数作为风险资产,以美元计价的美国国债指数总回报指数作为无风险资产,不考虑资金成本、交易成本和现金比率。 3.2学习技术 (1)学习技术 与第4章和第5章一样,本研究中强化学习模型学习的过程如下。强化学习涉及通过观察环境中的状态及其相应的行动来最大化奖励总和。为了分析每个状态的行为,使用基于表的强化学习方法,如SARSA和Q学习。 <SARSA更新表达式> 𝑄′�(𝑆�,𝐴�)=𝑄�(𝑆�,𝐴�)+α[𝑅�+𝛾𝑄�(𝑆𝑡+1,𝐴𝑡+1)−𝑄𝜋(𝑆�,𝐴𝑡)] <QLearning更新表达式> Q′(𝑆�,𝐴�)=Q(𝑆�,𝐴�)+α[𝑅�+𝛾max�𝑄(𝑆𝑡+1,𝑎)−𝑄(𝑆�,𝐴𝑡)] 这里的Q代表行动价值,R是即时奖励,S是状态,A是行动,α是学习率,γ是折现率。ε-贪婪方法被用来在每个研究周期中研究1000个 (2)行动 每年年初,风险资产和无风险资产各占50%,配置会以10%的比例变动。有三种可能的行动:[风险资产:+10%,无风险资产:-10%]、[权重不变]、[风险资产:-10%,无风险资产:+10%]。然而,如果权重已达到100%,即使选择增加权重,权重也不会变动。 (3)奖励 基本奖励是通过计算投资组合的夏普比率与基准投资组合的夏普比率之间的差值(包括年初至今和过去10天),然后将这些差值相加来确定的。对于基准投资组合,每年对于风险资产和无风险资产都固定权重的最高配置的夏普比率被确定。这种配置被视为回顾性确定的正确配置。 夏普比率的计算如下: � 𝑆�= σ 其中�代表投资组合回报率,�代表投资组合回报的标准差。无风险利率为0。时间t的基本补偿由以下公式给出: 𝑅𝐵𝑎𝑠�=(𝑆𝑅�−𝑆𝑅𝐵𝑀)+(𝑆𝑅10−𝑆𝑆𝑅𝐵𝑀,10) ���� 𝑆𝑅𝐵�是基准投资组合的夏普比率,𝑆𝑅10是根据过去10天的回报计算的夏普比 �� 率。在每次分析中,可能会向基本奖励添加额外的奖励,这将在后续详细描述。 (4)状态 每个分析案例的状态不同,将在后文详细描述。 4考虑状态变化的样本外回测 4.1分析方法 本章探讨了强化学习模型用于预测时,金融时间序列数据的非平稳性,特别是当均值和方差随时间变化时,如何影响预测能力。作者考虑了两种模型。第一种模型仅以风险资产和无风险资产的预期回报来定义状态空间。对于预期回报,简单地使用60日前的价格差异(动量)。基于资产动量的正负进行二元分类,并将状态空间划分为2x2的四个状态。第二种模型在状态变量中加入了风险资产和无风险资产之间的相关系数。相关系数是根据过去60日的日数据估计的。相关系数状态变量被划分为正相关/无相关/负相关三个状态,阈值为±0.2,并与预期回报结合,总共 形成12个状态。本章使用SARSA。第一个模型被称为基础模型,第二个模型被称为非平稳模型,并且与使用Q表作为随机变量的随机模型的回测评估也进行了比较。随机模型通过1000次生成随机Q表来衡量表现。 4.2回测结果 在学习期间,每个财年的4月到次年3月被用作一组,以估计每组的Q表。对于样本外回测验证,使用过去学习期间而非验证期间估计的Q表,并且未来期间的Q表不被应用。例如,在进行2018年4月到2019年3月的样本外回测验证时,计 算2000财年到2017财年研究期间估计的总共18个Q表的每个元素的平均值,使 用等权重。此外,再平衡频率为每日,且不考虑交易成本。表2比较了每年的样本外表现与基础模型、非平稳模型和随机模型的中位数。回测表现由夏普比率定义,即年化回报除以年化标准差。从2001年到2022年,非平稳模型的平均夏普比率高于基础模型,差异具有统计学意义。非平稳模型的平均夏普比率也优于随机模型的 中位数。比较每年的结果,回测期间的前半部分,即2000年代,非平稳模型表现 不如基础模型的年份比后半部分,即2010年代的更优。这可能是因为学习期从 2000财年开始,未提供足够的时间来预测未来。 图3比较了随机模型的夏普比率的概率密度与随机Q表的概率密度。这项分析的目的是假设某些年份中,资产回报的表现显著取决于其短期动量和年内日变化率分布的形状,而某些年份则不然。例如,在发生重大事件(如总统选举或FOMC会议期间),随机模型的概率密度被知为双峰,且年度表现根据该时期投资组合是否持有大量风险资产而发生戏剧性变化。 图表2回测的历年夏普比率 资料来源:《CausalInferenceonInvestmentConstraintsandNon-stationarityinDynamicPortfolioOptimizationthroughReinforcementLearning》,华安证券研究所 在这种情况下,金融时间序列数据的非平稳性得以显现,证实了非平稳模型的有效性。如图3所示,观察到非平稳模型的夏普比率在超过一半的年份中超过了随机模型的中位夏普比率。此外,确认在具有双峰形态的年份中,非平稳模型在夏普比率较低峰值范围内的年份较少。这些结果表明,向强化学习模型的状态变量添加阶段有助于显著提高预测准确性。 图表3近十年的结果(横坐标:夏普比率) 资料来源:《CausalInferenceonInvestmentConstraintsandNon-stationarityinDynamicPortfolioOptimizationthroughReinforcementLearning》,华安证券研究所 5考虑投资约束的决策比较 5.1分析方法 在本章中,作者探讨在考虑第3章设定的实际限制时,强化学习中选择的行为如何转变并影响模型表现,而前一章关注于预测效果,本章比较了样本内学习的结果,以分析不同约束与决策制定之间的关系。下图展示了在每个时间点优化投资组合时需要考虑的三类指标和规则。第一类可测量的绩效指标。例如,除了财年的目标回报和夏普比率外,还使用了如VaR(风险价值)和回撤等风险指标,以及与投资组合风险回报相关的管理指标,如止损点。第二类包括与投资组合管理相关的规则。例如,与投资期限和再平衡频率等周期相关的规则,与结算相关的规定如保证金和清算,与财务指标如杠杆比率、风险加权资产和流动性比率相关的规定,以及 与各种金融监管机构相关的规定,如沃尔克规则。第三类包括可以考虑的约束,如预期回报的准确性和交易成本。