您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之二百二十七:使用深度强化学习解决高维多期环境下的组合配置 - 发现报告

“学海拾珠”系列之二百二十七:使用深度强化学习解决高维多期环境下的组合配置

2025-03-12严佳炜、钱静闲华安证券阿***
“学海拾珠”系列之二百二十七:使用深度强化学习解决高维多期环境下的组合配置

金融工程 专题报告 使用深度强化学习解决高维多期环境下的组合配置 “学海拾珠”系列之二百二十七 报告日期:20250313 主要观点: 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjwhazqcom 分析师:钱静闲 执业证书号:S0010522090002邮箱:qianjxhazqcom 相关报告 1《风险规避型强化学习模型在投资组合优化中的应用“学海拾珠”系列之二百二十六》 2《贝塔异象的波动性之谜“学海拾珠”系列之二百二十》 本篇是“学海拾珠”系列第二百二十七篇,文献设计了一个先进的投资组合配置框架,使用卷积神经网络获得资产价格的动态模式,并通过WaveNet对跨资产依赖性进行建模,结合DRL方法求解多期Bellman方程,获得最优长期投资组合配置。在不同持有期、风险厌恶系数、交易成本和不同指数上进行实证测试后,发现该方法较为优越。回到国内市场,我们也可以应用类似的深度强化学习模型进行组合构建。 投资者的长期优化问题 传统的投资组合选择方法通常考虑单期收益。Markovitz(1952)开创了均值方差优化模型,是投资组合理论的基础。 文献提出一个基于DRL(含CNN和WaveNet)的投资组合框架来解决高维多周期环境下的优化问题,所设计的投资组合策略框架主要包括三个组成部分。首先,采用基于卷积神经网络(CNN)的序列信息来捕捉每种资产价格中的动态模式。其次,使用WaveNet对投资组合中资产之间的交叉依赖性进行建模,这在高维环境中尤为重要。最后,将以上两大部分作为DPG模型的输入来优化投资组合配置,将该方法表示为MPAdvDRLCor。 实证结果 投资组合的盈利能力随着投资期限的延长而增加,同时年度波动率 3《 ETF的资产配置与再平衡:样本协 也上升。风险厌恶系数的增加意味着投资者更倾向于选择保守策略以 方差对比EWMA与GARCH模型 “学海拾珠”系列之二百二十四》4《市场对投资者情绪的反应“学海拾珠”系列之二百二十三》 5《基于语境的财务信息解读“学海拾珠”系列之二百二十二》 6《跟踪误差的构成成分、中期交易与基金业绩“学海拾珠”系列之二百二十一》 7《基于混合转移分布的投资组合优化方法“学海拾珠”系列之二百二十》 降低投资组合风险。这种偏好导致交易频率和投资活动减少,获得高额年回报和高夏普比率的可能性受到限制。交易成本的存在主要影响投资组合的盈利能力,而不会增加风险,它还对投资组合的换手率产生重大影响。在存在交易成本的情况下,投资者在投资机会随时间变化时调整投资组合权重的动机减少。 通常,MPAdvDRLCor方法的业绩表现优于其他比较方法。对于持有期h1,交易成本005和风险厌恶系数01的条件下,基于机器学习的方法不一定优于等权重的简单方法。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2多期投资组合优化5 3投资者的长期优化问题8 31基于CNN的动态价格序列信息的提取8 32基于WAVENET的跨资产依赖信息提取9 33基于DRL的多期投资组合决策9 4实证结果12 41数据集和比较组合构建方法12 42业绩指标13 43持有期对投资组合业绩的影响14 44不同风险厌恶系数下的投资组合表现15 45不同交易成本下的投资组合表现17 46不同构造方法的投资组合业绩比较18 5结论21 风险提示:22 图表目录 图表1文章框架4 图表2基于DRL(含CNN和WAVENET)的投资组合框架7 图表3基于DRL的多周期投资组合轨迹12 图表4各个超参数值13 图表5MPADVDRLCOR方法在样本外的APV14 图表6不同持有期H下的投资组合业绩指标15 图表7标普100在不同风险厌恶系数下的APV16 图表8不同风险厌恶系数下的投资组合业绩指标16 图表9标普100在不同交易成本下的APV17 图表10不同交易成本下的投资组合业绩指标18 图表115个方法下投资组合的APV(标普100,上中下图的H分别为1、22、66)19 图表125个方法下投资组合的APV(DJIA指数,上中下图的H分别为1、22、66)20 图表135个方法下投资组合的APV(SPTSX指数,上中下图的H分别为1、22、66)21 1引言 图表1文章框架 资料来源:华安证券研究所整理 投资组合管理研究如何在一组资产和一段时间内分配资源和资金。传统的投资组合选择方法通常考虑单期收益。Markovitz(1952)开创了均值方差优化模型,是投资组合理论的基础,该框架通过资产收益的方差,使给定风险水平的预期收益最大化。尽管这个框架简单且应用广泛,但Markovitz也有局限性,特别是在解决长期投资和动态市场条件方面。 长期投资组合配置关注的是投资者如何在较长时间跨度内最优地分配投资资产,以实现收益最大化,同时管理风险(Escobar等人,2016;Fan等人,2024;Lucey和Muckley,2011)。在这一领域,首批贡献之一来自Merton(1969,1971),他将投资组合选择框架扩展到连续时间环境中,为长期投资者纳入了跨期选择和动态策略。他的工作引入了动态资产配置的概念,强调了根据市场条件变化和投资者偏好随时间调整投资组合权重的重要性。至少自Merton的研究以来,人们普遍认识到,多期投资组合选择问题的解决方案可能与静态投资组合选择问题的解决方案截然不同。 传统上,从单期到多期投资组合优化的扩展是通过随机动态规划来解决的。Samuelson(1969)和Bellman(1957)开发了解决动态优化问题的方法,使得在投资组合管理中可以考虑未来的状态和决策。然而,多期环境下最优投资组合缺乏封闭形式解,这限制了Merton模型的应用,也未能取代Markowitz。 基于求解Bellman方程的标准方法在处理大型数据集时面临困难。Hambly等 人(2023)指出,投资组合优化通常涉及高维度、复杂的非线性关系和约束条件,这使得传统算法难以适应不断变化的市场环境和大规模数据。这些局限性导致在动态情况下采用次优投资组合策略。机器学习和人工智能的最新进展对投资组合管理产生了重大影响。Jiang等人(2017)、Wang和Zhou(2020)以及Cong等人 (2022)探索的深度强化学习(Deepreinforcementlearning,DRL)为开发自适 应和动态投资组合策略提供了稳健框架。这些方法利用大量数据和复杂算法来实时优化资产配置。与Markowitz等标准投资组合分配方法相比,DRL旨在搜索最优动作序列,从而获得多步任务,其目标是实现最大累积奖励(SuttonBarto2018)。 这使得DRL能够适应复杂、高维和动态的环境,成为改进传统投资组合分配的一种有吸引力的方法。 应用这些技术进行多期投资组合分配的文献正在迅速增长。Aboussalah等人 (2021)基于卷积神经网络(convolutionalneuralnetworks,CNN)的DRL方法,构建了多期投资场景下的最优投资组合。Wei等人(2021)以及Chen和Ge (2021)展示了随机神经网络算法在纳入不对称投资者情绪以及构建在多个持有期内平衡收益和风险的投资组合方面的益处。 多期投资组合构建策略的其他可能碰到的问题包括交易成本和其他市场摩擦的存在。Constantinides(1986)以及Liu和Loewenstein(2002)的研究将这些因素纳入动态模型,以获得考虑再平衡投资组合成本的更现实策略。然而,随着高维度和高频金融数据的日益可用,需要开发更复杂的模型。Bernardi和Catania(2018)以及Zhao等人(2023)的工作利用copula模型和蒙特卡洛方法来捕捉依赖性,并在高维环境中优化投资组合。最近的研究使用DRL框架来提取金融投资中的跨资产依赖性特征(Xu等人,2020;Zhang等人,2022)。值得注意的是,Marzban等人 (2023)在DRL框架中引入了WaveNet结构,以捕捉跨资产依赖性并改进长期投资组合优化。 文献设计了一个先进的投资组合策略框架,以构建多期投资组合选择模型。为此,使用机器学习方法对资产价格动态及其横截面依赖性进行建模(使用卷积神经网络获得资产价格的动态模式,并通过WaveNet对资产分组依赖性进行建模)。通 过结合DRL方法求解多期Bellman方程,获得最优长期投资组合分配。该方法适用于不同水平的风险厌恶,并在一组投资组合约束条件下开发。实证结果证明了该方法的有效性和优越性,文献在不同的投资持有期下进行了深入的比较分析,揭示了投资期限、风险厌恶水平和投资组合约束对投资组合管理的影响。 2多期投资组合优化 本节介绍构建多期最优投资组合的理论框架。相比于买入并持有策略,考虑一个采用再平衡策略的动态多期投资组合优化问题,该问题旨在随时间优化金融资产之间的资本配置。 1 在每个规划期(共h期:tt1t2th)的开始时,将资金分配到一个投资组合中。假设金融市场有N种风险资产,这些资产在t时期的收盘价构成一个 价格向量,其中 , 表示第i种资产的价格。投资组合的管 理通过资产权重向量1来实现,其中表示投资组合中投资于第i种资产的比例。在每个期末,投资者可以根据已实现收益和金融市场提供的最新数据积极调整其投资组合的价值。资产收益向量表示为: 1112211(1) 1 2 11 21 1 其中,表示第i种资产在t时刻的收益。在假设投资组合权重的变化相对于投资组合价值较小的情况下,t时期的投资组合价值用pt表示,并由以下表达式给出: 1111 1(2) 1 t时刻的投资组合对数收益率定义为: 1 (3)资产的买卖通常会产生交易成本,用来表示每次交易的相对成本水平,并设 定在时间t的买卖成本率为。此外,用01来表示总交易成本,其定义为: (4) t时刻结束时更新后的对数收益率由以下表达式给出: (5)因此,在考虑交易成本后,th时刻的组合终值价值表示为(Moody等,1998; Zhang等,2022): (6)根据式(6),在h个持有期的规划期限内,投资组合的总对数收益率表示为: (7) 考虑使用均值方差函数来建模表示投资者短期偏好的单期效用函数: (8) 其中,是一个风险规避参数,用于平衡投资组合收益率的最大化和投资组合风险2的最小化之间的量。长期投资组合配置问题的特点是在h个周期内计算投资者的多期效用函数并使其最大化。通过引入时间偏好参数来模拟投资者的不耐烦情绪(Jiang等人)。该参数对未来收益进行贴现(Jaisson2022Olschewski等人2021),使得h个周期内的多期目标效用定义为: (9)当0时,投资者的关注点仅限于即时回报。对于01的情况,由于单个 回报是有限的,因此回报序列会收敛。 投资者旨在构建一个策略,以在h期的投资期限内最大化其预期长期效用。最优投资组合的特征是在h期内获得的权重矩阵12,这可以通过解决一个包含一系列投资组合约束(即预算约束、换手率约束和箱型约束)的多期优化问题来实现。预算约束由以下条件给出: (10)同样地,换手率约束降低了交易成本对投资组合收益的影响。大多数研究在评 估交易成本的影响时采用平均换手率,因为它能估算出投资组合权重的更新情况。时间t时的投资组合换手率(TO)约束可以表示为: (11)其中,是每个资产在t时刻的最大换手率,01。最后还包括 了一个箱型约束,以避免极端的投资头寸并促进投资组合的多样化。为投资组合中的最大和最小权重设定了上限和下限。箱型约束定义为: 0(12) 为简单起见,只考虑在资产上的多头头寸,而描述最优多期投资组合的目标函数表示为: (13) 图表2基于DRL(含CNN和WaveNet)的投资组合框架 资料来源:《Highdimensionalmultiperiodportfolioallocationusi