金融工程 专题报告 基于强化学习和障碍函数的自适应风险管理在组合优化中的应用 ——“学海拾珠”系列之一百四十九 主要观点: 报告日期:2023-7-12 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 分析师:吴正宇 执业证书号:S0010522090001邮箱:wuzy@hazq.com 相关报告 1.《前景理论能否解释共同基金的业绩——“学海拾珠”系列之一百四十一》 2.《ChatGPT交易策略15个月收益500%+——“学海拾珠”系列之一百四十二》 3.《模糊因子与资产配置——“学海拾珠”系列之一百四十三》 4.《动量、反转和基金经理过度自信 ——“学海拾珠”系列之一百四十四 5.《股票因子个性化:基于股票嵌入的因子优化——“学海拾珠”系列之一百四十�》 6.《盈余公告披露的现象、方法和目的——“学海拾珠”系列之一百四十六》 7.《基金抛售资产时的选择性偏差— —“学海拾珠”系列之一百四十七》 8.《投资者情绪能预测规模溢价吗? ——“学海拾珠”系列之一百四十八 本篇是“学海拾珠”系列第一百四十九篇,作者提出全新的风险可控的组合优化(RiPO)框架,集成了强化学习算法(RL)和障碍函数(BF)。 因此,该方法不仅保留了RLagent追求交易策略收益最大化的能力,而 且可以明确管理风险敞口,保证风险投资在可接受的安全范围内。同时, 引入了两个自适应风险管理机制——自适应风险策略(ARS)和动态贡献机制(DCM),以适应不同的风险管理要求。在美国市场的实证检验证实了该框架的有效性。 回到国内市场,有效平衡收益和风险一直是投资人永恒的目标,当前A股市场风格切换速度较快,如何适应不同的市场环境,做出有效的组合管理决策是十分关键的,本文的研究思路值得借鉴。 RL和BF相结合的RiPO框架在可接受风险范围内获得高回报 基于RL的交易agent往往只强调追求高收益,无法明确管理投资风险,在市场高度波动时,会造成巨额损失。引入基于BF的风险控制器可以实时监测市场状态,严格执行风险约束条件,动态调整投资组合,避免潜在损失,特别是在下行市场中。 DCM和ARS可以动态调整风险约束强度 不变且严格的风险管理会导致市场上行时错失很多盈利机会。在基于 BF的风险控制器中引入DCM和ARS两个自适应机制将灵活地调节风险约束强度以满足不同的市场风格和投资者风险偏好,动态平衡了RiPO的盈利能力和风险管理水平。 实证结果证实了RiPO在管理下行风险上的优势 使用标普500指数前10大成分股的数据在两种不同市场风格中进行回测:与9种基准方法相比,上行市场中,RiPO可以在相对较低的风险 水平下获得最高收益;而在下行市场中,可以显著降低下行风险,避免巨额损失。特别地,RiPO在风险和收益方面都优于不包含风险控制器的RL算法。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2预备知识5 2.1组合优化5 2.2障碍函数(BF)6 3问题描述6 3.1部分可观测马尔可夫决策过程6 3.2观测与动作7 4方法论8 4.1整体框架8 4.2基于障碍函数的强化学习的风险管理9 4.3动态贡献机制10 4.4自适应风险策略11 5实证分析11 5.1实验设置11 5.2业绩比较与分析12 6结论15 风险提示:15 图表目录 图表1RIPO框架概况9 图表2数据集的描述11 图表3两种市场风格的业绩比较12 图表4MS-2数据集中投资组合价值比较13 图表5MS-2数据集中短期风险比较13 图表6MS-2数据集中关键超参数分析14 图表7DCM和ARS模块贡献的消融实验14 1引言 在金融市场上,一旦交易决策偏离了资产价格的变化,仅投资单一资产就会面临巨大的不确定性和风险。为了分散投资风险,建议投资者在交易期间将资金配置在一组具有不同性质的资产上。但是,如何确定最优的资产配置比例在低风险水平下以实现收益最大化对所有投资者都是一个巨大的挑战。根据有效市场假说和投资市场是一个不完全的信息博弈,在金融市场上存在大量的套利机会,但同时这些机会会迅速消失。因此,在构建可盈利的投资组合交易策略中,通过历史数据准确判断资产价格变动方向是至关重要的。受现代投资组合理论的启发,像资本增长理论和Black-Litterman模型更先进的理论被提出以弥补现代投资组合理论的局限性,更符合真实的金融市场。然而,他们依然受限于大量严格的假设,在金融市场处于高波动阶段将会失效。在过去十年中,机器学习和深度学习技术被引入到了投资组合管理中。通过从历史数据中挖掘出的微观和宏观逻辑,这些智能技术比传统的通过人工 组合技术指标所设计的交易信号能获得更多的收益。此外,就交易代理人机制而言,最近强化学习(RL),通过实时观察交易环境的当前状态,越来越多地应用到了组合优化的研究中。 然而,大多数现有的基于RL的组合优化方法由于数据效率问题很难学习到一个有效且稳定的策略。高波动的金融市场导致市场风格频繁变化,这导致已训练好的RLagent由于数据分布的改变无法在当前市场中取得成功,增加投资组合的不确定性和带来高风险。另一方面,之前大多数基于RL的方法以长期利润最大化为目标,而较少考虑到投资组合的短期风险管理。事实上,在动荡的金融市场中,基金经理更应该关注投资风险而不是收益。尽管高风险投资可能会带来高回报,但在短期内会发生资金持有者无法接受的高额最大回撤。此外,为了平衡收益和风险,优化目标会使用一些综合绩效指标,如夏普比率,索提诺比率,但他们不能明确管理单笔交易的组合风险。在自动驾驶和机器人领域,为了限制系统在安全区域内,引入基于障 碍函数(BF)的约束控制器来调整无模型RL算法生成的决策,其中任何风险行为将会被补偿以保持安全状态,同时RLagent仍不断探索高回报策略。在简单的情况下使用线性规划,可能会受到复杂的约束。因此,尽管以高时间成本为代价,但仍使用平方和规划来限制RLagent在多项式系统中的探索。此外,这些RL-BF方法不满足组合优化中风险管理的要求,且之前的研究严格控制了RL行动使得他们缺乏适应不同情况的灵活性。 为了探索有利可图的交易策略和降低整个交易期间的风险敞口,本文作者提出了一个将基于RL的交易agent和基于BF的风险控制器集成在一起的风险可控的组合优化(RiPO)框架以实现在可接受的短期风险下获得高长期收益。首先,通过将投资组合管理管理问题表述为部分可观测马尔可夫决策过程(POMDP),给出一个无模型RL框架来探索有利可图的交易策略。其次,通过基于风险约束的二阶锥规划,构建一个基于BF的风险控制器,监控激进的RL交易策略所带来的潜在风险并调整投资组合以避免巨大损失。此外,考虑到风险厌恶投资者和不同的市场形态,本 文作者另提出两个灵活的机制,即自适应风险策略(ARS)和动态贡献机制(DCM), 去调整风险约束的强度和风险控制器对整体交易策略的影响以适应不同的市场风格。在上行市场,框架会放松风险约束在可接受的风险水平下追求更高的超额收益。相 反地,在下行市场,风险敞口将会被严格限制以避免可能出现巨大的亏损。这将提高该框架在真实高度波动的金融市场中投资的灵活性。 作者提出的RiPO框架的主要贡献总结如下: 1.RiPO框架是第一个尝试将RL和基于BF的约束规划相结合应用到金融领 域中。由RLagent产生的交易决策可以被持续监测和调整,以明确管理风险敞口,但同时保持了RLagent寻找可盈利策略的探索能力。 2.与之前仅在简单情况下测试的RL-BF方法相比,本文提出框架中的风险控制器结合了二次锥规划和基于BF的约束为真实的金融市场制定更复杂的应用。通过对投资关系和可接受风险范围之间的关系建模,有效地降低潜在风险,特别是在下行市场中。 3.与完全由控制器主导的RLagent不同,RiPO框架中包含了两个自适应机制在投资者偏好和市场形态方面去灵活地调整风险控制器的影响,使得在市场上行时放松风险约束以获得更高的收益和在市场下行时严格管理风险以减少损失。 由于金融市场的性质,作者指出在任何情况下,投资组合风险管理绝对不是在任何预期风险水平下的绝对控制。事实上,本文提出的框架将尽可能避免风险投资 以便减少最大回撤和总体损失。 2预备知识 2.1组合优化 在线投资组合管理是一个多期交易策略,资金每一期重新分配到选定的资产上。在这项工作中,有以下两个假设。 假设1:投资组合仅考虑多头头寸。 假设2:投资组合中资产的换手率满足每笔执行订单的要求。 假设1说明投资者如果没有持有多头头寸将不能做空资产;而假设2鼓励提出的框架更接近现实。基于这些考虑,给出组合优化两大主要目标,分别是收益最大化和风险最小化。一些金融术语介绍如下: 定义1:(投资组合价值)投资组合在时刻�的价值可以表示为 � 𝑡,� 𝐶�=∑𝑤𝑡,𝑖𝑝� 𝑖=1 𝑡,� 其中,�是投资组合中资产的数量,𝑤𝑡,�是第�项资产在时刻�的权重,𝑝�是第�项资产在时刻�的收盘价。因此,根据假设1和假设2,投资组合权重应满足 � ∀𝑤𝑡,�∈𝑾𝒕:𝑤𝑡,�≥0,∑𝑤𝑡,�=1 𝑖=1 其中,𝑾�∈�是在时刻�的权重向量�。 定义1:说明风险的定义根据目的不同而不同。马科维茨模型的协方差权重风险和策略波动率分别提供了对短期风险和长期风险的看法。 定义2:(短期风险)投资组合在时刻�的风险可以表示为 𝜎𝑝,�=𝜎�+𝜎𝛼,� 𝜎𝛼,�=√𝑾𝑻Σk𝑾�=‖Σk𝑾𝒕‖2 � 其中,𝜎𝑝,�是交易策略风险,𝜎�是市场风险,𝑾�∈𝑅𝑁×1是权重矩阵。任何两项资产的协方差矩阵Σk∈𝑅𝑁×�可以通过过去�天资产日回报率来计算。 定义3:(长期风险)策略波动率被用于衡量在整个交易期间的投资组合风险, 它是交易策略日回报率的样本方差。 定义4:(夏普比率)夏普比率(SR)是评价投资组合常用的绩效指标,其定义为: 𝑆�= �−𝑟� � 其中,�是组合回报率,𝑟�是无风险收益率,�是投资组合风险。 组合优化问题已经研究数十年。技术分析方法可以被归纳为四类,即跟随赢家法,跟随输家法,模式匹配法和元学习算法。他们试图通过使用手工构建的金融指标来捕获价格动量。最近,DL/RL技术吸引了更多的投资者。除了常规的价格数据,引入新闻数据来收集组合管理的额外信息。在模型结构方面,提出了特定的模块来独立处理资产信息,并捕获资产之间的相关性。此外,调整投资组合并优化交易时间点以实现分钟级的在线交易。但是,大部分关于组合优化的研究在使用基于RL方法探索可盈利策略时,不能明确限制投资风险敞口。 2.2障碍函数(BF) 障碍函数最初受Lyapunov函数,在控制理论中被引入识别安全区域并驱动控制器在定义的安全边界内工作。假设一个系统动力可以表示为 𝑠𝑡+1=𝑓(𝑠𝑡)+𝑔(𝑠𝑡)𝑎�+𝑑(𝑠𝑡) 其中,𝑠�∈�是时刻�的系统状态,𝑎�∈�是时刻�的动作,𝑓:�→�是名义的非驱动动力学,𝑔:�→�是名义的驱动动力学,𝑑:�→�是未知动力学。一个安全集 �=[�∈𝑆:ℎ(𝑠,𝑎)≥0] 可以通过该动力系统中的障碍函数ℎ:�→�的上水平集来描述,其中ℎ是一个连 续可微函数,同时满足当ℎ(𝑠)=0时,𝜕�≠0。根据Nagumo定理,安全集�具有向 𝜕� 前不变性如果满足 ∀�∈𝐶, ∆ℎ(𝑠𝑡,𝑎𝑡) ≥0 ∆� 其中,∆�代表时间间隔,当考虑离散时间障碍函数时,∆ℎ(𝑠𝑡,𝑎𝑡)=ℎ(𝑠𝑡+1)−ℎ(𝑠𝑡)。此外,考虑局部k-Lipschitz函数�对安全约束松弛,使得 sup[ℎ(𝑠𝑡+1)−ℎ(𝑠𝑡)+𝐾(ℎ(𝑠𝑡))]≥0。 𝑎𝑡∈� 如果存在一个可行行动𝑎�满足上述的基