金融工程 专题报告 风险规避型强化学习模型在投资组合优化中的应用 “学海拾珠”系列之二百二十六 报告日期:20250305 主要观点: 分析师:吴正宇 执业证书号:S0010522090001邮箱:wuzyhazqcom 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjwhazqcom 相关报告 1《贝塔异象的波动性之谜“学海拾珠”系列之二百二十》 2《ETF的资产配置与再平衡:样本协方差对比EWMA与GARCH模型学海拾珠系列之二百二十四》 3《市场对投资者情绪的反应学海拾珠系列之二百二十三》 4《基于语境的财务信息解读学海拾珠系列之二百二十二》 5《跟踪误差的构成成分、中期交易与基金业绩学海拾珠系列之二百二十一》 6《基于混合转移分布的投资组合优化方法学海拾珠系列之二百二十》 7《模糊性会引发处置效应吗?学海拾珠系列之二百一十九》 本文提出了一种风险厌恶型强化学习算法,用于最优投资组合分配。具体而言,作者提出了一种结合贝叶斯神经网络(BNN)和Dirichlet分布策略的强化学习框架,用于最优投资组合分配。在该框架中,评价网络采用贝叶斯神经网络来估计行动值函数,并通过引入KL散度作为正则化项。策略网络则通过Dirichlet分布策略实施,以探索不同的行动选择。 融合了贝叶斯神经网络和Dirichlet分布策略的强化学习框架 本文提出了一种创新的强化学习框架,该框架融合了贝叶斯神经网络和Dirichlet分布策略,旨在解决最优投资组合分配问题。在模型构建上,评价网络采用贝叶斯神经网络结构,通过引入KL散度正则化项,衡量后验分布与近似器之间的差异。Dirichlet策略可以解决深度确定性策略梯度模型(DDPG)在受限行动空间上的一些问题。在模型训练上,该框架通过多个回合(episodes)的训练,智能体与环境进行交互,学习并优化投资策略。同时,引入VaR作为风险度量,通过惩罚机制调整策略网络,确保在不确定环境中做出稳健决策。 风险厌恶型强化学习模型在大多数时候表现更佳 将本文的强化学习模型表现与其他强化学习算法进行了比较,如近端策略优化(PPO)、信任区策略优化(TRPO)以及启发式金融投资组合选择理论。在相同的1000步(天)测试期间,本文的算法大多数时候都优于其他模型。此外,作者的算法相较于其他算法盈利能力更强。 核心内容摘选自BayaraaEnkhsaikhanOhyunJo于2024年4月在《ICTExpress》上发表的论文《RiskaverseReinforcementLearningforPortfolioOptimization》。 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建议。 正文目录 1引言4 2文献综述5 3理论背景5 31组合优化5 32DIRICHLET分布策略6 33贝叶斯神经网络6 34不确定性估计7 35风险评估方法7 4方法论7 41马尔科夫决策过程和强化学习设定7 42模型训练方法9 5实证结果10 6结论13 风险提示:13 图表目录 图表1文章框架4 图表2ACTORCRITIC网络设置8 图表3强化学习在训练过程中的平均奖励(纵轴)和训练轮次数量(横轴)11 图表4训练和测试数据集11 图表5强化学习算法在不同测试集上的比较12 图表6投资组合的不确定性风险估计12 1引言 图表1文章框架 资料来源:华安证券研究所整理 根据资产定价理论,投资者需要风险投资来获取利润。现代投资组合理论在“有效前沿”上构建最优投资组合,使风险和收益正相关。投资者的风险偏好和风险承受能力会限制其选择。评估风险和回报需要动态地评估未来结果。在没有明确的“最优投资组合”决策数据的情况下,监督学习具有挑战性。连续交易会产生成本,而近期强化学习的发展为无监督强化学习提供了有前景的成果。 金融模型假设因子是固定的,因此需要灵活的深度学习方法。深度强化学习能 够解决连续决策问题,适用于动态投资组合优化。模型过拟合问题通过不确定性解决方案来解决。基于风险规避的强化学习模型纳入了风险约束,能够顺序学习最优决策策略。两种类型的不确定性,即偶然不确定性和认知不确定性,可能会影响决策。偶然不确定性源于市场预期,可通过贝叶斯神经网络(BNN)来预测这种不确定性。基于VaR的统计技术可以量化这种不确定性带来的风险。 作者提出了风险规避强化学习模型,这是一种在深度学习中用于投资组合优化的、带有风险约束的决策技术。强化学习模型顺序地做出决策,并学习要遵循的最佳决策策略。作者通过不确定性来评估风险,不确定性可能会在决策中带来风险,它可能源于数据的性质或模型的预测能力。在深度学习领域,这些不确定性被称为偶然不确定性(由于数据的随机性)和认知不确定性(由于模型的不确定性)。 在金融市场中,由于市场预期的变化,可能会出现大幅波动。这被视为偶然不确定性,使得准确预测结果变得更加困难,但所提出的深度学习模型能够评估这种不 确定性。此外,由于知识和数据有限,模型的预测准确性会降低。作者使用贝叶斯神经网络(BNN)模型来预测这种不确定性。贝叶斯神经网络允许模型存在不确定性,并且作者可以预测模型参数和结果的分布。采用一种名为风险价值(VaR)的统计技术来量化不确定性带来的风险。 2文献综述 本文中的强化学习算法具有以下三个特点:(i)风险规避;(ii)受限的行动空间;(iii)用于投资组合优化。 风险规避。在风险规避强化学习方向,已经进行了充分的研究工作。例如,Urp 等人使用变分自编码器(VAE)来实现分布式结果输出,并使用风险价值(VaR)来获得风险度量。由于VAE能够从预先收集的数据中进行采样,因此他们的工作在强化学习处于离线状态时非常高效。张等人考虑了一种基于随机奖励均值和方差的风险规避强化学习方法。另一种风险规避强化学习方法在其他方法基于数据不确定性时,使用了认知不确定性(模型不确定性)。 受限的行动空间。Tian等人提出,softmax策略并不是解决行动空间约束的有 效方法,特别是当行动是权重时。之后发表了多篇解决行动空间约束问题的论文。例如,Zhou等人利用条件变分自编码器(ConditionalVAE)在给定状态下从特定行动空间中进行采样。他们的条件变分自编码器对于一般情况下的行动约束可能是一个很好的解决方案,但在极少数情况下,模型可能会返回分布外的输出。另一个将强化学习成功应用于投资组合优化的例子是Andre等人的论文,该论文使用狄利克雷分布来处理投资组合权重受限的行动空间。 投资组合优化。最近关于强化学习在投资组合优化方面的研究,如Shen等人 和Jiang等人的工作,都是为了最大化回报或风险回报比(夏普比率)。这些论文采用了Moody等人提出的夏普比率作为目标函数。根据Rebonato等人的观点,投资组合优化是“一个在约束条件下效用最大化的复杂问题”。因此,由于投资者的风险偏好和能力各不相同,这些算法的实际应用性有所降低。 因此,作者总结认为,在以往的研究中,都没有考虑到投资者能够承受的风险偏好或能力。而且,这些研究都没有衡量因数据不足而可能产生的风险。 3理论背景 31组合优化 根据现代投资组合理论,具有最小风险和最大回报的有效投资组合集合形成了一条曲线,称为“有效前沿”。投资者的目标不仅是最大化预期回报,而且还希望因承担风险而获得补偿。因此,投资组合优化问题是通过投资者的效用函数来解决的,该 函数解释了投资者对预期回报和风险的满意度。如果投资者在两个具有不同预期回 报和风险的投资组合上具有相同的效用值,那么投资者对这两个投资组合是无差异的。如果可以找到每一个能提供固定效用的投资组合,那么这些投资组合的组合将形成一条曲线(无差异曲线)。风险规避投资者的无差异曲线的切线斜率总是正的。如果投资者只关心夏普比率,那么无差异曲线将是一条直线,其斜率将代表夏普比率。然而,假设投资者在风险限制之上的无差异曲线具有陡峭的斜率。在一定阈值之 内,投资者并不关心风险。如果风险超过该阈值,投资者将严格风险规避。 32Dirichlet分布策略 交易决策是投资组合中的资产权重。因此,决策行动必须在0到1之间,且总和为1。Dirichlet分布是beta分布的多元推广。Dirichlet分布的有用特性使其适合用于投资组合资产配置问题。 这里,是方程(16)中提到的行动者网络(actornetwork)的向量输出。归一化系数B是多元beta函数: 分布的形状由向量决定(i是向量的一个分量)。是伽马函数。Dirichlet策略可以解决深度确定性策略梯度模型(DDPG)在受限行动空间上的一些问题,因为行动是资产权重,且总和为1。对Dirichlet分布进行采样以进行探索。关于探索的概念将在第4节中进一步讨论。 33贝叶斯神经网络 贝叶斯神经网络(BNN)认为模型存在不确定性,因此模型参数是分布式的。 BNN在这些未探索区域的输出具有更大的偏差,这表明结果在这些区域更加不确定 (认知不确定性)。此外,数据可能在某些状态上表明不确定性(偶然不确定性),即使某些区域有一些数据,但这些数据在输出轴上仍然广泛分布。BNN能够捕捉这两种不确定性。在贝叶斯形式主义中,学习参数意味着在观察到数据后,改变对权重从先验到后验的信念。 因此,贝叶斯神经网络的这些优良特性使作者能够衡量模型和数据的不确定性风险。根据贝叶斯规则,希望找到权重的以下分布,称为后验分布: D是数据,w是模型的参数。pwD这一项被称为后验,它表示在给定数据的情况下模型参数的概率。此外,pw是先验概率,即在看到数据之前对参数的观点。pD是数据似然,而对权重空间进行积分的精确计算是低效的。因此,使用变分推断来近似后验。可以使用其他容易积分的分布作为近似器。后验分布与近似器之间的差异通过KullbackLeibler(KL)散度来衡量。用于近似的更简单分布记为q。 作者的目标是最小化KL散度,使用正态分布进行近似。 34不确定性估计 由于风险即是不确定性,在第4节的实证中将总方差视为风险。使用蒙特卡洛采样技术来计算在某一状态下的预测样本输出和方差(在交易算法中,获取k个样本)。在蒙特卡洛采样中,从模型参数的分布中采样k次,然后对于每个参数样本,通过将相同的输入提供给模型,可以获得不同的输出。在训练阶段,利用偶然不确定性进行探索更为高效。 35风险评估方法 风险通过波动性来衡量。如果预测到价格未来会发生变化,那么资产价格会立即做出调整。因此,这并不构成威胁。作者所考虑的风险是模型无法预测的不确定性。 贝叶斯神经网络的输出是分布式的,因此,这个分布被用来衡量风险。风险价值 (VaR)是一种量化风险的有用方法,特别是在极端情况下。 设y为收益。在01置信水平下的风险价值(VaR)定义为(Fy为累积分布函数): 使用的是参数法,也称为方差协方差法。为了首先利用参数法,假设输出是正态分布的,然后需要优化相应的参数。VaR通过以下简单方程计算: 其中,z是在给定置信水平下,标准正态分布对应的z分数,是标准差。是通过第34节(贝叶斯优化)中提到的采样方法计算得出的。 其中,yi和yj是属于投资组合y的资产的收益,其权重分别为wi和wj,而corryiyj是相关函数。 从上述方程可以看出,投资组合的风险也取决于相关系数。如果相关系数较低,那么通过优化可以分散风险。 4方法论 41马尔科夫决策过程和强化学习设定 投资组合优化任务不同于高频交易和投机交易,它需要更长的时间范围和更多的风险考量。因此,为便于与马尔可夫决策过程(MDP)结合,使用每日(固定时间步长)数据。在观察市场和价格信息后,可以做出决策,而奖励则取决于状态和决策。因此,这个动态决策任务可以建模为一个MDP。同时,模型采取的行动必须受到风险约束的限制。因此,该任务被建模为一个受限马尔可夫决策过程(CMDP)。模型需要优化其预期的累积奖励,同时确保满足其约束条件。 在本文中,作者使用