您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之一百八十四:深度投资组合管理中的对比学习和奖励平滑 - 发现报告
当前位置:首页/其他报告/报告详情/

“学海拾珠”系列之一百八十四:深度投资组合管理中的对比学习和奖励平滑

2024-04-10骆昱杉、严佳炜华安证券邓***
“学海拾珠”系列之一百八十四:深度投资组合管理中的对比学习和奖励平滑

金融工程 专题报告 深度投资组合管理中的对比学习和奖励平滑 ——“学海拾珠”系列之一百八十四 报告日期:2024-04-10 主要观点: 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《基金业绩基准之外的共同持股意味着什么?——“学海拾珠”系列之一百八十三》 2.《基于网络和机器学习的因子、资产和混合配置——“学海拾珠”系列之一百八十二》 3.《收益率、股息增长率和回报可预测性——“学海拾珠”系列之一百八十一》 4.《基金投资者能否从波动率管理中获益?——“学海拾珠”系列之一百八十》 5.《如何使用强化学习优化动态资产配置?——“学海拾珠”系列之一百七十九》 6.《高成交量回报溢价与经济基本面 ——“学海拾珠”系列之一百七十八》 7.《基金经理技能之卖出能力的重要性——“学海拾珠”系列之一百七十七》 8.《美元beta与股票回报——“学海拾珠”系列之一百七十六》 本篇是“学海拾珠”系列第一百八十四篇,文章提出了一种新的基于深度强化学习的方法来训练智能体以实现累积收益最大化为目标配置投资组合,方法中应用了对比学习与奖励平滑,以帮助智能体在面对不确定的未来价格走势时学习稳健的表征。 对比学习与资产配对 对比学习是一种通过比较样本之间的相似性或差异性来增强其创建强表征能力的方法,这种方法对投资组合十分有用,因为投资决策依赖于从数据中提取的表征。在金融市场中,当两种资产在预测未来价格趋势时可以互相帮助时,它们就被认为是正资产对,否则被视为负资产 对。 多任务学习 为了使智能体学习有效的策略,使用多个目标(也称为多任务学习)对主要任务是有益的,目标包括:最终投资组合价值、平滑奖励目标和对比学习目标。总目标中将根据投资组合价值自适应调整权 重,以能防止智能体过度依赖噪声奖励,具体来说,当智能体收益较低或为负时,平滑奖励权重较高,反之权重较低。 将深度强化学习应用于投资组合构建 通过实证分析,本文展示了所提方法在美国股市与加密货币市场中 的有效性。消融实验结果表明,对比学习与奖励平滑都产生了积极影响,且两者的组合表现最好。 文献来源 核心内容摘选自Yun-HsuanLien,Yuan-KuiLi,Yu-ShuenWang在 会议IJCAI-2023上录用的文章《Contrastivelearningandrewardsmoothingfordeepportfoliomanagement》 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建 议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1探索利用对比学习提高DRL的泛化能力4 1.1引言5 1.2文献综述5 2模型介绍:对比学习、奖励平滑与策略梯度6 2.1MDP背景下的投资组合管理过程6 2.2对比学习的基本思想7 2.2.1通过预测进行正对匹配8 2.3奖励平滑9 2.4确定性策略梯度9 2.5模型的实现细节10 3模型有效性评估11 3.1数据与实验设置11 3.2消融实验的结果12 3.3模型结果与局限性14 4总结14 风险提示:15 图表目录 图表1文章框架4 图表2对比学习的基本思想8 图表3网络架构图10 图表4美国股市上不同策略的投资组合价值、夏普比率和最大回撤12 图表5加密货币市场上不同策略的投资组合价值、夏普比率和最大回撤12 图表6不同方法在美国股市(上)和加密货币市场(下)实现的平均投资组合价值13 图表7投资组合价值和夏普比率的四分位数均值与95%置信区间14 图表8传统策略方法的投资组合价值、夏普比率和最大回撤的统计指标14 图表1文章框架 1探索利用对比学习提高DRL的泛化能力 资料来源:华安证券研究所整理 1.1引言 长期以来,投资组合管理(PM)一直是学术界和金融行业的热门研究课题。传统的金融方法通常依赖现代投资组合理论(MPT)来配置投资组合,该理论将问题视为一个凸目标函数,并利用标的资产的平均收益率和收益率之间的协方差等历史数据,在马科维茨有效前沿上寻找最有效的投资组合。然而,这些方法在配置投资组合时,并没有考虑重要的市场指标,如价格趋势、新闻和财务指标。 最近,深度强化学习(DRL)技术(SuttonandBarto,2018)被用于优化投资组合配置,这类方法利用历史数据模拟市场环境,并训练智能体学习收益最大化的交易策略。与传统方法不同,DRL方法通过分析资产的价格轨迹和提取简单有效的特征来进行动态投资组合配置,使决策更具灵活性。虽然DRL方法前景广阔,但对奖励和环境很敏感,这意味着在一个环境中训练的智能体可能在另一个环境中表现不佳,即使这两个环境相似。这在投资组合管理中是一个重要的问题,因为价格波动可能是随机的,而且训练期和测试期的市场条件可能会有所不同。 本研究的目的是探索如何利用对比学习技术(Chenetal.,2020)来提高DRL 智能体的泛化能力。在PM领域,智能体基于从数据中提取的表征做出决策。为了 提高决策的性能,将未来趋势高度相关的资产的表征组合在一起是有益的。对比学习最初是在计算机视觉领域中发展而来,通常需要训练神经网络来区分相似和不相似的图像,但将这种方法直接应用于PM是不可行的,原因在于,对比学习需要通过数据增强来生成正样本对,而修改后的价格轨迹与原始价格轨迹本质上是不同的。 为了处理这一问题,我们提出使用神经关系推理(NRI)(Kipfetal.,2018)来估 计资产状态之间的关系,并从具有强关系(例如未来价格走势的高相关性)的资产状态中创建正样本对,而不是增强价格轨迹。这种方法允许智能体在交易时预测未来的价格走势,并且可以自动学习这些关系,而不是根据启发式规则预先确定关系。 基于连续时间段的资产价格的奖励,如在PM中经常使用的奖励,可能由于价格的波动而难以建模。为了解决这个问题,我们将奖励平滑与对比学习相结合,以帮助网络学习有效的交易策略。平滑奖励可以看作一种正则化方法,它鼓励智能体追求长期回报,并通过降低智能体的激进性和训练数据的过拟合来帮助减少动作的方差。这是因为资产在连续时间段的状态(即历史价格轨迹)是相似的,并且共享 大部分相同的信息,因此根据相似的观察结果做出不同的决策可能会导致过拟合。我们的方法使用对比学习和奖励平滑来提高RL智能体在处理金融数据中的不 确定性时学习的表征的鲁棒性。我们在美国股票市场和加密货币市场上使用几种基线与我们的方法进行对比,包括传统的金融方法和DRL方法,发现我们的方法是有效的。为了确保结果的可靠性,在评估DRL方法时,我们还使用多个随机种子训练RL智能体,因为它们对初始随机种子很敏感。总体而言,实验结果证明了我们方法的有效性。 1.2文献综述 RL智能体的设计目的是在与环境交互时做出顺序决策,以实现收益最大化,例如在金融应用中随着时间的推移重新分配投资组合。早期的RL方法使用浅层神经网络(DempsterandLeemans,2006)或传统机器学习技术(Györfietal.,2006)来训练智能体。他们使用Q-Learning优化代表着区间收益率和夏普比率的价值函数。然而,由于金融数据的非平稳性,要近似这些价值函数可能比较困难。因此,一些方法转而关注基于预期奖励的梯度直接更新策略模型,如(Suttonetal.,2000; MoodyandSaffell,2001)。这避免了近似价值函数的麻烦,毕竟在某些情况下,近似价值函数在理论上是难以实现的。 强化学习与深度神经网络相结合已在多个领域取得了成功。深度神经网络可以从观测结果中提取紧凑、信息丰富的表征,供RL智能体在决策中使用。在金融应用中,人们通过修改网络架构(Jiangetal.,2017)、使用模糊学习(Dengetal.,2016)、约束交易策略(Buehleretal.,2019)、采用短期经验回放和长数据序列 (Huang,2018)以及衡量预期最大回撤(AlmahdiandYang,2017)等方法以改进RL的性能。由于在非平稳市场状态下评估价值函数可能比较困难,Lu(2017)使用策略梯度方法训练了RL智能体。Liang等人(2018)在实验中发现,该方法优于深度确定性策略梯度和近端策略优化等其他方法。Guo等人(2018)通过在更新策略网络时使用二次泰勒展开近似奖励函数,对一般对数最优策略进行了改进。除了各种训练策略外,研究还表明,根据过去的资产价格或新闻报道增强资产 状态可以显著提高盈利能力。例如,Ye等人(2020)的研究就证明了这一点。Wei等人(2019)采用了一种不同的方法,允许RL智能体在学习交易策略时与环境模型而非真实数据进行交互,结果发现所产生的智能体在应用于真实数据时仍然是可盈利的。Wang等人(2019)使用“买入赢家卖出输家”策略动态选择股票资产,目的是在牛市和熊市中都获利。他们采用了具有历史状态注意力的长短期记忆网络和跨资产注意力网络来学习多个时期的表征,并识别资产之间的关系。 2模型介绍:对比学习、奖励平滑与策略梯度 2.1MDP背景下的投资组合管理过程 DRL方法将投资组合管理表述为马尔可夫决策过程(MDP),该方法训练智能体学习一种交易策略,通过一系列的资产配置再平衡使投资组合价值最大化。具体来说,MDP可表示为⟨𝒮,𝒜,𝒫,𝑅,𝛾⟩,其中𝒮,𝒜,𝒫,𝑅,�分别表示状态空间、动作空间、状态转移概率函数、奖励函数和未来奖励折扣因子。智能体的目标是学习一个满足以下要求的策略𝜋:�→� ∞ max�[∑γ(𝑡−1)𝑅𝘑] π 𝑡=1 � subjectto𝑎�=𝜋(𝑠𝑡),∑𝑎�=1,0≤𝑎�≤1 �� 𝑖=1 与解决单步优化问题的传统金融方法不同,DRL方法的目标是最大化长期的预期贴现奖励。下面将更详细地解释MDP背景下的投资组合管理过程。 状态:在金融投资组合管理中,特定时期的状态由当时的资产价格和投资组合 权重表示。在本研究中,状态表示为𝑠�=⟨𝑥𝑡,𝑤𝑡⟩,其中𝑠�属于状态空间�。外部状态𝑥�是一个张量,包含过去�个时间段内�种资产的历史价格,而内部状态𝑤�表示投资组合中资产的权重。 动作:在每个时间步𝑡,智能体使用一个向量𝑤�=(𝑤0,𝑤1,…,𝑤𝑛)表示投资组 ��� � 合中每种资产的比例。资产的数量用�表示,𝑤0为现金的比例。根据当前状态𝑠𝑡, 智能体选择一个行动𝑎�=(𝑎𝑡,𝑎𝑡,…,𝑎�)来重新分配资产权重,其中0≤� ≤1。值 01�� 得注意的是,𝑤�和𝑎�分别代表时间步�交易前和交易后的投资组合。此外,权重之 和必须等于1,即∑�𝑤�=∑�𝑎�=1。智能体在时间步�−1做出动作𝑎𝑡−1,随着 𝑖=0�𝑖=0� 时间和市场的发展,投资组合权重变为𝑤𝑡,可表述如下: 𝑤� =𝑦𝑡−1⊙𝑎𝑡−1 𝑦𝑡−1⋅𝑎𝑡−1 𝑣𝑡+1 𝑣1 𝑣� 其中,⊙表示逐元素乘法,𝑦�==(1,𝑡+1,⋯,𝑡+1)为相对价格向量,𝑣�为 � � 𝑣� 1�� �� � 资产�的价格。现金的相对价格表示为𝑦0,值恒为1,因为现金的价格是恒定的。奖励:当资产价格上涨时,智能体就会获得奖励。为了更好地模拟现实世界的 情况,在买卖资产时要考虑交易成本。这些成本会使投资组合价值减少至原本的𝜇�倍。考虑交易成本的投资组合在时间步�的价值可定义如下: � 𝑃�=𝑃0�𝜇𝑡𝑎�⋅𝑦� 𝑡=1 其中,𝑃0为�=0时的初始投资组合价值。交易系数𝜇�取决于交易资产的数量和交易费用,可按下式计算: 1 �=0 � ��+ �1−� 𝑎0[1−𝑐𝑝𝑤�−(𝑐�+𝑐�−𝑐𝑠𝑐𝑝)+∑(𝑤�−𝜇𝑡𝑎𝑡)] �� 𝑖=1 其中,𝑐�和�