您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华安证券]:“学海拾珠”系列之一百九十:基于改进的CTGAN-Plus-Features的资产配置优化方法 - 发现报告
当前位置:首页/其他报告/报告详情/

“学海拾珠”系列之一百九十:基于改进的CTGAN-Plus-Features的资产配置优化方法

2024-05-29骆昱杉、严佳炜华安证券D***
“学海拾珠”系列之一百九十:基于改进的CTGAN-Plus-Features的资产配置优化方法

金融工程 专题报告 基于改进的CTGAN-Plus-Features的资产配置优化方法 ——“学海拾珠”系列之一百九十 报告日期:2024-05-29 主要观点: 分析师:骆昱杉 执业证书号:S0010522110001邮箱:luoyushan@hazq.com 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 相关报告 1.《基于复合模型构造行业ETF组 合——“学海拾珠”系列之一百八十九》 2.《行业羊群行为与动量策略——“学海拾珠”系列之一百八十八》 3.《强制分红与公司投资:基于多国数据分析——“学海拾珠”系列之一百八十七》 4.《基金中的“伪择时”现象——“学海拾珠”系列之一百八十六》 5.《DiffsFormer:基于扩散模型的因子增强框架——“学海拾珠”系列之一百八十�》 6.《深度投资组合管理中的对比学习和奖励平滑——“学海拾珠”系列之一百八十四》 7.《基金业绩基准之外的共同持股意味着什么?——“学海拾珠”系列之一百八十三》 8.《基于网络和机器学习的因子、资产和混合配置——“学海拾珠”系列之一百八十二》 本篇是“学海拾珠”系列第一百九十篇,文章提出了一种新的投资组合优化方法,包含合成数据生成技术、特征信息增强以及CVaR约束。 融合CvaR约束与特征信息的投资组合问题 考虑到大多数投资组合更注重避免损失而不是波动,文章选择条件风险价值(CVaR)作为合适的风险度量,并将非线性优化问题进行离散化与线性化。同时,文章根据特征与经济环境的相似性对收益序列赋予相应的重要性,以此将特征信息添加到优化问题中。 使用改进的CTGAN模型生成合成数据 文章旨在通过CTGAN生成能够感知市场环境的合成数据,具体步 骤包括对原始数据集利用PCA进行正交化处理,并通过聚类方法生成离散向量,然后使用主成分与离散向量训练CTGAN以生成合成样本。最后,利用存储的特征向量将合成数据集反向投影到原始空间中,得到 最终的合成数据集。这一过程为优化问题提供了足量数据,并确保了合成数据通过适应不同市场环境以更好地捕捉历史数据的基本特征。 案例分析表明CTGAN-方法的有效性 文章选取十种资产进行回测,结果显示,CTGAN生成的数据能很 好地捕捉历史数据的基本特征,并且将合成数据与基于CVaR的优化框架结合使用时,可生成样本外性能令人满意的投资组合。 文献来源 核心内容摘选自José-ManuelPeña,FernandoSuárez,OmarLarre, DomingoRamírez,ArturoCifuentes于2024年2月22日在QuantitativeFinance上的文章《AModifiedCTGAN-Plus-FeaturesBasedMethodforOptimalAssetAllocation》 风险提示 文献结论基于历史数据与海外文献进行总结;不构成任何投资建 议。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1引言4 2问题描述6 2.1离散化与线性化7 3合成数据生成8 3.1条件表格生成对抗网络(CTGAN)9 3.2一种改进的CTGAN-PLUS-FEATURES方法9 4应用案例10 4.1特征选取11 4.2合成数据生成过程(SDGP)的验证12 4.3策略测试15 4.4性能指标17 4.5性能比较18 4.6关于结果与潜在统计偏差的讨论20 5总结21 风险提示:21 图表目录 图表1文章框架4 图表2合成数据生成模式9 图表3改进的CTGAN-PLUS-FEATURES的数据生成过程10 图表4资产配置示例中使用的指数11 图表5资产分配示例中使用的特征11 图表6合成数据与原始数据的成对比较(收益)12 图表7合成数据与原始数据的成对比较(特征)13 图表8KOLMOGOROV-SMIRNOV检验:原始与合成的收益率和利率分布的比较13 图表9原始数据与合成数据的相关矩阵之间的相似性比较14 图表10按类别划分的合成数据与原始数据的各维度KS检验均值的成对比较图15 图表11�年的重叠窗口序列16 图表12回测方法概述17 图表13各策略的评估指标18 图表14按资产类别划分的交易费用19 图表15年化交易费用20 图表16年化收益20 图表1文章框架 1引言 资料来源:华安证券研究所整理 投资组合选择问题——如何将给定预算分配给多个资产——可能是金融学中最古老的问题之一。1952年,马科维茨发表了著名的投资组合选择论文,在此之前,人们一直在用感觉、直觉和常识来解决这个问题,而这些方法在本质上都是定性的。 马科维茨的开创性工作表明,投资组合选择问题本质上是一个优化问题,可以在一个定义明确的数学框架内加以阐述(Markowitz,1952)。这一框架背后的关键思想(如分散投资的重要性、风险与收益之间的权衡以及有效边界)经受住了时间的考验。不仅如此,马科维茨的论文还引发了对这一主题的大量定量研究,标志着与过去工作相比的重要转变。 然而,尽管马科维茨方法(也称为均值-方差或MV投资组合)有其优点,但其实施却一直存在问题。首先,收益率相关系数矩阵的估算——MV公式的重要支柱 ——是一个仍然缺乏实际解决方案的问题。例如,DeMiguel、Garlappi和Uppal (2009)得出的结论是,在包含25种资产的投资组合中,若要以可接受的准确度 估算相关系数矩阵的元素,需要200多年的月度数据。马科维茨公式的第二个缺点是依赖收益率的标准差来描述风险。然而,标准差侧重于分散性,它并不是风险的一个好的代表,因为它真正捕捉的是不确定性——这是一个微妙但重要的区别 (Friedmanetal.,2014)。无论如何,在上个世纪下半叶,大多数研究工作都致力于设计出实用的策略来实现MV公式,这些工作的成功程度也是参差不齐的,而如今大多数从业者已不再局限于最初的马科维茨方法。Kolm、Tütüncü和Fabozzi (2014)很好地总结了与实施马科维茨方法所面临的挑战。Pagnoncelli、Ramírez、Rahimian和Cifuentes(2022)简要概述了对试图解决MV理论在实践中所遇到问题的不同技术。 约翰·博格尔是另一位先驱者,他创立了资产管理公司VanguardGroup,被公认为指数投资的奠基人。1975年,他提出了“被动投资”的概念。他认为,以战胜市场为目标的基金必然成本高昂,因此投资者最好选择低成本的基金,通过复制相关指数来模仿市场(Bogle,2018;Thune,2022)。这一创新在当时备受争议,但一项又一项研究表明,在流动性和公开市场的背景下试图战胜市场是非常困难的 (Eltonetal.,2019;Fahlingetal.,2019;Sharpe,1991;Walden,2015)。但博格尔的想法还产生了另一个重要的影响,使得投资组合选择问题变得更容易解决:将重点从资产选择转移到资产配置。更重要的是,在指数基金出现之前,投资者如果想投资美国股市——暂且不谈MV理论的缺点——将面临一个难以解决的大规模优化问题(如果将可行集限制为标准普尔500指数中的股票,则至少有500种选择)。如今,同样的投资者只需在每个市场中选择一个指数基金,然后集中精力估算适当的资产配置比例,就能获得更加多样化的投资组合,例如,由美国股票、新兴市场股票、高收益债券和大宗商品组成的投资组合,简而言之,这是一个小得多的优化问题(Amencetal.,2001;Gutierrezetal.,2019;Ibbotson,2010)。 无论如何,从资产选择转向资产配置,再加上上世纪末出现的、并在近几年获得广泛认可的一系列创新,在很大程度上改变了投资组合选择的格局。在这些创新中,我们认为有以下几点: (1)条件风险价值CVaR已成为首选的风险度量指标。其关键优势在于,它 比标准差更能捕捉所谓的尾部风险,即极端事件的危险。第二个优势是,它关注的是损失而不是收益的波动性,更符合投资者表达风险偏好的方式(RockafellarandUryasev,2000;RockafellarandUryasev,2002)。第三个优势是,在投资组合优化问题离散化和线性化的情况下,正如我们将在下一节看到的,CVaR对用来建模收益模型的概率分布类型没有任何限制。 (2)依靠合成数据模拟现实场景的好处对于解决诸如马科维茨所描述的随机 优化问题至关重要。正如Fabozzi、Fabozzi、LópezdePrado和Stoyanov(2021) 所提到的,金融建模人员在查看过去的收益数据时,只能看到单一实现路径(一个收益时间序列)的结果,但对这些时间序列背后的随机(数据生成)过程却一无所知。此外,任何旨在生成真实合成数据的方法都必须捕捉数据的实际边际分布和联合分布,即所有其他可能发生但未观察到的收益时间历史。幸运的是,神经网络和机器学习的最新进展——例如,一种称为生成对抗网络(GAN)的算法——已在许多应用中证明了其有效性(Goodfellowetal.,2014)。此外,一些作者还探索了在投资组合优化问题中应用基于GAN的算法,但其框架与本文讨论的框架不同(LuandYi,2022;Marianietal.,2019;Punetal.,2020;Takahashietal.,2019;Lommersetal.,2021)。Eckerli等人(2021)很好地概述了机器学习尤其是GAN应用于金 融研究时所面临的挑战和机遇。 (3)从业人员一致认为,一组资产的联合行为会在不同的市场环境中波动 (Hamilton,1988;SchallerandNorden,1997)。考虑到这一观察结果,合成数据生成器(SDG)必须能够解释这一现象。换句话说,它们必须能够生成属于不同市场环境的数据,遵循多模式随机过程。 (4)在许多优化问题的表述中加入特征(上下文信息)具有重要优势。例如, Ban和Rudin(2019)的研究表明,与传统方法相比,在经典的新闻供应商问题中加入特征后,解决方案的样本外表现要好得多。其他作者也验证了在其他优化问题中加入特征的有效性(BertsimasandKallus,2020;Chenetal.,2022;Huetal.,2022;SeeandSim,2010)。 在此背景下,我们的目标是提出一种基于资产配置的投资组合选择方法。具体来说,我们假设投资者具有中长期的投资视角,可以通过指数基金参与多个流动和公开市场。这样,问题简化为在假设再平衡的频率不高的情况下,估算适当的投资组合权重。在本研究中,我们假设每年进行一次再平衡。如果每天、每周或每月再平衡投资组合,显然有悖于被动投资的初衷,同时会产生过高的交易成本,最终可 能影响投资业绩。 我们的方法将基于与MV方法类似、但受CVaR风险约束的框架。更重要的是,该框架将依赖于使用改进后的条件生成对抗网络(GAN)方法生成的合成收益数据,并通过融合上下文信息(在本案例中为美国国债收益率曲线)加以增强。从某种意义上说,我们的方法借鉴了Pagnoncelli等人(2022)的思想,但在几个关键方面有所不同,并带来了重大优势,包括性能方面的优势,我们将在后续部分详细讨论这一话题。总之,我们的目标有两个方面。首先,我们提出一种有效的合成数据生成算法;其次,我们将这种算法与上下文信息相结合,提出一种资产配置方法,理想情况下,这种方法应能产生可接受的样本外表现。 在下一节中,我们将更精确地阐述当前的问题,然后详细描述合成数据的生成过程,最后给出一个数值示例。最后一节是结论部分。 2问题描述 假设投资者可以投资�种资产,每种资产都有一个价格指数。我们将投资组合优化问题定义为资产配置问题,在这个问题中,投资者通过调整不同资产类别的权重,旨在最大化收益的同时将整个投资组合的风险控制在预定的容忍水平以下。 金融投资中的风险概念已在文献中得到广泛的讨论,包括不同风险度