证券研究报告/金融工程报告 2022年11月29日 复制万得普通股票型基金指数——机器学习方法 分析师:包赞 报告摘要 电话:18017505196执业编号:S0740522070001 ◆模型思路与效果 Email:baozan01@zts.com.cn 普通股票型基金指数(885000.WI)年化收益高达17%左右,是一个并不容易复制的指数,如果能够有算法复制,会对投资实战起到重要帮助。我们寻找到了能够复制该指数的机器学习方法。利用20200101-20221125区间的普通股票基金的日度收益率数据,去复制万得普通股票型基金指数(885000.WI)。 (1)每个季度末调仓;(2)每一期FOF组合大概有三十多个权益基金。 模型思路是跟踪误差最小化,模型解法是机器学习算法,算法下文会展示。具体效果如下。 ◆算法原理 风险提示:模型均基于历史数据得到的统计结 传统方法通过寻找定价因子,计算目标组合beta,再通过优化技术让模仿组合beta和其相等,以此达到复制的目的。流程较长,每个流程都涉及不同的统计和优化技术。考虑复杂系统的不稳定性。 论且模型自身具有一定局限性并不能完全准确地刻画现实环境以及预测未来;模型根据历史规律总结,历史规律可能失效;模型结论基于统计工具得到,在极端情形下或存在解释力不足的风险,因此其结果仅做分析参考。 我们试图利用更直接的方法来复制,设计一种优化算法,直接利用基础资产的某种组合来跟踪目标组合的收益序列。事实证明,在优化方法构造得当的情形下,是可以利用较少基金组合来模仿目标组合的收益表现。我们利用统计学习中的利用稀疏优化算法,去求解跟踪误差最小化问题。 正文目录 1.效果3 2.调仓与每期持仓概况3 3.算法原理5 图表目录 图1:复制组合走势3 表1:每期持仓组合3 1、机器学习算法效果 利用20200101-20221125区间的普通股票基金的日度收益率数据,去复制万得普通股票型基金指数(885000.WI)。每个季度末调仓,每一期FOF组合大概有三十多个权益基金。模型思路是跟踪误差最小化,模型解法是机器学习算法,算法下文会展示。具体效果如下。 图1:复制组合走势 资料来源:中泰证券研究所 2、调仓与每期持仓概况 每个季度末调仓;每期大概三十多个基金构成组合。 表1:每期持仓组合 20220331 建信环保产业股票 6.57% 20220630 天弘中证计算机主题ETF联接A 6.19% 天弘文化新兴产业股票A 6.10% 金鹰信息产业股票A 4.77% 景顺长城新能源产业股票A 5.43% 工银养老产业股票A 4.30% 汇添富移动互联股票A 4.96% 大成科技消费股票A 4.28% 南方国策动力股票 4.91% 太平行业优选A 4.14% 鑫元核心资产A 4.82% 诺安研究精选股票 4.03% 富国医药成长30股票 4.57% 中银智能制造股票A 3.71% 东财中证证券保险指数A 4.40% 汇添富ESG可持续成长股票A 3.69% 汇添富外延增长主题股票A 4.23% 招商财经大数据股票A 3.45% 九泰久福量化A 4.22% 长信消费精选量化股票A 3.40% 南方医药创新股票A 4.10% 博时丝路主题股票A 3.05% 创金合信数字经济主题股票A 3.86% 富国高端制造行业股票A 2.94% 工银文体产业股票A 3.74% 南方量化成长股票 2.94% 金鹰科技创新股票 3.31% 创金合信研究精选股票A 2.82% 广发沪港深新起点股票A 3.26% 浙商智选食品饮料股票型A 2.69% 安信新常态股票A 3.22% 方正富邦中证保险 2.68% 安信盈利驱动股票A 3.16% 景顺长城新能源产业股票A 2.67% 景顺长城成长之星股票 2.91% 宝盈龙头优选股票A 2.66% 嘉实文体娱乐股票A 2.77% 招商行业精选股票 2.65% 招商科技动力3个月滚动持有股票 2.67% 永赢医药健康A 2.35% 国泰大健康股票A 2.40% 工银美丽城镇股票A 2.18% 海富通先进制造股票A 2.35% 南方ESG主题股票A 2.18% 泰康港股通TMT指数A 2.33% 汇添富外延增长主题股票A 2.17% 银华-道琼斯88指数 2.19% 申万菱信智能驱动股票A 2.14% 博时丝路主题股票A 1.88% 工银战略转型股票A 2.13% 华商高端装备制造股票A 1.65% 民生加银龙头优选股票 2.13% 广发资源优选股票A 1.54% 国泰央企改革股票 2.08% 红土创新医疗保健股票 1.36% 万家中证1000指数增强A 2.00% 长城量化精选股票A 1.10% 国寿安保创新医药股票A 1.85% 创金合信港股通成长股票A 1.84% 汇丰晋信港股通精选股票 1.68% 宝盈医疗健康沪港深股票 1.54% 九泰久福量化A 1.31% 金信消费升级股票A 1.30% 汇丰晋信中小盘股票 1.06% 前海开源沪港深非周期股票A 0.99% 建信食品饮料行业股票A 0.95% 上投摩根安全战略股票A 0.58% 东吴新产业精选股票A 0.47% 资料来源:Wind,中泰证券研究所 20220930 表2:最新一期持仓 工银农业产业股票 6.39% 泰达宏利首选企业股票 4.86% 鹏华改革红利股票 4.45% 嘉实消费精选股票C 4.35% 汇丰晋信中小盘股票 4.19% 建信中国制造2025股票A 3.83% 海富通上证周期ETF联接 3.80% 嘉实消费精选股票A 3.72% 易方达中证科技50ETF 3.47% 富国新兴产业股票A 3.46% 华商改革创新股票A 3.21% 汇添富民营新动力股票 3.20% 鹏华医疗保健股票 3.16% 银河康乐股票A 3.12% 鹏华养老产业股票 2.89% 汇添富外延增长主题股票A 2.82% 华宝品质生活股票 2.79% 北信瑞丰研究精选 2.70% 景顺长城沪港深领先科技股票 2.61% 工银医药健康股票A 2.59% 工银医药健康股票C 2.58% 华夏优势精选股票 2.35% 鹏华优选价值股票 2.31% 南方ESG主题股票A 2.28% 南方ESG主题股票C 2.26% 光大保德信消费股票 2.25% 广发港股通成长精选股票A 2.11% 广发港股通成长精选股票C 1.88% 创金合信创新驱动股票A 1.55% 创金合信创新驱动股票C 1.54% 创金合信数字经济主题股票A 1.52% 创金合信数字经济主题股票C 1.49% 汇添富外延增长主题股票C 1.42% 工银战略转型股票C 1.24% 平安中证光伏产业ETF 0.85% 易方达中证稀土产业ETF 0.51% 建信智能汽车股票 0.23% 资料来源:Wind,中泰证券研究所 3、复制思路 传统模仿组合理论是先找到完备的定价因子,然后计算出目标组合和各个基础资产在这些因子上的暴露,通过设定模仿组合里面资产的加权beta和目标组合的beta相等这个约束下,最小化模仿组合的残差来获得模仿组合。但是该方法有诸多缺点。首先,我们需要寻找到完备的定价因子,且解释度比较高,这本身就是个复杂的金融问题;其次,在此基础上,我们需要计算每个资产的beta系数,在多元回归下系数也存在估计误差问题。作者参考国外文献并且大量试验,效果不理想,而且传统方法工作量极大,耗费大量时间。 传统方法通过寻找定价因子,计算目标组合beta,再通过优化技术让模仿组合beta和其相等,以此达到复制的目的。流程较长,每个流程都涉及不同的统计和优化技术。考虑复杂系统的不稳定性,作者试图利用更直接的方法来复制,直接利用基础资产的某种 组合来跟踪目标组合的收益序列。事实证明,在优化方法构造得当的情形下,是有可能利用较少股票组合来模仿目标组合的收益表现,。当然了,表面上看似是“简单粗暴”的处理,其内部的算法设计有着很精细的考虑,并非套用某种优化算法或者人工智能算法都能产生较好的效果。需要特别说明的是,本文介绍的方法,计算效率高且日常无需维 护,具有较强的实用性和可操作性。 4、算法原理 传统方法通过寻找定价因子,计算目标组合beta,再通过优化技术让模仿组合beta和其相等,以此达到复制的目的。流程较长,每个流程都涉及不同的统计和优化技术。考虑复杂系统的不稳定性,我们试图利用更直接的方法来复制,设计一种优化算法,直接利用基础资产的某种组合来跟踪目标组合的收益序列。事实证明,在优化方法构造得当的情形下,是可以利用较少基金组合来模仿目标组合的收益表现。需要特别说明的是,文中介绍的方法,计算效率高且无需日常维护。 1 T 假设一个目标组合是一个指数,由N项资产组成。记rbrb,,rbRT, Xr,,rRTN分别为该指数及N项资产过去T天的(算术)净收益率,其中 1T rtRN为N项资产在�t天的净收益。 我们的目标是设计稀疏投资组合wRN,满足w11,以追踪指数,使得 Xwrb。相当于要解决的优化问题为: minimizeTE(w)+l‖w‖ w0 subjectto w1=1 0£w£u1 其中TE(w)代表一般跟踪误差,为控制投资组合稀疏性的正则化参数,以及 u为组合权重上限。 �0 范数由连续和可微(对于w0)函数近似: r(w)=log(1+w/p) p,u log(1+u/p) 其中p>0是控制估计的参数。于是转变成以下近似问题: minimizeTE(w)1ρ w p,u(w) (1) subjectto w1=1 0£w£u1 其中ρ p,u(w)p,u w1,, p,uwN 。 有多种类型的目标函数可供选择,例如经验跟踪误差(ETE)、下行风险(DR)、Huber经验跟踪误差(HETE)、Huber下行风险(HDR)等。此处,我们选取经验跟踪误差(ETE)为目标函数: ETE(w) rbXw2 1 T 2 因为经验跟踪误差就是我们常规的指数复制技术,选取该目标函数主要是为了验证优化算法,如果这个目标函数下,模仿组合能够跟住,那么说明这套优化算法是合适的。 无论选择何种跟踪误差类型,问题(1)都可以通过一种迭代的闭合形式更新算法——优化最小化来求解(迭代次数用k表示)。可以看 出,上述所有变化归结为以下凸问题的迭代优化: minimize w wwq(k)w 其中Wu subjectto [w|w11,0wu1], wWu q(k)RN 求解上述优化问题的算法细节请参考: 《稀疏统计学习极其应用》,作者为斯坦福大学两位统计学泰斗TrevorHastie、RobertTibshirani。 风险提示:模型均基于历史数据得到的统计结论且模型自身具有一定局限性并不能完全准确地刻画现实环境以及预测未来;模型根据历史规律总结,历史规律可能失效;模型结论基于统计工具得到,在极端情形下或存在解释力不足的风险,因此其结果仅做分析参考。 投资评级说明: 评级 说明 股票评级 买入 预期未来6~12个月内相对同期基准指数涨幅在15%以上 增持 预期未来6~12个月内相对同期基准指数涨幅在5%~15%之间 持有 预期未来6~12个月内相对同期基准指数涨幅在-10%~+5%之间 减持 预期未来6~12个月内相对同期基准指数跌幅在10%以上 行业评级 增持 预期未来6~12个月内对同期基准指数涨幅在10%以上 中性 预期未来6~12个月内对同期基准指数涨幅在-10%~+10%之间 减持 预期未来6~12个月内对同期基准指数跌幅在10%以上 备注:评级标准为报告发布日后的6~12个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中A股市场以沪深300指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准,美股市场以标普500指数或纳斯