卷在更高维-非线性因子挖掘探索20240731_导读 2024年07月31日21:53 关键词 因子生成因子选择投资决策超额收益相关系数机器学习模型飞行器因子累计曲线呼吸率预测性互信息散点图rankIC线性因子拥挤度有效性非线性因子分组收益率统计信息 全文摘要 本次报告深入探讨了非线性因子挖掘的方法及其在实践中的应用策略,强调了因子选择相较于因子生成更为重要但研究相对不足。首先,提出一个涵盖因子生成与选择的整体框架,并通过随机生成满足特定约束条件的一万种因子作为研究对象,目的是提高因子挖掘的效率。经过初步统计分析,发现大多数生成的因子具有一定的概率分布特性。报告进一步采用了多头超额平均法等手段对候选因子进行评估,重点关注如何通过不同的选择方法优化因子组合,从而提高预测能力和投资绩效。具体而言,讨论了基于rankIC的线性选择、呼吸机选择方案、互信息法以及分组收益率和相关系数的非线性选择等多种方法,并通过对比分析这些方法在超额收益率和相关系数方面的表现,揭示了非线性因素选择在提高模型有效性和降低拥挤度方面的优势。最终,通过复合筛选方法、相关系数检测等方式进一步验证了非线性因子挖掘在提升信息增益和控制风险方面的显著成效,为投资者提供了有价值的参考。 章节速览 ●00:00探索非线性因子挖掘与因子选择策略 本次报告重点讨论了非线性因子挖掘的方法及其在实际应用中的选择技巧。首先,提出了一个包括因子生 成和选择在内的综合框架,强调了因子选择的重要性并指出其相对于因子生成而言研究较少。接着,探讨了如何对候选因子进行评估和选择,涵盖了多种评价方法和逻辑启发式。最后,通过对比不同选择算法的效果以及它们对选股性能的影响,展示了如何有效地整合各种选择方法并对线性和非线性因素进行分析。 ●03:43随机生成与因子选择的实验研究 本研究采用GP算法随机生成一万种因子,基于30个日均量价指标及76个算子,生成的因子满足高度不 超过8、长度不超过60的约束。通过不同选择方法从这些随机因子中挑选出表现较好的进行后续评估和组合实验。研究关注的是如何提高因子挖掘的效率,并对生成的因子进行了基本统计分析,发现大多数因子的高度和长度集中在较小范围内,表现为特定的概率分布特性。 ●06:23因子值评价与超额收益分析 通过多头超额平均法评估因子值,使用历史分组收益率和未来收益率相关系数衡量因子的可预测性。 ●10:56因子选择与评价方案探讨 讨论了四种因子选择方案:基于rankIC的线性选择、基于呼吸机的选择方案、互信息法以及使用分组收益率和相关系数的非线性选择。介绍了每种方法的思想和应用,旨在提高因子的预测能力和模型效率。 ●12:41探索呼吸机特性与因子间非线性关系 通过对因子值和未来VIP收益率进行离散化处理,并应用特定公式计算互信息,分析显示呼吸机的计算方式基于因子之间的非线性关系,且具有良好的预测性。研究成果揭示了利用信息可以进行有效的工作预测。 ●15:21评估因子选择方法的有效性 通过比较不同的因子选择方法,如rankIC、互信息、分子收益率、分组收益率相关系数等,来评估其在超 额收益率和相关系数上的表现。结果显示,非线性因素的选择方法通常比线性因素表现出更好的效果,特 别是在减少拥挤度和提高有效性方面。 ●17:16探讨抽样与因子评价方法 通过对线性因子、户信息及货币基金等进行抽样分析,研究其在历史和测试集上的表现以及预测性。强调了多头超额收益率和分组相关系数的重要性,并提出将不同筛选方法复合以提高因子的选择准确性。 ●22:48探索因子选择与投资组合性能 讨论了通过复合因子筛选后的因子池表现、相关系数检测、因子时的换手率以及因子长度和高度的变化。 对比了线性因子和非线性因子的选择方法,并使用随机森林模型评估其对未来收益率的预测能力。结果显示,非线性因子挖掘在提高信息增益方面优于线性因子,特别是在控制风险和获得超额回报方面表现出色。 发言总结 ●发言人1 首先欢迎大家参加西部智能决策选举会议,然后简要介绍了会议的背景与目的:旨在探讨高维非线性因素 挖掘及墨家理论。他特别强调,此次电话会议仅为西部证券研究所客户服务,所提供的内容不能作为投资建议,投资者需自行承担决策风险。同时,发言人声明西部证券不对因使用会议内容而产生的损失负责,专家发言仅表达个人意见,不代表公司立场。此外,会议内容不会涉及国家保密信息或内幕消息,禁止传播可能引发不当炒作或股价波动的信息,以确保信息披露的规范性。最后,发言人提供了参会者互动的方式,并对会议进行了总结,希望所有参与者能享受愉快的投资体验。这段发言的主要目的是明确会议目的界定参与者责任、表明发言人立场,并确保会议互动及市场秩序的正常运作。 ●发言人2 他在会议上分享了其关于非线性因子挖掘的研究成果。他强调了因子选择的重要性和其在投资决策过程中 的应用,提出使用多头超额平均和因子的相关系数两种评价方法来衡量选择算法的效果。通过实验比较了基于rankIC的线性选择和基于互信息、分子收益率、分组收益率相关系数的非线性选择等多种算法,发现非线性选择方法通常能提供更高的信息增益。他还探讨了如何将不同的选择方法相结合,以提高筛选结果的质量,并通过实验验证了这一方法的有效性。最后,他指出其研究目的在于系统地评估各种选择方法的有效性,为投资者提供更优的投资策略。整个发言集中于展示非线性因子选择在投资领域的应用价值及其实验验证的过程。 要点回顾 本次会议的主要议题是什么? 发言人2:本次会议的主要议题围绕在非线性因子挖掘,特别是探讨因子生成与因子选择这两个核心环节。 报告将详细阐述因子挖掘框架,并重点讨论如何评估和优化因子选择策略,同时对比不同选择算法对选股效果的影响。 因子选择的关键在于什么?为何它是值得关注的研究领域?如何构建并应用一种新的因子选择框架进行研究? 发言人2:因子选择在因子挖掘中扮演着至关重要的角色,尽管它相对于因子生成部分较少被深入研究。 传统的市场观点倾向于重视诸如历史表现良好、可解释性强等因素的选择标准,但这实际上是一个极具挑战且亟待研究的问题。通过对因子池进行合理评估和多种选择算法的实验,研究发现因子选择的有效性与 挖掘效率密切相关。新提出的因子选择框架包含两大部分:一是确定如何评价一个因子池;二是基于此评估方法尝试不同的因子选择算法。研究过程中,首先采用随机生成大量表达式的方法创建了基于特定指标和算子的1万个因子,这些因子满足一定的约束条件如高度和长度限制。随后,运用各种因子选择算法从中选取优秀因子,进一步对其有效性进行量化分析,并探讨了线性和非线性选择方法之间的差异及最优实践。 如何通过算法选择确定因子池的有效性及预期超额回报? 发言人2:为了评估因子选择算法的效果,首先将特定算法应用于因子一至因子三,得出各自的多头收益 率。接着计算这些多头收益率的均值,得到因子池的多头超额平均值,这一指标反映该算法对应因子池的选择性能。预期超额回报越高,表明该选择算法越有效。 如何通过累加曲线评估因子值的历史超额收益情况? 发言人2:另一个衡量因子选择效率的方法是在多个时间切片的基础上进行累积分析,绘制出曲线来展示 因子值多头超额收益率随时间的变化趋势。对比基准(一万因子的多头超额收益均值)与算法选出的超额收益均值之间的差异,即选择增益,以此量化算法带来的额外收益。 提出四种不同类型的因子选择方案及其背后的逻辑原理是什么? 发言人2:文章提出了四种不同的因子选择方案,其中包括基于排名IC的线性因子选择法、基于分组收益 率信息比率的非线性因子选择方案以及两种针对分组收益率相关系数和深度学习建模效果的设计。每一种方案都有其独特的思考逻辑,旨在捕捉因子内部的规律性和对未来收益预测的价值。 如何通过不同方法对因子进行评估并选出最优策略?不同筛选方法对因子的表现有何差异及其潜在原因是什么? 发言人2:在因子选择过程中,采取了五种方法进行评判,并通过多头超额收益率和相关系数等指标对比 它们的表现效果。结果显示,直接选取全部因子(即不设置基准)的结果是最差的。其中,线性因子由于被广泛应用而导致其拥挤度上升和有效性降低。而互信息、分子收益率以及分组收益率相关系数等方法展现出较好的效果,且根据使用的评估标准不同(多头超额收益率或相关系数),其表现各异。线性因子 (rankIC)因其普遍采用而导致拥挤度增加及有效性降低,表现为超额收益率较低且相关系数较弱。而互信息虽然具有较强的预测性,但在实际应用中可能存在因子挖掘出的风险性较强的问题,导致其线性规律不明显。此外,基于多头超额收益率与分组收益率相关系数的两种筛选方法均有优异表现,尤其是结合非 线性因素的挖掘能有效提高多头超额收益率并保持稳定性和信息含量较高。最后,将多种筛选方法进行复合操作(例如取前5%因子进行叠加),进一步提升了筛选效率与因子性能指标,使最终筛选出的因子表现出更高的超额收益率和更强的相关系数。 筛选后的因子池相关系数如何? 发言人2:通过相关系数测试得知,经过筛选的因子池存在一定的趋同性,但相关系数并不算太高,大致 处于0.3至0.45的范围内,并且随着时间推移有所波动。 因子池的换手率是多少?筛选后的因子具有哪些变化特征? 发言人2:因子池的换手率约为67%,这意味着每20天重新进行因子筛选后,所选因子与之前相比会有 约67%的比例保持一致。筛选后,因子的长度和高度显著减少。例如,原来大部分因子长度和高度都在30以内,而现在大部分则小于等于10和4。 线性因子池与非线性因子池的数量对比情况如何?使用不同类型的因子构建投资组合的效果如何? 发言人2:线性因子池的数量稳定在90左右,而非线性因子池也差不多同样数量级别,两者交叉出现的因 子非常少,可以说有一定的互斥性。采用线性因子建立的投资组合IC较低(0.037),而采用非线性因子构建的投资组合相关系数更高,IC约为0.052。此外,非线性因子组合从2021年开始展现出较好的收益水平。