您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:高频非线性选股因子的线性化与失效因子的动态纠正 - 发现报告
当前位置:首页/其他报告/报告详情/

高频非线性选股因子的线性化与失效因子的动态纠正

2023-02-02高智威国金证券如***
高频非线性选股因子的线性化与失效因子的动态纠正

高频因子中非线性与失效问题普遍存在 随着因子选股模型研究的逐步深入,我们发现高频因子与股票预期收益之间常常并非是严格的线性关系,这类因子不能直接纳入多因子模型。另一方面,部分高频因子会出现阶段性失效的问题,从之前的单调因子变为不单调因子,我们需要对其进行动态纠正以转换为持续有效的因子。本篇报告是Alpha掘金系列的第三篇,我们将对非线性因子进行线性化处理,同时对失效因子进行纠正,使其纳入线性多因子模型中。 线性转换与纠正方法 研究发现,线性转换方法不仅可以对此前不单调的因子处理为单调的因子,同时也可以动态对部分时间段失效的因子进行纠正,使因子的有效性更加持续。我们分别对分段线性近似、线性插值、多项式拟合和分段线性回归等四种方法进行线性转换的测试,转换后因子的多空组合年化收益率相比转换前分别提升了10.30%、11.37%、9.77%和10.55%。在插值类方法中,线性插值优于分段线性近似,而在拟合类方法中,分段线性回归优于多项式拟合。其中,分段线性回归方法集合了另外三种转换方法的优点,而且使用该方法转换后,价格区间占比因子的IC水平和多空组合的年化收益率均值相对较高。因此,对于这类价格区间占比因子而言,最佳的转换方法是分段线性回归。 高频线性重构因子日频和周频预测能力显著 将分段线性回归处理后的价格区间因子等权合成为高频线性重构因子,并对其进行行业市值正交化。日频测试中,正交化后的高频线性重构因子IC均值为3.13%,ICIR为0.51,多空组合年化收益率达到了62.57%,夏普比率达到了7.67。 为了满足大多数机构投资者的需要,我们通过加权移动平均的方法降低因子预测频率到周频,并将降频处理后的因子等权合成为周频线性重构因子。行业市值正交化之后的周频线性重构因子IC均值达到3.81%,ICIR为0.52,多空组合年化收益率为28.39%,夏普比率为2.89。 基于周频线性重构因子的中证1000指数增强策略 正交化后的周频线性重构因子对股票未来收益具有显著的预测能力。我们基于这一因子构建了中证1000指数增强策略,策略实现了7.53%的年化收益率,相比基准取得11.03%的年化超额收益率,信息比率为1.47。 为了提高策略的稳定性,我们还将正交化后的周频线性重构因子与传统因子以及周频量价背离因子一起构建策略。合成的线性重构增强因子IC均值达到8.00%,多空组合年化收益率达到了64.38%,夏普比率达到5.35。基于线性重构增强因子的策略表现亮眼,年化收益率达到18.83%,相比中证1000指数取得了23.24%的年化超额收益率,信息比率达到3.41。 风险提示 1、以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。 2、策略依据一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、高频因子中非线性因子与失效因子4 二、构建分段差值和回归的非线性转换方法5 2.1分段线性近似方法5 2.2线性插值方法10 2.3多项式拟合方法12 2.4分段线性回归方法14 2.5最优转换方法的选取与因子降频方法15 三、基于高频线性重构因子的中证1000指数增强策略17 3.1合成高频线性重构因子17 3.2基于高频线性重构因子的中证1000指数增强策略20 3.3结合传统因子的中证1000指数增强策略21 四、总结24 风险提示24 图表目录 图表1:因子线性转换体系示意图4 图表2:低价格区间成交笔数因子(20%)分位数组合年化超额收益率5 图表3:低价格区间成交量因子(20%)分位数组合年化超额收益率5 图表4:分段线性近似方法示意图(M取5分组)6 图表5:分段线性近似转换前后低价格区间成交笔数占比因子的IC统计6 图表6:分段线性近似转换前(左)后(右)低价格区间成交笔数占比因子(10%)分位数组合表现7 图表7:分段线性近似转换前后低价格区间成交笔数占比因子的多空组合表现7 图表8:分段线性近似转换前(左)后(右)低价格区间成交笔数占比因子(10%)分位数组合净值7 图表9:分段线性近似转换前后低价格区间成交量占比因子的IC统计7 图表10:分段线性近似转换前(左)后(右)低价格区间成交量占比因子(20%)分位数组合表现8 图表11:分段线性近似转换前后低价格区间成交量占比因子的多空组合表现8 图表12:分段线性近似转换前(左)后(右)低价格区间成交量占比因子(20%)的分位数组合净值9 图表13:不同回溯交易日数N对转换后因子表现的影响(M取5组)9 图表14:不同分组个数M对转换后因子表现的影响(N取120交易日)9 图表15:价格区间占比因子在分段线性近似转换前后的因子统计特征(M取10组,N取120日)10 图表16:线性插值方法示意图(M取10组)11 图表17:价格区间占比因子在线性插值转换前后的的因子统计特征(M取10组,N取120日)11 图表18:多项式拟合方法示意图(M取100组)13 图表19:价格区间占比因子在多项式拟合转换前后的因子统计特征(M取100组,N取120日)13 图表20:分段线性回归方法示意图(M取100组)14 图表21:价格区间占比因子在分段线性回归转换前后的因子统计特征(M取100组,N取120日)15 图表22:四种转换方法转换后因子IC和多空组合年化收益率15 图表23:分段线性回归的参数敏感性分析16 图表24:价格区间占比因子转换后周频统计特征16 图表25:转换后大类因子的相关系数(日频)17 图表26:高频线性重构因子日频IC统计和多空组合表现17 图表27:高频线性重构因子日频分位数组合年化超额收益率18 图表28:高频线性重构因子日频多空组合净值18 图表29:高频线性重构因子周频IC统计和多空组合表现19 图表30:高频线性重构因子周频分位数组合年化超额收益率19 图表31:高频线性重构因子周频多空组合净值19 图表32:高频线性重构中证1000指数增强策略表现20 图表33:高频线性重构中证1000指数增强策略指标20 图表34:高频线性重构中证1000指数增强策略分年度收益率21 图表35:周频线性重构因子与其他类型因子的相关系数21 图表36:中证1000成分股中各因子IC和多空组合表现(周频)22 图表37:中证1000成分股中各因子多空组合净值(周频)22 图表38:线性重构增强策略表现23 图表39:线性重构增强策略指标23 图表40:线性重构增强策略分年度收益率24 一、高频因子中非线性因子与失效因子 多年来,学术界和业界广泛应用多因子模型,取得了丰硕的研究成果。但是,传统多因子模型的前提假设是因子数值与股票的预期收益之间呈现线性关系。随着因子选股模型研究的逐步深入,我们越来越重视高频数据,由此发现高频因子与股票预期收益之间常常并非是严格的线性关系,部分高频因子呈现出稳定的非线性特征。这类因子不能直接纳入多因子模型,但由于这些高频因子数量较多,且能够提供股票市场日内微观结构的额外信息,本身具有较高的研究意义,这类因子直接舍弃比较可惜。另一方面,有的高频因子会出现阶段性失效,从此前的单调因子变为不单调因子,我们需要对其进行动态纠正以转换为持续有效的因子。如何通过线性转换的方法将这两类因子应用起来是本篇报告研究的重点。 本篇报告是Alpha掘金系列的第三篇,我们将对非线性因子进行处理,从而使其线性化,同时对失效因子进行纠正,使其纳入线性多因子模型中。本文将介绍四种方法,分别是分段线性近似、线性插值、多项式拟合以及分段线性回归,如下表所示。应用这些线性转换方法,对原本单调线性的因子,其转换后信息损失应较低,同时可以将原本不单调的非线性因子,大幅改善其线性特征。为了验证线性转换方法的有效性,我们利用此前构建的基于高频快照数据的价格区间占比类因子,其中的若干因子具有明显的非线性特征。 图表1:因子线性转换体系示意图 来源:国金证券研究所 我们基于快照数据中的高频量价数据构建了高低价格区间的成交笔数占比因子、成交量占比因子和平均每笔成交量因子。高价格区间包含处于全天的价格序列较高分位数的快照,而低价格区间则包含处于较低分位数的快照。 高低价格区间成交笔数占比因子是价格区间内所有快照的成交笔数累加与全天成交总笔数的比值。 ∑� 𝑚𝑎𝑡𝑐ℎ𝑖𝑡𝑒𝑚�∗𝐼[𝑗∈𝑠𝑒𝑡_𝑎] 高低价格区间成交笔数占比=𝑗=1 ∑ � 𝑗=1 𝑚𝑎𝑡𝑐ℎ𝑖𝑡𝑒𝑚� 𝐼[𝑗∈𝑠𝑒𝑡_𝑎]表示快照所属区间的判断,其中,set_a代表处于高低价格区间的快照集合。 高低价格区间成交量占比因子是价格区间内所有快照的成交量累加与全天总成交量的比值。 ∑� 𝑣𝑜𝑙𝑢𝑚�∗𝐼[𝑗∈𝑠𝑒𝑡_𝑎] 高低价格区间成交量占比=𝑗=1 ∑ � 𝑗=1 𝑣𝑜𝑙𝑢𝑚� 高低价格区间平均每笔成交量因子是将目标价格区间内的平均每笔成交量与全天平均水平进行比较。 ∑� 𝑣𝑜𝑙𝑢𝑚�∗𝐼[𝑗∈𝑠𝑒𝑡_𝑎] /∑� 𝑚𝑎𝑡𝑐ℎ𝑖𝑡𝑒𝑚�∗𝐼[𝑗∈𝑠𝑒𝑡_𝑎] 高低价格区间平均每笔成交量因子=𝑗=1𝑗=1 ∑ /∑ � 𝑗=1 𝑣𝑜𝑙𝑢𝑚� � 𝑗=1 𝑚𝑎𝑡𝑐ℎ𝑖𝑡𝑒𝑚� 我们将这三大类因子在中证1000和中证800股票池范围内进行分位数组合测试,我们注意到,很多因子的分位数组合年化超额收益率呈现明显的不单调的特征,例如低价格区间成交笔数与成交量占比因子。在这种情况下,因子的多空收益很低,且Top组合的收益也不理想,这类因子很难直接应用在传统多因子模型中。 图表2:低价格区间成交笔数因子(20%)分位数组合年化超额收益率 图表3:低价格区间成交量因子(20%)分位数组合年化超额收益率 1 2 3 Bottom Top 4% 3% 2% 1% 0% -1% -2% -3% -4% -5% 年化超额收益率 3% 2% 1% 0% -1% -2% -3% -4% -5% -6% 年化超额收益率 Top 1 2 3 Bottom 来源:Wind,上交所,深交所,国金证券研究所来源:Wind,上交所,深交所,国金证券研究所 低价格区间成交笔数与成交量占比因子能够分别反映股票日内价格低区间内投资者的成交聚集度和交易活跃度,二者均为符合经济学逻辑的有价值的因子。因此,我们亟需找到一些处理高频因子非线性特征的方法,完成非线性到线性关系的变换,从而使上述因子能够充分发挥其预测作用,提高多空组合的收益。 很多投资者会基于机器学习和人工智能方法处理这类非线性问题,但由于这些方法往往不是非常通俗易懂,并不是所有投资者都能接受,因此本报告开发了基于差值和回归的分段转换方法,避免了上述问题,也取得了较好的效果。在理论上,这些转换方法可以应用于任意非线性特征较为稳定的因子。接下来,我们将以高频价格区间占比因子为例,介绍四类转换方法的特点和有效性。 二、构建分段差值和回归的非线性转换方法 接下来,我们将依次介绍四种处理因子非线性特征的方法,并对转换后的因子进行测试,观察因子收益的线性特征是否改善,多空组合的表现是否提升。随后,我们将比较四种方法的转换效果,筛选出针对这类高频价格区间占比因子的最佳转换方法,并对其进行参数敏感性分析。对于价格区间占比因子,其利用的是高频快照数据,最快可以对下一交易日进行预测,我们将先以日频周期为例进行研究,后续将降频到周频,以满足大部分投资机构的要求。 2.1分段线性近似方法 面对因子值与收益率之间的非线性关系,我们首先会产生一个朴素的想法,即把股票按因子值的大小分成若干组,用每组的平均收益代表组内股票的预期收益,然后根据过往的每组的收益率分布,在分布稳定的假设基础上,将不同组的因子值转化为未来收益率的预测值,从而达到线性转换的目的。 2.1.1分