研究与投资咨询部 格林大华量化研究 联系电话:0371-56518942 专题报告 2022年8月17日 基于Barra因子的股指期货量化策略(二):股票因子回测 摘要 说上一篇专题报告我们介绍了因子回测的概念,本篇专题报告将介绍因子回测的流程。 第一步,设计因子。可以根据自己的交易方法设 计因子,可以参考市场已有的常用因子。 第二步,计算数值。选择样本范围和回测区间,根据公式计算每只股票在每个交易日的因子数值,再进行截尾化、标准化的数据处理。 第三步,因子评价。回答因子数值是否有一定的参考价值的问题,是否因子数值越高,次日收益率越高,如果没有那么明显的正相关性,那么退而求其次,是否有微弱且稳定的正相关性。 第四步,回测调优。对因子定义、股票范围、多空组合等不同维度进行测试,回测调优后获得较好的结果后,先进行模拟盘交易,最终以实盘获利为目标。 整个因子回测的流程很像考试,出卷子、考试、改卷子、模拟考试、正式高考。高考有明确的规律,出卷子可以参照高考的题型,相较之下投资的规律就扑朔迷离了太多,设计因子能不能体现一定的规律,对回测的结果有至关重要的影响。 一.设计因子 本文没有自己设计因子,而是采用了市场上成熟的多因子模型。Barra模型是MSCI明晟公司研发的金融风控模型。第一个为美国市场设计的多因子模型于1975年发布,称为BarraUSEquityModel1(USE1),第一个为美国市场设计的多因子模型于1975年发布,称为BarraUSEquityModel1(USE1),USE2于1985年发布,USE3于1997年发布,USE4于2011年发布。Barra模型经受了众多金融机构的实证检验,经久不衰,生机蓬勃。 2012年7月明晟公司发布了针对中国市场的模型BarraChinaEquityMode(lCNE5), 包括10个大类因子、21个小类因子。6年之后的2018年8月发布的CNE6,将因子进一步细分和扩充,包括9个一级因子、21个二级因子、46个三级因子。 图1:CNE6因子结构 二.计算数值 例如CMRA,CumulativeRange,累计超额收益离差,如图2所示,因子定义为过去 1年累计对数超额收益率的离差值。具体来说,首先将股票的每日收益率,减去无风险 利率,得到超额收益率。其次以当前日期的前一年为起点,以当前日期为终点,计算这段时间每一天的累计收益率。最后用累计收益率的最大值减去最小值,即得到离差值。 图2:因子定义示例 对于本次回测的所有因子,股票范围是沪深300指数的样本股,时间跨度为 2016.01.01至今,使用的数据包括行情、财务、股本等公开数据,数据频率为日度、季 度。通过程序计算得到每一只股票、每个交易日的原始因子数值。图3列举了一只股票在一段时间内四个因子的原始数值。 图3原始因子数值 在评价因子有效性之前,还需要对原始因子数值进行截尾化和标准化。 截尾化,主要用于处理异常值,把均值加减3倍标准差作为正常值的范围,把超出正常值范围的值拉回到正常值边界。就像切黄瓜,砍掉头尖,砍掉屁股,掐头去尾,保留主体部分。从统计角度,削弱异常值的影响,使回测结果更稳定。从回测角度,异于常态的情况未来难以再次发生,因此将异常情况向常态靠拢,建立起过去和未来的联系。 值得注意的是,截尾化并没有删除异常值,异常值被拉回到正常值边界后,绝对值仍然是最大的。 图4:截尾化和标准化后的因子数值 标准化,用原序列的每个值先减去原序列均值再除以原序列标准差,得到的新序列均值为0,标准差为1。零均值可以将原序列的数值由绝对性变换为相对性,统一标准差可以将不同序列的数值变换为同样的标准。图4列举了一只股票在一段时间内四个因子经过截尾化和标准化后的因子数值。 三.因子评价 第一种衡量方法,交易角度,即以因子数值作为买入权重,看次日是否赚钱。具体来说,以因子数值的正负作为买入方向,正值做多,负值做空;以因子数值的大小作为买入权重,数值大的权重更高。下个交易日收盘后,观察每只股票的涨跌,如果做多上涨、做空下跌,说明因子预测次日涨跌有效,做多权重越大,次日上涨越多,说明因子有效性越强。 图5:因子单日收益率 以上得到的是因子在某一天对某一只股票的有效性,更进一步,综合评价因子的话,需要将每只股票的因子数值和次日涨跌对应相乘,再取平均值,可以得到某一天因子的整体有效性,如图5所示。再将衡量有效性的观察期从某一天扩展为一段时间,就可以得到因子有效性曲线。 因子数值对次日涨跌的预测不可能对所有股票都正确,也很难对十之七八的股票都正确,但是只要正确率过半、收益率为正,再在较长的时间窗口下表现稳定,或者退一步进两步,最终积小胜为大胜,都可以认为因子是有效的。 图6:因子累计收益率 在衡量因子有效性时,我们会做空一些股票,但是A股市场有些股票没有融券做空机制,这并不影响结果,我们只是对因子数值预测次日涨跌的准确性做一个评价,并不涉及真实交易。 我们现在回头再看标准化的金融含义,一方面,由于因子自身的定义,计算出的因子数值可能全为正,数值量级也有所差异,如图3所示。结合前述从交易角度衡量因子有效性的方法,如果所有股票都做多,且权重量级不同,显然会出现混乱,因此需要进行标准化的数据变换,将所有因子的数值调整至相同的标准下进行比较。另一方面,零均值是为了避免净买入或者净卖出,大多数股票上涨的时候,因子的净买入有更大概率赚钱,因子的净卖出更可能导致亏损,那么评价因子就夹杂进了大盘的趋势性因素,因此需要给予剔除。标准差为1是为了不同因子之间以同样的尺度做比较,因子赚钱的时候,买入权重越高,因子收益越高,而这样的高收益并不能完全代表因子的预测更准确,因此需要统一标准。需要注意的是,先截尾化,再标准化,如果颠倒顺序,得到的序列标准差可能不为1。 第二种衡量方法,统计角度。与交易角度殊途同归,交易角度是将当日的因子序列和次日的收益率序列对应相乘,统计角度是计算这两个序列的相关性。常用的指标有IC、IC_IR,对应Pearson线性相关系数,以及RankIC、RankIC_IR,对应Spearman秩相关系数,看两个序列是否有同正同负的现象,以及这种现象是否稳定。详细说明可参见之前发布的五篇《Barra模型专题报告》的附录二因子评价指标。 四.回测调优 以上两种衡量方法在计算因子收益或相关性时有一些前置设定,测试不同的设定可以从不同维度细化因子回测。 第一个隐含条件,单调性。因子数值预测次日涨跌时,正值看涨做多,负值看跌做空,也就意味着因子数值是从高到低排列,正比负好,高比低好。如果因子在使用时是低比高好,比如市盈率,那么设计因子公式时需要反转符号,就可以满足单调性。如果因子是中间的某个值最好,比如速动比率通常认为在1.5达到最合理,同样可以通过公 式上的数学变换满足单调性,以所有数值先减去1.5再取绝对值得到从低到高排列最优,最后反转符号得到从高到低排序最优即可。同样,如果速动比率存在非对称性,例如虽 然以1.5为中心,但是1优于2,可以通过分段函数调整。 第二个隐含条件,相对性。在对因子原始数值进行标准化时,一只股票的新因子数值,不仅取决于自身,还与其他股票的因子原始数值相关,例如90/100/110,零均值化后得到-10/0/10,如果是90/100/140,零均值化后得到-20/-10/30,可见将第三个数值从110改为140后,对于前两个数值会产生影响。 第三个隐含条件,整体性。根据因子数值做多做空时,全部股票均参与了计算,其实还可以选部分股票测试,例如某一行业的股票,例如仅对因子数值为正的股票做多,例如因子数值靠前的前20%的股票。另外,在时间跨度上,有些因子可能在牛市有效性较高,测试时分为牛市、熊市、震荡市,未来应用于对应大盘走势的情况。在细化维度时,要特别注意测试的样本量不能太少,或者说涵盖的股票或时段不能太少,因为细化维度后总会出现特别有效和特别反向的结果,但是很难解释为什么,更加重要的是未来很难重复具有强烈特殊性的历史。 第四个隐含条件,隔日交易。以因子数值为买入权重后,我们观察的是次日收益率,相当于持有一日后卖出。对于有些财务因子,或者计算时取值最近一年或两年的因子,因子数值所揭示的走势可能延长至周、月、季,因此还可以把收益率的观察窗口由隔日拉长至5个交易日、1个自然周、10个交易日等。 对于回测结果,如果因子收益率很差,例如-50%,其实也是很有价值的,因为一旦反转交易方向,收益率就是100%,只是需要思考为什么回测结果与因子设计背道而驰,在未来是否仍会如此。可见,因子回测结果最不好的是类随机性,在任何股票范围、任意时间段都表现的飘忽不定,不知道哪块云彩下面有雨。 另外,其一是无意间使用了未来函数,使得回测收益虚高,其二是回测准确、收益不错时,未来并未重复过去,这两种情况会导致实盘收益明显低于回测结果,而回测系统已无力避免。因此,在回测和实盘之间,通常会加入模拟盘,用回测和模拟盘的双保险为实盘交易保驾护航。虽然模拟盘的正收益等同于未直接进行实盘的损失,但是对于一个稳健持重的交易系统,模拟盘是必要的步骤。 至此,本篇专题报告介绍了我们多因子模型回测的整个流程,包括设计因子、计算数值、因子评价、回测调优。 前面的两篇专题报告介绍了量化交易是什么,步骤是怎么样的,为什么要这么做, 更准确的说是量化交易的分支之一多因子模型。 对于广大投资者,随之而来的一个问题,“我可以拥有一个量化策略吗?”。笔者认为这取决于您有没有一个交易方法,或者想不想去寻找一个交易方法,从最开始的选股、再逐渐加入择时,有聚焦的某个行业,再去修改、优化、打磨它。量化交易体现的是一种注重过程、精益求精的做事方法。如果喜欢追根溯源,修修剪剪的方式,可以尝试构建一个量化策略。如果有过一种交易方法,赚过钱,也亏过钱,也会想为什么亏钱,还做过一些记录或者心得,就像学生的错题本,就已经构成了量化交易的思维方式。 下一篇专题报告《基于Barra因子的股指期货量化策略(三):仿真交易系统》将详细介绍股指期货策略构建和交易细节。 重要声明 本报告中的信息均来源于公开资料,我公司对这些信息的准确性及完整性不作任何保证,不保证报告信息已做最新变更,也不保证分析师作出的任何建议不会发生任何变更。在任何情况下,报告中的信息或所表达的意见并不构成所述期货品种买卖的出价或询价。在任何情况下,我公司不就本报告中的任何内容对任何投资作出任何形式的担保,投资者据此投资,投资风险自我承担。我公司可能发出与本报告意见不一致的其它报告,本报告反映公司分析师本人的意见与结论,并不代表我公司的立场。未经我公司同意,任何人不得对本报告进行任何形式的发布、复制或对本报告进行有悖原意的删节和修改。