您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东证期货]:股指期货择时策略系列二:日间时序择时策略的因子化框架 - 发现报告

股指期货择时策略系列二:日间时序择时策略的因子化框架

2024-07-02常海晴东证期货B***
股指期货择时策略系列二:日间时序择时策略的因子化框架

深度报告-金融工程 股指期货择时策略系列二:日间时序择时策略的因子化框架 报告日期:2024年7月3日 ★策略构建思路 本篇报告系统构建了时序择时策略的因子化框架,初步构建的股指择时因子库包括期货量价因子、标的指数技术指标、成分股技术指标构成的扩散指标、成分股基本面指标构成的扩散指标、市场风格和资金面指标,分别测试了单因子等权配置、OLS多因子模型、Xgboost模型的效果,经过特征选择和调参处理三种方法均在样本内外取得了较稳健的表现。单因子等权配置的关 键是需要在样本内筛选出相关性较低的单因子并在样本外等权配置,相当于手动组合了多个相关性较低的弱学习器;OLS多因子模型的关键是样本内的特征选择,本篇报告尝试使用递归特征消除法,该方法在日频、周频、月频收益率的预测上均取得了比较稳健的表现;Xgboost模型的关键则是特征和超参的选择,本篇报告对此处的特征选择方法未做太多的尝试,主要对超参进行了调整,在不同指数收益率的预测上最优超参数的取值范围有一定的相近之处。 ★策略回测结果 单因子等权:等权配置训练集上夏普大于0.8、相关性小于 0.2的因子,全样本四个指数平均夏普为1.55,但样本外平均夏普骤降至0.27;倘若等权配置训练集上夏普大于0、相关性小于0.2的因子,从全样本到样本外,平均夏普只从1.01下降至0.69。 多因子模型:日频预测下,多因子模型整体得到了较好的回测结果和较稳定的样本外表现。OLS多因子模型在上证50、沪深300、中证500、中证1000上全样本回测夏普分别为0.46、0.73、 0.89、1.00,年化收益分别为8.9%、14.0%、19.0%、23.5%,日度胜率分别为51.7%、52.1%、53.8%、52.0%,平均持仓周期在2周左右;Xgboost模型在上证50、沪深300、中证500、中证1000上全样本回测夏普分别为0.65、0.54、0.89、0.88,年化收益分别为12.3%、10.3%、19.1%、21.0%,日度胜率分别为51.7%、52.1%、53.8%、52.0%,平均持仓周期在1周左右。 ★致谢 感谢实习生张俊松同学对本篇报告的贡献。 常海晴金融工程分析师 从业资格号:F03087441 投资咨询号:Z0019497 Tel:8621-63325888-4191 Email:haiqing.chang@orientfutures.com 扫描二维码,关注“东证繁微”小程序 金融工程 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 金融工程-深度报告2024-07-03 目录 1、股指期货择时与套利时序策略的因子化框架3 2、日间择时策略构建思路4 3、择时因子构建5 3.1、期货量价因子5 3.2、标的指数与成分股技术指标6 3.3、成分股基本面指标6 3.4、市场风格、资金面相关指标8 4、单因子检验与策略构建8 5、多因子模型训练与策略构建16 6、总结24 7、风险提示25 8、附录25 2期货研究报告 1、股指期货择时与套利时序策略的因子化框架 时间序列上单品种择时策略的构建通常有两种思路:因子型和规则型。规则型策略的优势是逻辑清晰,便于分析策略适用环境和策略失效原因,缺点在于策略的构建依赖于市场观察和灵感,对于每一条规则可能均需要重新编写代码,不便于进行策略迭代;因子型策略的优势在于方便进行批量的因子挖掘和策略迭代,模型角度有较多可借鉴的经验,但是缺点在于随着模型的复杂程度提高,策略逐渐黑箱化、解释性变差,难以进行收益归因。规则型和因子型的思路各有优劣但在一定程度上可以相互融合、相互转化:一方面大部分规则型可以向因子型转化,另一方面,因子型的策略构建过程中,每一个单因子可以视为一个规则,批量因子挖掘后对有效因子进行分析亦可提炼并优化其中的逻辑,并转换为交易规则。在之前的多篇深度报告中我们已经对股指期货择时和套利策略的因子型框架进行了多方面探索,包括《基于机器学习的跨期套利策略》《市场广度指标在指数择时与轮动中的线性与非线性应用》《股指期货日内价格规律与择时策略构建》,在之前报告的基础上,本篇旨在进一步梳理时序因子化框架构建的流程和方法,并应用在股指的日间择时策略上。 图表1:规则型和因子型策略构建思路优劣对比 策略构建思路 新因子/规则的产出效率 代码 解释性 适用交易频率 因子型 较高,可以充分利用现有数据、各种衍生算法包括遗传算法批量产出因子; 可以构建统一的单因子检验和筛选、多因子模型训练与预测的统一框架,方便进行策略升级迭代 随着模型的复杂化,模型容易过拟合且策略解释性变差,难以进行收益归因并分析策略适用环境 复杂模型需要较多样本进行训练,适合样本量较大的中高频策略 规则型 较低,需要大量观察总结市场规律和主观灵感 对于一条新规则可能需要从头开始撰写代码,策略迭代较繁琐 解释性较好,方便进行收益归因并分析策略适用环境 可以根据不同交易频率构建相适应的规则 资料来源:东证衍生品研究院 时序因子化框架的构建流程包括确定目标变量、因子构建、单因子的检验和筛选、多因子模型的训练和预测、将目标变量转换为交易信号并回测。 图表2:股指期货择时和套利策略的因子化研究框架 资料来源:东证衍生品研究院 2、日间择时策略构建思路 目标变量的确定:对于日间择时策略,我们重点将股指期货的四个标的指数上证50、沪深300、中证500、中证1000指数的收益率作为预测目标。实际交易中我们希望利用收盘后数据构建相关因子,第二天开盘交易,故将opentoopen的收益率作为预测目标;并分别把未来1、5、20日收益率作为预测目标,分别构建日频、周频和月频的预测信号。 因子构建:本篇报告初步构建的股指择时因子库包括期货量价因子、标的指数技术指标、成分股技术指标构成的扩散指标、成分股基本面指标构成的扩散指标、市场风格和资金面指标,后续将持续扩充因子库。 单因子检验与筛选:对于单因子进行多维度的检验并构建策略。对所有因子计算其滚动IC值、进行OLS和回归树的滚动预测,预测收益率为正则做多,预测收益率为负则做空,得到回测结果,并筛选样本内表现较好且相关性较低的因子在样本外进行等权配置。 多因子模型训练与预测:将2023年前作为训练集,2023年后作为验证集,在训练集上进行因子筛选与交叉验证调参,并在验证集上检验模型在样本外的表现。 手续费:涉及策略回测均使用万一的手续费率。 3、择时因子构建 3.1、期货量价因子 74个共6类股指期货基差价差、成交持仓相关的指标,进行进一步的运算,包括取 5日均值、一阶差分、一阶环比、一阶差分后取5日均值、一阶环比后取5日均值,然 后使用层次聚类将以上每类及其拓展指标分成至多20个相关性较低的类别,从每类中 指标类别 指标 基差 当月基差,下月基差,当季基差,下季基差,当月年化基差率,下月年化基差率,当季年化基差率,下季年化基差率,当月基差(剔除分红),下月基差(剔除分红),当季基差(剔除分红),下季基差(剔除分红),当月年化基差率(剔除分红),下月年化基差率(剔除分红),当季年化基差率(剔除分红),下季年化基差率(剔除分红) 价差 次月较当月价差,当季较当月价差,下季较当月价差,当季较次月价差,下季较次月价差,下季较当季价差,次月较当月升贴水率,当季较当月升贴水率,下季较当月升贴水率,当季较次月升贴水率,下季较次月升贴水率,下季较当季升贴水率,次月较当月价差(剔除分红),当季较当月价差(剔除分红),下季较当月价差(剔除分红),当季较次月价差(剔除分红),下季较次月价差(剔除分红),下季较当季价差(剔除分红),次月较当月升贴水率(剔除分红),当季较当月升贴水率(剔除分红),下季较当月升贴水率(剔除分红),当季较次月升贴水率(剔除分红),下季较次月升贴水率(剔除分红),下季较当季升贴水率(剔除分红) 成交 品种总成交额,当月成交额,下月成交额,当季成交额,下季成交额,主力成交额,品种总成交量,当月成交量,下月成交量,当季成交量,下季成交量,主力成交量 持仓 品种持仓市值(按结算价),主力持仓市值(按结算价),当月持仓市值(按结算价),下月持仓市值(按结算价),当季持仓市值(按结算价),下季持仓市值(按结算价),当月持仓量,下月持仓量,当季持仓量,下季持仓量,主力持仓量 会员持仓 多空净头寸-前5,多头-前5,空头-前5,多空净头寸-前10,多头-前10,空头-前10,多空净头寸-前20,多头-前20,空头-前20 比值 成交持仓比,期现成交比 随机挑选1个指标,最终得到120个指标。图表3:股指期货量价指标 资料来源:Wind,东证衍生品研究院 3.2、标的指数与成分股技术指标 分别从标的指数和成分股出发计算技术指标。若直接根据标的指数计算技术指标,则将技术指标的输出结果处理成连续变量,若根据成分股的技术指标合成扩散指标,则先将成分股的技术指标处理成离散变量,再使用自由流通市值加权合成为指数的扩散指标。由于篇幅原因,技术指标的具体计算公式详见报告后附录。 对于每一个技术指标,我们结合聚类算法随机选择4个相关性较低的参数,对每一 个技术指标尽量包含短中长周期的不同参数,并剔除掉与其他因子相关性大于0.9的因子。 图表4:技术指标 指标类别 指标 通道类 布林带、布林带+ATR震荡 动量均线类 双均线、指数双均线、高低中点移动平均双均线、希尔伯特瞬时变换、考夫曼均线、MESA自适应均线、中点双均线、抛物线策略、三重指数移动平均线、异同移动均线、日内动量、涨跌幅动量、日内振幅动量、幅度涨速、普通动量拥挤度、波动率拥挤度 成交量类 佳庆指标、成交量加权价格均线、能量潮指标、量价相关性、换手率、超买超卖指标、资金流量指标、人气意愿指标、容量比例、量比、换手率拥挤度 反转类 相对强弱指标、资金流量指数、终极波动指标、顺势指标、钱德动量摆动指标、随机指标、威廉指标、分位数反转、连续涨跌天数反转 资料来源:Wind,东证衍生品研究院 3.3、成分股基本面指标 该部分主要计算成分股的财务比率、估值、北向持仓、融资融券指标,然后使用自由流通市值加权成为指数的扩散指标。 图表5:基本面指标 指标类别 指标 财务指标 销售净利率:net_profit_margin_ttm,销售毛利率:gross_profit_margin_ttm,净资产收益率:return_on_equity_ttm,净资产收益率_扣非:adjusted_return_on_equity_ttm,总资产收益率:return_on_asset_ttm,经营活动净收益利润比:operating_profit_to_profit_before_tax_ttm,所得税利润比:income_tax_to_profit_before_tax_ttm,净利润现金含量:surplus_cash_protection_multiples_ttm,经营活动产生的现金流量净额占比:ocf_to_net_debt_ttm,经营活动产生的现金流净额同比增长率增速:net_operate_cash_flow_growth_ratio_ttm,投资活动产生的现金流净额同比增长率增速:net_investing_cash_flow_growth_ratio_ttm,筹资活动产生的现金流净额同比增长率增速:net_financing_cash_flow_growth_ratio_ttm,现金及现金等价物净增加额同比增长率增速:net_