深度报告-金融工程 衍生品量化择时系列专题(九)——基于Prophet和模式识别的基本面量化模型优化 报告日期:2024-3-28 ★研究背景: 在先前的研究中,我们已经构建了相对成熟的商品基本面量化策略,并且已经在繁微平台上对该策略进行了一段时间的跟踪,在长达两年的跟踪时间内,策略表现整体运行良好,在不加杠杆情况下,年化收益率为7.32%,夏普值为1.45,最大回撤为4.08%,收益风险比1.8,胜率为58%,sortino比率为2.19。在此基础上,此报告针对原有模型进行改进以达到更好的预测效果。 ★模型优化: 金针对基础模型进行多方面的优化。首先精简因子数量,使得模型容融易跟踪和复现;其次基于Prophet预测模型对商品基本面数据进行工趋势数据的剥离,并尝试对价格序列本身进行自预测;最后引入模式识别机制,判断当前市场行情是否由基本面数据所控主导,若不 程是,则采用量价模式下的信号生成机制。 ★Prophet模型: Prophet是由Facebook于2017年推出的时序数据预测模型,相较于传统的时序预测模型具有如下一些优势。灵活性:无需对原始数据进行平稳性处理,同时可以对数据进行不同周期的趋势性分解;可解释性:模型通过分解出趋势、周期、事件影响这三要素,能够直观反映出各部分对于数据的影响;效率高:Prophet算法运行效率较快,相较于机器学习模型的不断训练,Prophet只要进行一次拟合即可。 ★模型结果: 在采用模式识别机制下的Prophet趋势因子优化之后,模型对于单品种的回测表现为:年化收益31.69%,夏普值接近1.79,最大回撤控制在18.71%,胜率为60%;样本外表现为夏普值接近1.60,胜率为60%。 ★风险提示 结论基于历史数据分析,未来市场规律的变动可能使结论失效。 谢怡伦金融工程分析师 从业资格号:F03091687投资咨询号:Z0019902 Tel:8621-63325888-1585 Email:yilun.xie@orientfutures.com 扫描二维码,微信关注“东证繁微”小程序 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 目录 1、前言5 2、基础模型5 3、Prophet模型6 4、优化模型8 5、回测框架以及参数设置10 6、单因子检验11 6.1、因子概述11 6.2、因子表现14 7、多因子模型17 7.1、多因子模型-方案118 7.2、多因子模型-方案220 7.3、样本外验证21 8、基于Prophet的基本面因子预测22 8.1、基于基本面数据趋势进行预测22 8.2、基于收益率序列进行Prophet自预测24 8.3、基于价格序列进行Prophet自预测25 9、模式识别26 9.1、动量趋势信号和Prophet趋势信号的对比26 9.2、模式识别下的趋势量价信号生成27 9.3、模式识别下的Prophet趋势因子优化28 10、模型应用与展望29 10.1、模型的应用29 10.2、多品种策略的研发30 图表目录 图表1:全品种基本面量化策略跟踪表现5 图表2:回测指标5 图表3:基本面量化基础模型框架6 图表4:Prophet模型趋势分解7 图表5:Prophet预测效果示意8 图表6:基本面量化优化模型框架9 图表7:滚动回归10 图表8:基本面因子分类12 图表9:基本面因子举例13 图表10:因子DZ02010751回测曲线14 图表11:回测指标14 图表12:因子DZ02016959回测曲线14 图表13:回测指标14 图表14:因子DZ02050869回测曲线15 图表15:回测指标15 图表16:因子DZ02032106回测曲线15 图表17:回测指标15 图表18:基本面因子回测表现(按夏普值降序)16 图表19:因子选取方案118 图表20:因子选取方案218 图表21:因子选取方案1(20个因子)19 图表22:因子选取方案1回测表现19 图表23:回测指标19 图表24:因子选取方案2(30个因子)20 图表25:因子选取方案2回测表现21 图表26:回测指标21 图表27:因子选取方案1回测表现——样本外21 图表28:回测指标21 图表29:因子选取方案2回测表现——样本外22 图表30:回测指标22 图表31:回测表现23 图表32:回测指标23 图表33:回测表现——样本外23 图表34:回测指标23 图表35:回测表现24 图表36:回测指标24 图表37:回测表现——样本外24 图表38:回测指标24 图表39:回测表现25 图表40:回测指标25 图表41:回测表现——样本外25 图表42:回测指标25 图表43:回测表现26 图表44:回测指标26 图表45:回测表现——样本外27 图表46:回测指标27 图表47:回测表现27 图表48:回测指标27 图表49:回测表现——样本外28 图表50:回测指标28 图表51:回测表现28 图表52:回测指标28 图表53:回测表现——样本外29 图表54:回测指标29 1、前言 在早先的研究中,我们已经构建了相对成熟的商品基本面量化策略,并且已经在繁微平台上对该策略进行了一段时间的跟踪,在长达两年的跟踪时间内,策略表现整体运行良好,在不加杠杆情况下,年化收益率为7.32%,夏普值为1.45,最大回撤为4.08%,收益风险比1.8,胜率为58%,sortino比率为2.19。策略在2023年全年经历了一波较长周期的震荡区间,其余时间段均表现出相对优秀的业绩表现。 图表1:全品种基本面量化策略跟踪表现图表2:回测指标 总收益 16.36% 年化收益 7.32% 年化波动 4.37% 夏普值 1.45 最大回撤 -4.08% 收益风险比 1.8 胜率 0.58 盈亏比 1.32 sortino比率 2.19 资料来源:东证衍生品研究院资料来源:东证衍生品研究院 然而在策略的运行过程中,随着对策略的认识不断深入,我们也意识到该策略仍然存在一些值得改进的地方。首先由于该策略的基本面数据基于繁微内部的数据库,导致数据量相对冗余,由于其数据来源相对多样,使得投资者难以复现该策略,我们会在本报告中精简基本面因子的数量,并且我们会通过Prophet模型对基本面数据本身进行预测,再利用预测的基本面数据对期货价格进行拟合。其次商品期货的行情走势在一段时间内会出现偏离基本面走势的情况,若不进行调整则会出现相对大幅且长时间的回撤,故在本报告中我们会引入“模式识别”的机制,判断当前行情能否完全由基本面数据所解释,若不能,我们则通过价量因子或者Prophet预测模型生成相应信号,这样一来可以在商品基本面偏离价格走势的行情中得到更为有效的因子信号。 2、基础模型 在基础模型中,我们首先对商品基本面数据进行初步的梳理和分类,同时也引入一定的量价数据,根据商品本身的特性,数据分类包括但不限于量价数据、库存数据、进出口和供需数据等基本面数据分类。之后基于梳理过的商品基本面数据进行一系列数据处理,包括频率调整、可得性调整、缺失值填充等,再将处理完的因子通过PCA主成分分析法进行降维以降低后续模型的复杂程度,也可以避免模型过拟合的情况出现。在模型搭建层面,我们的做法结合线性模型和非线性模型各自的信号特征,经参数调整后进行信号的合成,最后生成综合信号。在这篇报告的优化部分,我们首先会对原始的基本面数据进行筛选和精简,其次会引入模式识别的机制,通过价量因子和Prophet预测模型提升表现。 图表3:基本面量化基础模型框架 资料来源:东证衍生品研究院 3、Prophet模型 对于时间序列数据的预测任务,传统的预测方法为自回归预测,例如自回归综合移动平均模型(ARIMA)和自回归条件异方差模型(GARCH),然而该类预测模型需要时间序列数据达到平稳状态,适用于单变量、小规模的预测,对于稳定性较差、非线性的数据,其预测效果并不理想。 此外,还可采用机器学习或者深度学习模型进行训练预测,例如XGBoost和RNN(循环神经网络)等,此类预测模型能够处理相对复杂的训练任务,且预测精度相对较高。然而,机器学习类的预测模型往往缺乏可解释性,其预测结果的输出我们认为是一个“黑箱”,无法知晓其从数据到结果的转化逻辑。 Prophet预测模型能够很好结合上述两类模型的优势,其预测方式更为简洁,具有逻辑上的可解释性,同时也能达到较高的预测精度。Prophet预测模型框架最早在2017年由Facebook工程师提出并且进行开源,该模型适用于各类具有潜在时序特征的数据,并且能够对时序数据的趋势变化、季节性趋势、节假日影响以及突发事件影响具有更好的拟合效果。 Prophet模型可以选择加法模型和乘法模型,本报告只涉及加法模型。Prophet算法将时间序列趋势分解为三个主要的组成部分,分别为增长趋势、季节性周期和节假日影响。 y(t)g(t)s(t)h(t)t 如上式所示, g(t)项用于拟合时序数据非周期的趋势变化; s(t)项用于拟合时序数据周度、月度和季度的周期性变化趋势; h(t)项表示节假日或者突发事件对于时序数据的跳变性影响; t项则表示噪声的随机扰动。 为更加直观地展示Prophet的运行逻辑,下面以铜期货主连合约价格进行初步尝试。下图显示,Prophet能够有效地剥离时间序列的周度和年度季节性信号(当然有必要也可进行季度的周期性剥离),以及噪音干扰,在趋势的时间序列中,根据趋势进行后续预测。不难发现,在剥离周期性影响和噪声之后,铜期货主连价格长期来看呈现相对明显的趋势;而在年度周期性信息上,上半年的价格显著高于下半年,且临近年末,铜期货主连价格呈现上涨态势;在节假日影响下,我们在模型中加入了中国国内的节假日参数,而结果显示节假日对价格并无显著影响。 图表4:Prophet模型趋势分解 资料来源:东证衍生品研究院 我们进一步利用Prophet模型对铜期货主连价格进行预测。下图显示虚线为预测值,灰色区间为预测的上下界,而红色择时真实的价格走势。不难发现Prophet模型的预测值相对于真实值更为平滑,在趋势跟踪层面预测地相当不错,然后在短期的波动层面却无 法捕捉,这正是由于模型已经将季节性干扰和噪音干扰进行了剔除,只保留趋势部分,能够更好地捕捉价格在未来一段时间的大体趋势。 图表5:Prophet预测效果示意 资料来源:东证衍生品研究院 经过实践我们发现,Prophet相较于传统的时序预测模型具有如下一些优势: 灵活性:无需对原始数据进行平稳性处理,同时可以对数据进行不同周期的趋势性分解; 可解释性:模型通过分解出趋势、周期、事件影响这三要素,能够直观反映出各部分对于数据的影响; 效率高:Prophet算法运行效率较快,相较于机器学习模型的不断训练,Prophet只要进行一次拟合即可。 4、优化模型 在本报告中,主要提出四个不同的优化方向,试图在精简因子数量的基础上,引入模式识别机制,达到更为高效、精准的信号生成。 优化1:商品因子的精简 基于繁微庞大、完善的商品数据库,且均由相关商品分析师进行维护,我们可以非常高效地将大量的数据倾倒进模型当中,再通过模型的检验,自动给无效因子分配相对较低的权重,给有效因子分配较高的权重,以起到因子筛选的作用。然而这样的做法也会带 来弊端,一方面对于模型后期的逻辑解释性层面很难分辨,另一方面对于相关投资者的复现也存在一定的难度,故我们在这一部分引入商品基本面因子的筛选机制,通