深度报告——金融工程 国债期货量化系列三: 择时模型仓位管理优化方法探究 报告日期:2022年12月18日 ★主要内容 我们在前序系列报告中对国债期货量价因子挖掘和因子合成方法论进行了研究,初步形成因子池动态筛选与合成的方法论框架。本篇报告我们将从两个方面进行进一步细化,首先进一步丰富完善逻辑指标池;其次,我们进一步探讨仓位优化建模,将自定义损失函数用于LSTM模型。 逻辑指标单因子表现方面,基于滚动回归和样本内指标筛选与样本外预测框架,指标样本外表现整体上两年期优于五年期优于十 金年期,利差分析、资金市场、量价指标等大类因子在不同品种上均表现较佳。指标多空收益方面,多头策略表现优于空头策略表 融现,按历史年份拆解后在市场下行期空头表现优异。 工 程线性回归模型我们设置多个窗口分析降维因子多元线性回归在样本外的表现。整体上,五债期货线性回归预测策略在不同窗口下 策略效果综合来看最为优异和稳定,十债期货亦较佳,两债期货稍逊色。基于2022.01~2022.12作为测试集的窗口策略效果相对最优,对应十债期货夏普比率2.95,五债期货夏普比率2.88。 机器学习模型策略构建我们分为不进行仓位管理与进行仓位管理的两种建模方式,仓位优化模型包括MSE损失函数、夏普损失函数和信息比率损失函数三种训练框架,仓位管理基于5%的目标波动率进行。机器学习模型因样本有限,不再设置多窗口。策略效果方面,测试集上不同品种上平均夏普最优的模型为加入仓位缩放的MSE损失函数模型,其次为夏普损失仓位优化模型;十债期货最优模型为夏普仓位优化模型(夏普率为2.75),五年期与两年期国指期货最优模型为加入仓位缩放的MSE损失函数模型(夏普率为4.16和2.73)。 最后,我们构建基于国债期货的多策略多品种组合模型,取得年化收益6.6%,年化波动率2.1%,最大回撤0.7%,夏普率3.09的测试集表现。 ★风险提示 量化模型有效性基于历史数据得出,不排除失效的可能。 王冬黎金融工程首席分析师从业资格号:F3032817 投资咨询号:Z0014348Tel:15802167045 com Email:dongli.wang@orientfutures. 相关报告 《国债期货量化系列一:国债期货量价因子挖掘》 《国债期货量化系列二:国债期货择时因子合成》 重要事项:本报告版权归上海东证期货有限公司所有。未获得东证期货书面授权,任何人不得对本报告进行任何形式的发布、复制。本报告的信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证,也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,报告中的信息或意见并不构成交易建议,投资者据此做出的任何投资决策与本公司和作者无关。 有关分析师承诺,见本报告最后部分。并请阅读报告最后一页的免责声明。 目录 1国债期货择时逻辑指标5 1.1指标介绍5 1.2数据处理7 2全部指标滚动窗口预测效果分析8 2.1模型构建基本说明8 2.2指标样本外表现8 2.3指标多空收益情况统计9 2.4不同年份指标表现分析11 3指标筛选与降维12 4机器学习模型损失函数自定义13 4.1预测目标的改进思路13 4.2建模与回测基本说明14 5策略结果15 5.1线性模型滚动窗口预测15 5.2基于不同损失函数的机器学习模型17 5.2.1基于预测收益率策略效果19 5.2.1通过优化仓位策略效果19 5.2.2多策略多品种混合模型21 6风险提示22 7附录23 图表目录 图表1:国债期货择时逻辑指标大类介绍5 图表2:国债期货择时逻辑相关的基础因子池5 图表3:数据可得性处理方式7 图表4:各大类因子测试集夏普率为正的指标占比(十年期国债期货)8 图表5:各大类因子测试集夏普率为正的指标占比(五年期国债期货)9 图表6:各大类因子测试集夏普率为正的指标占比(两年期国债期货)9 图表7:全样本滚动回归夏普率为正指标占比(T)10 图表8:测试集滚动回归夏普率为正指标占比(T)10 图表9:全样本滚动回归夏普率为正指标占比(TF)10 图表10:测试集滚动回归夏普率为正指标占比(TF)10 图表11:全样本滚动回归夏普率为正指标占比(TS)10 图表12:测试集滚动回归夏普率为正指标占比(TS)10 图表13:不同年份滚动窗口回归预测夏普为正的指标占比(十年期国债期货)11 图表14:不同年份滚动窗口回归预测夏普为正的指标占比(五年期国债期货)11 图表15:不同年份滚动窗口回归预测夏普为正的指标占比(两年期国债期货)12 图表16:指标删选与因子降维12 图表17:建模与回测基本说明14 图表18:线性回归不同样本窗口划分15 图表19:线性回归模型控制PCA最大维度后的因子解释能力15 图表20:线性回归模型样本外净值(T)16 图表21:线性回归模型样本外净值分析(T)16 图表22:PCA线性回归模型样本外净值(TF)16 图表23:PCA线性回归模型样本外净值分析(TF)16 图表24:PCA线性回归模型样本外净值(TS)17 图表25:PCA线性回归模型样本外净值分析(TS)17 图表26:机器学习模型不同样本窗口划分17 图表27:不同损失函数下三大品种测试集策略效果对比(夏普率)18 图表28:不同损失函数下三大品种验证集策略效果对比(夏普率)18 图表29:均方误差损失不加仓位的样本外净值19 图表30:均方误差损失不加仓位的样本外净值分析19 图表31:均方误差损失加入仓位的样本外净值20 图表32:均方误差损失加入仓位的样本外净值分析20 图表33:夏普率目标加入仓位的样本外净值20 图表34:夏普率目标加入仓位的样本外净值分析20 图表35:信息比率目标加入仓位的样本外净值21 图表36:信息比率目标加入仓位的样本外净值分析21 图表37:三个模型仓位平均样本外净值21 图表38:三个模型仓位平均样本外净值分析21 图表39:多策略多品种组合策略净值22 图表40:多策略多品种组合策略净值分析22 图表41:全部指标降维因子前三成分与权重23 图表42:国债期货指标降维因子前三成分与权重24 图表43:利率利差指标降维因子前三成分与权重25 图表44:CFETS指标降维因子前三成分与权重26 图表45:宏观&流动性指标降维因子前三成分与权重27 1国债期货择时逻辑指标 本篇报告我们将逻辑相关择时指标与算法挖掘的因子区分开来独立建模,一方面前序报告(《国债期货量化系列二:国债期货择时因子合成》)中算法因子占比八成以上体现不出逻辑指标的择时效果,我们在本文中主要针对逻辑指标进行梳理建模;另一方面,我们进一步对逻辑指标进行扩充,不再局限与日度基差、价差、成交资金等市场指标,也加入不同频率的宏观、流动性等指标丰富完全逻辑指标池。针对不同频率,不同公布时间规律的指标进行数据清晰、标准化、滚动窗口筛选与降维,构建逻辑指标择时因子。 1.1指标介绍 经整理,目前国债期货择时逻辑指标主要包含“国债期货指标”、“利率利差指标”、“现券与资金指标”以及“宏观与流动性指标”四大类,共计5260个初始指标。其中国债期货指标包含两期债基差和期债量价,期债基差主要衡量期债相对估值用来作为市场情绪指标,期债量价为量价基础指标,部分基于日度量价,部分基于日内分钟数据计算得到例如分钟级价格数据的波动率、峰度、偏度等。利率利差指标主要包括中债利率利差、活跃券利差和期债隐含利差,中债利率利差基于中债利率曲线关键点即期、到期、远期收益率和利差等指标构成,活跃券利差基于国债期货可交割券中的活跃券到期收益率计算,期债隐含收益率为基于转换后的国债期货结算价作为现券远期价格计算的收益率,基于此计算不同期债品种的到期收益率利差。现券与资金指标基于外汇交易中心 (CFETS)的日度成交数据指标整理得到,分别包含债券市场数据与货币市场数据,主要为不同机构不同类型与久期债券成交情况。宏观与流动性指标包含范围较广,包括日度的国内与海外流动性指标,月度的财政收支与国内和海外的宏观经济金融数据等。 图表1:国债期货择时逻辑指标大类介绍 国债期货指标 利率利差指标 现券与资金指标 宏观与流动性指标 指标构成 期债基差 中债利率利差 CFETS现券市场 金融数据 期债量价 活跃券利差 CFETS货币市场 财政收支 期债隐含收益率利差 全球经济国内经济 资料来源:东证衍生品研究院 此外,我们也对指标类型与子目录进行进一步梳理,分别介绍每类指标的具体目录、数据来源和是否由模型自主计算得到。国债期货相关数据主要有自行计算得到,债券数据特有数据源包括中债和CFTES,宏观高频数据基于各产业数据库进行补充。 图表2:国债期货择时逻辑相关的基础因子池 指标大类 子目录 指标个数 数据来源 模型计算 现券市场 现券买入 700 cfets 否 现券净买入 802 cfets 否 现券卖出 708 cfets 否 货币市场 买断式回购 104 cfets 否 质押式回购 500 cfets 否 信用拆借 202 cfets 否 利率利差 中债利差 24 中债 否 中债利率 228 中债 否 活跃券利差 12 中债 否 期债隐含利差 44 wind/中债 是 期债基差 隐含到期收益率 24 wind/中债 是 基差 59 wind/中债 是 期现套利 29 wind/中债 是 期债量价 原始量价指标 204 wind 是 金融数据 信贷 144 wind 否 货币条件 34 wind 否 流动性 28 wind 否 财政收支 财政收支 26 wind 否 全球经济 全球经济 16 wind 否 国内经济 利润 66 统计局 否 增长 8 wind 否 就业 28 统计局 否 投资 10 统计局 否 景气度 38 wind 否 消费 12 wind 否 进出口 72 wind 否 通胀 36 wind 否 航运 8 wind 否 房地产 136 统计局/中指院 否 房地产-高频数据 736 中指院 否 生产 20 统计局 否 生产-高频数据 32 钢联/卓创等 否 电耗 78 统计局 否 电耗-高频数据 16 CCTD 否 制造业 64 wind/中汽协/中怡康等 否 制造业-高频数据 12 中怡康 否 资料来源:东证衍生品研究院 1.2数据处理 逻辑指标池涵盖指标数据范围广、频率与可得性也不一致,因而我们分类进行数据处理准备工作。数据准备工作主要包括确认指标历史公布日期、根据公布规律调整数据、用前值填充的方式变频日度数据等步骤,对于需要差分等时序计算的指标先计算再进行前值填充。具体而言,国债期货指标、利率利差指标和现券与资金指标均为日度交易数据,当日可得无需公布日期调整;宏观经济金融指标与高频产业数据需要一定的公布日调整,主要宏观指标的公布日期历史时间序列我们均基于彭博经济日历查询得到,对于无法获取具体公布日期的宏观经济指标(如财政收支类指标)和中观产业指标(例如CCTD、中怡康等)我们均按可得性统一滞后N期处理。 图表3:数据可得性处理方式 指标大类 公布日期调整日历 公布日期调整说明 日历数据来源 现券市场 -- 日度数据,当日可得 无 货币市场 -- 日度数据,当日可得 无 利率利差 -- 日度数据,当日可得 无 期债基差 -- 日度数据,当日可得 无 期债量价 -- 日度数据,当日可得 无 金融数据 社融信贷 社融信贷数据按社融公布日历调整;流动性指标当期可得 彭博经济日历 财政收支 固定期数调整 统一滞后一个月 无 全球经济 欧元区制造业PMI终值、欧元区服务业PMI终值、美国ISM制造业PMI、美国ISM服务业PMI、美国Markit制造业PMI终值、韩国出口等 不同子类指标按实际公布日历调整。 彭博经济日历 国内经济 固定资产投资、工业增加值、工业企业利润、进出口、CPI、PPI、社零、官方PMI、财新服务业PMI、财新综合PMI、财新