您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国投安信期货]:商品基本面量化系列(一):甲醇多因子策略探索 - 发现报告
当前位置:首页/行业研究/报告详情/

商品基本面量化系列(一):甲醇多因子策略探索

商品基本面量化系列(一):甲醇多因子策略探索

商品基本面量化系列(一):甲醇多因子策略探索 国投安信期货研究院 王锴期货投资咨询号Z0016176 本篇报告作为大宗商品基本面量化系列的第一篇,旨在为当前趋势策略已被广泛布局的CTA市场提供一个面向中低频交易的新视角。相比于更为成熟的海外市场,量化CTA在国内起步较晚但发展迅速,特别是近几年随着衍生品投资者结构及微观交易结构发生显著变化,不少传统的强有效因子面临着失效风险,随着外资进入,公开的因子超额收益或许也将逐渐收窄,多方位多角度的CTA因子值得被发掘和考量。 尽管各类机器学习算法的迭代日新月异,关于基本面量化,我们仍然会以尊重主观基本逻辑为前提,以合理的量化手段,建立多维度模型加以比较和论证。 从目前市场成交量、价格波动幅度和参与结构来看,甲醇都比较符合量化基本面研究的标的,本文中我们梳理了影响甲醇价格的产业链逻辑,深度挖掘影响甲醇价格的基本面因子。通过对数据的前期清洗和筛选,我们分别运用多因子时序模型、线性模型和非线性模型构建策略信号,实证研究显示: 1.基本面因子时序多空策略方面除库存因子外,夏普都达到了1以上的水平,其中供 给类因子表现最佳,年化收益23%以上。与统计模型构建的策略相比,基本面因子时序 多空策略开仓次数偏少,年化开仓次数大多在20-40次之间,平均持仓天数4-7天。将 基本面大类因子中表现较好的供给、需求和价差进行等权重合成因子,能够有效平滑单因子阶段性回撤。从样本外可解释能力角度�发,基本面三因子合成策略表现较好。 2.统计模型构建的策略普遍呈现样本内与样本外差异较大的特点,即便在限制参数边界 和交叉验证方面做�调整后,样本外的测试仍然呈现一定衰减,这一点在LogisticLasso与随机森林中较为明显。同时我们也注意到Adaboost在样本外相较于其他基本面因子模型的收益尤为显著,年化达到71.4%,且回撤控制良好。结合机器学习可解释能力与迭代泛化能力,我们认为Adaboost模型是目前值得持续跟踪的策略之一。 一、基本面相关因子 甲醇作为化工产业链的中间枢纽,起到承上启下的重要作用,其所受的影响因素也较多。甲醇上游原料包括煤炭、焦炉气和天然气,下游产品包括传统下游甲醛、醋酸、二甲醚、MTBE等,也包括新兴下游煤/甲醇制烯烃等。我们将影响甲醇价格的基本面因子分为四大类:需求因子、供给因子、库存因子以及价差因子。 需求因子:主要由甲醇下游行业的生产利润和挂牌价格。当甲醇下游企业的�厂或 挂牌价格较高时,往往生产利润较高,间接反应下游企业对于甲醇原料的需求较为旺盛。甲醇的下游行业分为传统化工品和新兴下游两类,前者包括醋酸、二甲醚等,后者以甲醇制烯烃为主。本文中,我们尽可能地将下游各行业的生产利润和开工率纳入到我们的需求因子中,以便更好地对甲醇需求影响进行评估。 供应因子:主要包含了开工率和生产利润成本类数据。由于甲醇的进口与产量数据 通常来说更新频率为月频和季频,因此主要以替代数据来刻画供给端的情况。通常来说当甲醇及其衍生物包括生产成本较高时,开工意愿也会有所提升,进而导致供给偏强。反之当生产利润较低时,开工率可能�现下降。 库存因子:主要包含了周度的港口数据。它的绝对水平以及变化反映的是当下供需 矛盾的方向。一般来说,库存水平与便利收益呈反向变动关系,即当社会库存增加时,商品现货的便利收益减小,期货价格有下行趋势。 价差因子:价差因子由期现价差、不同区域挂牌�场价差以及近似替代品构成,这 一类因子是由不同类型的市场价格计算得到,虽然不属于基本面指标,但是会间接影响到甲醇的基本面,因此我们将其作为一类独立因子进行量化分析。 二.数据清洗 2.1数据频率的处理 数据频率方面,我们选择日频、周频数据,更低频次的数据由于样本数量过少不利于拟合,且发布时间往往滞后不足以支持样本外实际跟踪。我们将周频数据映射为日频数据,但是我们并没有采用插值法来直接估算实际数据未发布前的数据,而是统一采用原数据,因为这样可以匹配更为真实客观的对应关系,随后我们会考虑周期环比和均线平滑来处理这些数据。 2.2数据滞后性处理 滞后性处理:日频数据基本都会在交易日当天收盘更新,而周频数据均为周五发布。因此我们在做特征有效性检测和建模过程中统一将这些数据延后一阶处理,即当天获得的数据生成信号在下一个交易日进行交易。 2.3去极值和标准化处理 数据中的极值往往会影响在线性模型假设下的拟合,同时对于映射关系也存在错误推断的可能,因此我们将高于时序数据3倍标准差的数值调整为平均值+/-3倍标准差。此外,所有的基本面因子采用W检验的方式处理其数据的正态关系,通过P-value值观测,检验中只有少量因子存在相对正态分布关系,因此集中处理其影响模型预测精度的异常值并按照各个大类因子数据特征进行标准化处理,使得大类数据和甲醇价格数据处于同一假设关系。 整体数据选取2017年1月-2022年6月年基本面数据,进行差值处理和数据填充整合,分别采用相关性、平稳性检验、回归测试单因子有效性,进而设计基本面因子指导的交易策略, 图:特征筛选排序 数据频率甲醇大类甲醇基本面因子ADF检测相关性P_valueAdj_R2 日度 需求 华鲁恒升冰醋酸日度出厂价 <0.001 0.12 0 0.01 天津渤化永利冰醋酸日度出厂价 <0.001 0.11 0 0.01 价差 现货价(中间价):甲醇:FOB鹿特丹(欧元) <0.001 0.11 0 0.01 需求 京津冀市场冰醋酸日度市场价 <0.001 0.11 0 0.01 中国冰醋酸甲醇低压羰基合成日度不含税装置成本 <0.001 0.1 0 0.01 中国甲醛日度均价(现款现汇) <0.001 0.09 0 0.01 中国冰醋酸甲醇低压羰基合成日度含税装置成本 <0.001 0.08 0 0.01 价差 市场价:甲醇:内蒙古 <0.001 0.08 0.01 0.01 需求 山东MTBE异丁烷脱氢日度含税装置成本 <0.001 0.08 0.01 0.01 建滔焦化冰醋酸日度出厂价 <0.001 0.08 0.01 0.01 山东MTBE异丁烷脱氢日度不含税装置成本 <0.001 0.08 0.01 0.01 中国甲醛(国标)银催化剂法日度不含税装置成本 <0.001 0.08 0.01 0 中国甲醛(国标)银催化剂法日度含税装置成本 <0.001 0.07 0.01 0 供给 中国甲醇煤制甲醇日度不含税装置收入 <0.001 0.06 0.04 0 价差 市场价(主流价):尿素(小颗粒):东北地区 <0.001 0.06 0.04 0 需求 中国甲醛(国标)银催化剂法日度不含税装置收入 <0.001 0.06 0.04 0 价差 现货价(中间价):甲醇:FOB美国海湾 <0.001 0.06 0.06 0 需求 兖州国泰冰醋酸日度出厂价 <0.001 0.06 0.06 0 库存 进口数量:甲醇:累计值 <0.001 0.05 0.07 0 需求 山东MTBE异丁烷脱氢日度含税装置收入 <0.001 0.05 0.08 0 福建市场甲醛日度市场出库价 <0.001 0.05 0.09 0 山东市场冰醋酸日度市场价 <0.001 0.05 0.09 0 周度 供给 西北地区甲醇主要企业周度开工率 <0.001 0.03 0.34 0 中国甲醇主要企业周度开工率 <0.001 0.03 0.35 0 日度 价差 现货价(中间价):尿素(小颗粒,散装):FOB波罗的海 <0.001 -0.05 0.07 0 即期汇率:美元兑人民币 <0.001 -0.06 0.07 0 周度 库存 江苏省甲醇周度港口库存 <0.001 -0.06 0.06 0 甲醇中国样本企业库存 <0.001 -0.06 0.06 0 日度 需求 中国甲醛(国标)银催化剂法日度税后装置毛利 <0.001 -0.06 0.06 0 华东市场临沂盛洋甲醛日度出厂价 <0.001 -0.08 0.01 0.01 资料来源:Wind,国投安信期货 图:因子一元线性拟合效果 资料来源:Wind,国投安信期货 通过计算信息系数IC,我们大致可以了解一个因子属于因子对未来收益的影响方式,通过IC值的判断�因子值对于下期甲醇收益率的预测能力。结合整个一元线性回归结果看,需求因子和价差因子对于价格影响较大,相关性也更为显著,同时日频数据数据量大于周度数据整体相关性水平更高。结合特征筛选指标,我们可以得到28个重要因子。 图:IC相关性 资料来源:Wind,国投安信期货 三.基本多空策略构建 3.1时序多空模型 我们将筛选得到的供给、需求、库存和价差四大类中的每个因子,从时间序列维度 �发,根据IC正负关系,遍历参数得到单因子开仓阈值,随后我们将这些单因子开仓阈值在每个大类中进行加权合成,从而产生大类因子的开仓信号。 ��= ��= �𝑙�𝑠𝑠�=�1…��…�� 1��>��𝑟���𝑡�𝑙�_�𝑎[𝑙𝑜��𝑟,����𝑟] −1 ��<��𝑟���𝑡�𝑙�_� �𝑙𝑜��𝑟,����� 1 ��>�𝑙�𝑠𝑠_𝑙��_� 𝑎[𝑙𝑜��𝑟,����𝑟] 0 𝑜𝑡ℎ� −1 ��<�𝑙�𝑠𝑠_𝑙��_� �𝑙𝑜��𝑟,����� 0𝑜𝑡ℎ�� � �∈[𝑠���𝑙𝑦,������,𝑠𝑡𝑜��,�����] ��=�1/(1−�1) �2/(1−�2) 图:大类因子开仓信号分布 资料来源:Wind,国投安信期货 图:供给因子净值曲线 资料来源:Wind,国投安信期货 图:需求因子净值曲线 资料来源:Wind,国投安信期货 图:库存因子净值曲线 资料来源:Wind,国投安信期货 图:价差因子净值曲线 资料来源:Wind,国投安信期货 3.2线性模型 除了利用基本面数据阈值开仓,对于甲醇价格与基本面因子间存在的关系,我们还分别采取线性和非线性模型进行分析处理。 3.2.1收缩法则LogisticLasso 通过对于四大类基本面因子的分析,筛选�的28个基本面因子存在一定的自相关性。为了有效解决线性模型中存在的自变量之间的多重共线性以及多元自变量因子的问题,对于高纬因子引入Lasso回归模型,高纬数据的纬度较高的时候随着样本数量的增加,分析数据所需要的样本空间样本会急速增加,所需的样本数量会随着数据纬度指数增加,预测难度增加,预测效果未有明显增长。通过缩减性筛选�回归拟合中重要的因子来对整体数据进行降维,一般选用主成分分析法对数据进行降维处理。相较于Lasso,主成分分析法更加适用于小样本情况,通过Lasso的L1正则化的参数λ处理来平衡拟合训练目标,减少选取的特征值的数量,摒弃一些非重要的特征变量,解决模型过拟合的程度,从而提升样本外预测效果。Lasso是一种缩小变量集的压缩估计方式,对比于Ridge方式将系数进行一定程度压缩,Lasso能对于甲醇价格无较大影响的基本面因子进行过 滤,将不显著的变量系数压缩为0,来降低模型复杂度。同时对于甲醇价格变化率的离散性采用用二分法分析,使用Logistic回归来观察多变量因子以及观测筛选因子对于未来价格走势的信号预测。Logistic是一种逻辑回归方式是甲醇价格因子的分类数据,通过寻找基本面因子间的拟合直线,以Sigmoid的方式进行压缩将数据分类: Qβ=∥y−Xβ2∥+λ∥β∥1 π ln1−π=logitπ=β0+β1X1+…+βpXp 图:Lasso筛选偏回归系数 资料来源:Wind,国投安信期货 线性模型筛选结果: H(θ(y))=-0.17*现货价甲醇FOB鹿特丹+0.11*中国甲醛日度均价-0.03*中国冰醋酸甲醇低压羰基合成日度含税装置成本-0.04*市场价甲醇内蒙古-0.002*建滔焦化冰醋酸日度�厂价-0.003*山东MTBE异丁烷脱氢日度不含税装置成本-0.02*中国甲醛银催化剂法日度不含税装置收入-