商品基本面量化系列(三):玻璃多因子策略探索 国投安信期货研究院 王锴期货投资咨询号Z0016943周小燕期货投资咨询号Z0016691 在上一篇系列报告《商品量化基本面(二):铁矿石多因子探索中》中我们挖掘并梳理了产业链逻辑下的因子,通过合成基本面时序因子的方法构建了多因子择时策略,近半年的样本外跟踪表现较为稳定,从区间看信号与主观基本面存在一定印证关系。因此,我们又延续基本面量化的思路,将研究方法在化工板块上进行拓展。 玻璃作为建材中上市时间较早的品种,市场参与结构相对完善,波动率相对较高,具有良好的交易特性。从基本面数据考虑,我国玻璃产地分布主要集中在广东、河北等省份,用途较为集中,建材装饰和汽车制造是最主要的下游需求端。同时,随着玻璃制品技术和工艺飞速发展,在节能、装饰等各方面都存在较大的置换空间。在经历21-22年的大幅波动行情后,玻璃以及建材产业的走向引起了较为广泛的关注。 从长周期看,地产数据仍然是玻璃最为核心的影响因素,但是供需、成本和利润等仍然在中短期影响价格走向。此外,玻璃还存在典型的季节性特点:冬季北方玻璃价格下降;而到了夏季,南方玻璃价格松动。这主要是因为进入10、11月后,北方各项建筑工程逐渐停工;而在南方,进入梅雨季节后,建筑工期受到影响而放缓,玻璃生产商 �货也明显放缓。 在之前的量化基本面研究中,我们运用多种机器学习模型来进行拟合和预测,因子探索方面取得了一定的进展,但是我们仍然会以尊重主观基本逻辑为前提,以合理的量化手段,建立多维度模型加以比较和论证。本文中我们梳理了影响玻璃价格的产业链逻辑,深度挖掘影响价格的基本面因子。我们着重分析了不同频率数据之间嵌套组合的顺序方法,并且进行了数据周期性变化的测试。 由于样本数据经历了21-22年冲高回落的罕见行情,因此并不能简单比对样本内外的收益差异来判断大类因子的表现和过拟合的可能性,我们更关注策略在窄幅波动区间内的收益能力以及反转行情中的风险控制能力。 结合各区间的情况来看,供给和库存因子在样本内外的回撤控制能力较好。即便在22年一季度的转换的行情中,连续回撤时间也不超过1.5周,这两个因子的良好表现分 别对应了22年上半年地产需求弱势和高库存压力的下行格局,尤其是近年疫情影响下 地产需求的收缩和释放使需求因子成为主导的大类信号。利润因子在21年的大幅波动 行情中收益也较为可观。这主要是由于在21年三季度末,市场对于中下游经营状况的担心逐步显现,原材料成本的抬升,导致利润向下游传输的难度加大。利润因子在样本内外的差异较为明显,主要收益均来自于21年2季度的上涨行情积累,冲高回落后回撤较大。价差因子尽管在样本外表现较好,但是经过样本内常规行情下的检验,体现�震荡行情下表现不佳的特点。 我们以滚动胜率分配权重,构建供给-需求-价差-利润-库存五因子模型,样本内年化收益42.6%,最大回撤24.8%,样本外年化收益32.1%。从综合大类周频策略的表现来看,整体收益和风险控制能力均显著优于日频策略。在大幅反转的行情下,单因子有显著回撤,合成后的策略平滑了利润和库存因子�现的回撤幅度,年化开仓次数19次。 一、基本面相关因子 我们将玻璃价格的基本面因子分为五大类:需求因子、供给因子、库存因子、价差因子和利润因子。 图:玻璃指标结构分类 资料来源:Wind,国投安信期货 需求因子:玻璃的下游需求75%来自于房地产,而玻璃安装一般在房地产竣工之前。所以地产的竣工数据一定程度上能反映玻璃的需求。新开工会影响竣工的存量需求,一般新开工向竣工传导时间2年左右。竣工节奏又会受地产资金影响,地产资金核心在于销售,同时销售也会决定拿地及新开工的情况,所以地产销售对玻璃的需求至关重要。2022年虽然国家不断提�保交房政策,但最后受制于销售疲软,资金情况恶劣,保交房表现远不如预期,玻璃需求持续下滑。 供给因子:玻璃的供给可以从两个维度来看,静态供给和动态供给,其中静态供给可以关注几个因子,在产产能、产量及产能利用率的情况,由于玻璃自身生产刚性特点,点火冷修成本较大,短周期供给波动相对其他品种要弱一些。而动态供给的话主要关注未来新建、冷修、复产点火的情况,他们除了会受产能规划、窑炉年限影响外,更主要受到利润驱动,长周期看,利润和供给协同性较高。 库存因子:玻璃的库存我们重点关注厂家库存,包括全国的库存、主产区的库存以及交割基准地沙河的库存。除了厂家库存外,贸易商库存也是我们关注的重要指标,尤其在冬储、旺季等一些代表性的时间节点,贸易商的存货情况会直接影响盘面和现货的价格走势,带来一些反季节性的行情走势,淡季不淡、旺季不旺。此外下游加工厂的原片库存也是我们观察的重要指标。 价差因子:价差因子主要包括了基差、跨期价差、跨品种价差和区域价差等。随着交割制度的不断完善,产业参与玻璃期货意愿增加,期现联动性增强,其中主要看沙河和华中基差,由于沙河贸易环境及产业集中更有利于期现商参与,市场更多看沙河基差。而区域价差一旦超过运输费用,会造成区域间玻璃的流动性增加,最后也会让价差再度收敛。跨品种价差,玻璃纯碱作为上下游产业链,纯碱直接影响玻璃的成本,纯碱价格走高也会对玻璃成本形成支撑,两者价格长周期看关联性较高。 利润因子:玻璃生产主要使用煤炭、天然气和石油焦三种燃料。利润因子重点关注煤炭、天然气和石油焦三种燃料对应的利润。相应的就需要关注不同燃料对应的生产成本。其中河北、东北、西北地区主要使用煤炭,华中地区主要使用石油焦,华东、华南和西南地区主要使用天然气。 二.数据清洗 2.1数据频率和季节性处理 数据频率方面,我们选择日频和周频数据,更低频次的数据由于样本数量过少不利于拟合,且发布时间往往滞后不足以支持样本外实际跟踪。第一种方法是将周频数据映射为日频数据,但是这里并没有采用插值法来直接估算实际数据未发布前的数据,而是统一采用原数据,因为这样可以匹配更为真实客观的对应关系。第二种方法是统一将所有数据低频化处理,这主要是考虑到玻璃所获取的基本面数中周频占比超过70%,对应的信号变化频率也偏向周度层面的变化,因此考虑将周频模型的表现与日频模型进行比较,同时考虑周期同比、环比和均线平滑来处理这些数据。 2.2数据滞后性处理 滞后性处理:日频数据基本都会在交易日当天收盘更新,而周频数据基本在周五发布。因此我们在做特征有效性检测和建模过程中统一将这些数据延后一阶处理,即当天获得的数据生成信号在下一个交易日进行交易。 2.3去极值和标准化处理 数据中的极值往往会影响在线性模型假设下的拟合,同时对于映射关系也存在错误推断的可能,因此我们将高于时序数据3倍标准差的数值调整为平均值偏离3倍标准差。此外,所有的基本面因子采用W检验的方式处理其数据的正态关系,通过P-value值观测,检验中只有少量因子存在相对正态分布关系,因此集中处理其影响模型预测精度的异常值并按照各个大类因子数据特征进行标准化处理,使得大类数据和玻璃价格数据处于同一假设关系。 整体数据选取2017年1月-2022年6月年基本面数据,进行差值处理和数据填充整合,分别采用相关性、平稳性检验、回归测试单因子有效性,进而设计基本面因子指导的交易策略, 图:特征筛选排序 资料来源:Wind,国投安信期货 图:特征筛选排序 需求因子中,30大中城市的商品房成交面积和成交套数胜率较高。上文中,我们分析了地产销售对玻璃需求至关重要,而30大中城市成交面积和套数占全国地产销售 近4成,另外30大中城市的成交情绪也会影响到三、四线城市地产成交,与全国的地产销售协同性较高,能比较好的反映�玻璃的需求格局,所以该因子具有较强的参考性。供给因子中,玻璃运行产能和产量胜率较高。玻璃点火后,均摊成本考虑,厂家一般会最大限度的去进行生产,开工率波动不大,运行产能基本上能代表玻璃的供给情况。 库存因子中,玻璃厂家周度库存和河北库存胜率较高。玻璃贸易商库存体量不大,库存更多集中在厂家手中,所以玻璃厂家周度库存能比较直观反映供需情况,其中河北是主产和主销区又是交割基准地,所以河北库存具有代表性。价差因子中上海-沙河区域价差胜率较高,上海代表了主消费地的价格,沙河代表了主产地的价格,两者价差走势一定程度上能反映�供需结构,如果两者价差过大,沙河的货容易流入华东市场,对价格利多。利润因子中,动力煤燃料的成本和毛利胜算较高。三种燃料中,煤炭燃料的生产成本相对偏低,加上沙河地区主要使用煤炭,在下跌行情时,煤炭成本对价格有比较强的支撑作用。煤炭成本提高时,河北厂家涨价意愿增加。另外在企业亏损的格局下,成本增加,利润变差,冷修意愿增加,对价格也是利多。 通过计算信息系数IC,我们可以了解因子值对于下期玻璃收益率的预测能力以及因子间的内在相关性。从整个单因子线性回归结果看,除浮法玻璃等存在一定内在相关性以外,大部分价差因子间相对较为独立;然而各地区库存之间累库和去库速度仍然存在一定同步特性,导致多重共线性的可能提升,我们将通过特征筛选模型进行识别。 图:IC相关性 资料来源:Wind,国投安信期货 图:IC相关性 资料来源:Wind,国投安信期货 三.基本多空策略周期信号的嵌套和比较 3.1时序多空模型 我们将筛选得到的供给、需求、库存、价差和利润五大类中的每个因子,从时间序列维度�发,根据IC正负关系,遍历参数得到单因子开仓阈值,随后我们将这些单因子开仓阈值在每个大类中进行加权合成,产生大类因子的开仓信号。 ��= ��= ] �𝑙�𝑠𝑠�=�1…��…�� 1 ��>��𝑟���𝑡�𝑙�_� 𝑎[𝑙𝑜��𝑟,����� 0 𝑜𝑡ℎ� −1 ��<��𝑟���𝑡�𝑙�_� �𝑙𝑜��𝑟,����� 1 ��>�𝑙�𝑠𝑠_𝑙��_� 𝑎[𝑙𝑜��𝑟,����𝑟] 0 𝑜𝑡ℎ� −1 ��<�𝑙�𝑠𝑠_𝑙��_� �𝑙𝑜��𝑟,����� � � �∈[𝑠���𝑙𝑦,������,𝑠𝑡𝑜��,�����] ��=�1/(1−�1) �2/(1−�2) 3.1.1日频信号 玻璃在化工品种中日内价格波动较大,因此从信号生成和调仓频率角度�发,我们优先考虑将周度数据高频化处理,与日度数据合成日频信号。由于周度数据在整体筛选后的指标中占比较大,需要同时观察高频化后信号的变化和调仓频率,以及对于周度数据运用插值法进行处理的合理性。在比较了样本内运用前值填充和梯度线性插值方法后,我们发现尽管前值填充使信号变化频率降低,梯度线性填充可能会丢失信息的完整性。因此,我们仍然采用前值填充的方法。 在进行分类后选取IC值存在有效性的因子做阈值筛选,并按照IC的正负相关性方向作为信号的变化方向,当与标的处于正相关关系的时候时同方向变化,反之信号反方向变动。我们使用OddsRatio作为筛选指标对每个大类下的因子进行遍历。我们通过排序选取OR,从而增加合成开仓信号的胜率大小,发现最终开仓阈值的结果处于0.8-1.2之间。对于不同的因子的最高OR筛选的阈值进行合成后折算成不同因子相应的胜率,并按照胜率大小对不同大类下的合成因子进行加权。通过单因子净值的统计指标分析,供给、需求、库存、利润以及价差大类单因子的平均胜率分别为0.24、0.27、0.36以及 0.34左右,同时各个大类的平均年化收益集中在47.22%、48.54%、24.98%以及38.30%左右。从大类单因子入手观察对于收益变化影响,需求因子中,30大中城市的商品房成交面积和成交套数胜率较高。前文中,我们分析了地产销售对玻璃需求至关重要,而30大中城市成交面积和套数占全国地产销售近4成,另外30大中城市的成交情绪也会影响到三、四线城市地产成交,与全国的地产销售协同性较高,能比较好的反映�玻璃的需求格局, 3.1.2周频信号 通常来讲,商品基本面逻辑较少在短时间内发生较大改变,将周频因子进行高频化处理也可能会造成信息缺失。因此如果在牺牲一定交易机会的条件下