中信期货研究|金融工程专题报告 2023-01-31 截面回归与因子正交的二重奏 ——组合优化专题报告(一) 投资咨询业务资格: 证监许可【2012】669号 中信期货商品指数走势 报告要点 本报告处理“因子正交”的问题。该专题将以综述的形式讨论了市面上常见的4种正交化方法、阐明了正交实践中遇到的问题与解决办法、设计了1种针 对于底层资产池为商品期货组合的品种权重配置模式、配比了1种因子收益率估计 的优化方式并进行回测总结。该报告对应第1种配置模式——作用于动态商品期货池、以截面回归方式来构建组合权重,是本专题的第一篇。 119 中信期货十年期国债期货指数中信期货沪深300股指期货指数中信期货商品指数 260 115220 111180 107140 103100 摘要:本篇报告中,我们以综述的形式讨论了市面上常见的4种正交化方法、阐明了正交实 践中遇到的问题与解决办法、设计了1种商品期货组合的配置模式、配比了1种因子收益率估计的优化方式。 回测效果来看,可作出以下结论: (1)本报告提出的新配置方式——“作用于动态商品期货池、以截面回归方式来构建组合权重”的配置效果较好,其在本文入选的6个量价因子以—“未正交搭配简单移动平均SMA(�=20)对因子收益率估计”的优化方式回测时,取得了11%左右的年化收益,夏普为0.85,最大回撤为0.2(见图表11); (2)3种正交化方式是把双刃剑,其实质来源于共线性的双刃性质。在本文入选的6个量价类因子的回测中,使用未正交因子的回测净值——无论是对因子收益率未优化时回测得到的年化收益3.49%(见图表7)、还是使用简单移动平均SMA(�=20)优化后回测得到的年化收益10.95%(见图表11),均优于相应的、基于正交化后因子的回测净值表现; (3)对因子收益率估计的优化方式(简单移动平均)无论是针对非正交还是正交化后的因子均能提升策略有效性。 风险提示:本报告中所涉及的资产配比和模型应用仅为回溯举例,并不构成推荐建议。 2022/32022/42022/52022/62022/72022/82022/92022/102022/112022/122023/1 金融工程研究团队 研究员:周通 021-80401733 从业资格号F3078183 投资咨询号Z0018055 期货多因子系列研究报告 专题报告五:不同频率视角下的选 期因子——20221222 专题报告六:基于深度学习的期货组合优化——20221229 重要提示:本报告难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本报告内容而视相关人员为客户;市场有风险,投资需谨慎。 目录 摘要:1 一、整体框架3 二、正交化的方法与数学理论4 (一)问题背景4 (二)数学理论4 1.共性5 2.个性6 3.回归取残差7 三、正交化实践中遇到的问题9 (一)协方差阵的特征值分解中遇到复数和负值(针对python用户)9 四、组合加权和因子预期收益率的估计9 (一)组合加权方式10 (二)因子预期收益率的估计11 五、回测11 (一)截面正交时,期货品种少于因子数的相应处理11 (二)若干种因子收益率估计方式的对比13 六、总结15 图表目录 图表1:商品期货品种选择4 图表2:不同正交方法下的𝐶�×�与𝑆�×�定义方式6 图表3:使用以截面回归方式来构建组合权重的计算示意图10 图表4:直接跳过“期货品种数目少于全体因子数目”的交易日的回测净值图12 图表5:直接跳过“期货品种数目少于全体因子数目”的交易日的回测净值统计12 图表6:不跳过、但人为截取“理论个数”个正交向量的回测12 图表7:不跳过、但人为截取“理论个数”个正交向量的回测净值统计13 图表8:针对非正交化/正交化因子的使用SMA优化方式的回测净值图(不跳过、但人为截取“理论个数”个正交向量的回测,�=5)13 图表9:针对非正交化/正交化因子的使用SMA优化方式的回测净值统计(不跳过、但人为截取“理论个数”个正交向量的回测,�=5)13 图表10:针对非正交化/正交化因子的使用SMA优化方式的回测净值图(不跳过、但人为截取“理论个数”个正交向量的回测,�=20)14 图表11:针对非正交化/正交化因子的使用SMA优化方式的回测净值统计(不跳过、但人为截取“理论个数”个正交向量的回测,�=20)14 一、整体框架 共线性是指标的资产的因子之间存在某种程度的线性关系。共线性的存在不会影响回归系数的唯一性和无偏性,但它会使得回归系数估计值的方差变大,并且造成回归系数的置信区间变得很宽。它的缺点是使得估计量的精准度和T值都收到影响,从而导致一些因子通不过假设检验,尽管这些因子对收益率存在显著影响,即具有良好的解释力。 常见的判断共线性的方法涉及两个关键数:第一个是条件数,第二个是方差膨胀因子(variationinflationfactor,简记作vif)。具体而言:条件数是因子相关系数矩阵的最大特征值与最小特征值的比值,我们认为若条件数小于100,则共线性程度较小;若条件数大于1000,则存在共线性。而方差膨胀因子则是因子之间存在多重共线性是的方差与不存在多重共线性是的方差之比,我们认为当方差膨胀因子介于0到10之间,则不存在多重共线性;若介于10到100并包含 为10的情况,则存在较强的多重共线性;当其值大于等于100时,则存在严重的多重共线性。 � 采用方差膨胀因子法检测共线性时,对于已经中心化、标准化的因子矩阵𝐹,计算其相关系数矩阵𝐶,求得其逆为�=(𝑖𝑗𝑘)≜𝐶−1,则其主对角元素𝑖𝑗�为自变量𝐹�的方差膨胀因子,记𝐶2为自变量𝑓�对其余�−1个因子回归的拟合度, � 可以证明𝑣𝑖�=�=1 ,其相应的经济含义为某个因子� 的方差膨胀因子越 �𝑗� 1−𝐶2� 大,其与另外�−1因子的越线性相关,其解释力也就越容易被其他因子所替代。 � 共线性会影响回归效果,那么直接的方法就是把共线性显著的变量进行剔除,包括方差膨胀因子法、逐步F检验-t检验、主成分回归等;但其缺点也是明显的,基于这些方法我们最后只能保留解释能力最强的几个因子,而有些因子则被剔除;此外也有相关研究表明这样的处理导致拟合度𝐶2偏低,出现“欠拟合”。 出于上述考量,我们本文将考虑另一种方式——因子的正交化。本文提供了市面上常见的4种因子正交化方法的综述;在此基础上,设计了1种期货组合的品种权重配置方式。 玻璃(FG)、热轧卷板(HC)、铁矿石(I)、焦炭(J)、焦煤(JM)、螺纹 钢(RB)、不锈钢(SS)、纯碱(SA) 黑色类 具体品种 类别 图表1:商品期货品种选择 有色类沪铝(AL)、沪铜(CU)、沪锌(ZN)、镍(NI)、锡(SN) 能源类 石油沥青(BU)、原油(SC)、燃料油(FU)、液化石油气(PG)、低硫燃料 油(LU) 化工类聚乙烯(L)、甲醇(MA)、聚丙烯(PP)、聚氯乙烯(V)、PTA(TA)、乙二 软商品类棉花(CF)、天然橡胶(RU)、白糖(SR)、纸浆(SP)、短纤(PF) 醇(EG)、尿素(UR)、苯乙烯(EB) 农产品类豆一(A)、玉米(C)、玉米淀粉(CS)、鸡蛋(JD)、豆粕(M)、菜油(OI)、 棕榈油(P)、菜粕(RM)、豆油(Y)、生猪(LH) 资料来源:中信期货研究所 这里的因子正交化方法具体为回归取残差、Schmidt正交化、规范(Canonical)正交化、对称(Symmetric)正交化;而期货组合的品种权重配置方式为针对于动态商品期货池、以截面回归方式来构建组合权重,时间跨度为前后5个交易日。 本篇报告聚焦于量价类因子,具体使用到的6个因子为:分别是“3日动量” ('mom_d3'),“243日动量”('mom_d243'),“10日动量”('mom_d10'),“243日最小二乘回归”('ols_d243'),“5日量价相关性”('cv_d5')和“61日振幅” ('amp_d61_g4')。其相应的因子构造逻辑可参见本团队之前的相关研报。 二、正交化的方法与数学理论 我们这里提供市面上常见的正交化方法、相关的数学理论、在实际应用中遇到的问题和解决办法。 (一)问题背景 实际中拿到的因子往往具有共线性,导致因子重复暴露,我们希望通过正交化消除因子之间的相关性,并保持因子对于收益的解释度不变。 因子正交化有多种方式,目前市面上常用的有如下4种:回归取残差、Schmidt正交化、规范(Canonical)正交化、对称(Symmetric)正交化。其中,我们对第1种可以给出证明,其实质上与Schmidt正交化是一致;而后3种都是通过矩阵乘法(又称线性变换、因子旋转)的方式来消除因子间的相关性。 (二)数学理论 上述提到的3种正交化方式共性与个性并存,我们这里先从其依据的线性代 数理论基础出发,了解一下其背后的简单逻辑。 1.共性 设定某个时间截面上,市场上的期货数量为�个,入选的因子数量为�个,则该截面上的因子矩阵可以表示为 𝑓1⋯𝑓� 11 𝐹𝑁×�≜[𝑓1,𝑓2,…,𝑓𝑀]≜(⋮⋱⋮), 𝑓1⋯𝑓� �� 其中,第�个因子在考虑的�个期货上的暴露值(简而言之即因子值)为𝑓�= (𝑓𝑖,𝑓𝑖,…,𝑓�)′;我们的目标是找到一个“过渡矩阵”� 后再进行计算 12�𝑀×� 𝐹⊥≜𝐹𝑁×�𝑆𝑀×𝑀,而这里通过矩阵乘法得到的𝐹⊥就是正交化后的因子矩 𝑁×� 阵,也即一个正交阵。 𝑁×� 因此我们可以发现,正交化的实质是对因子进行旋转,让旋转后的因子满足两两正交且整体方差不变(正交表明线性相关性为0,方差可以刻画因子对于收益的解释度),即旋转后也为正交阵。用公式表达即为 []̃� ′̃� ̃� ̃�, ∀𝑖,�∈ 1,2,…,�,�≠𝑗,(�)� =0,𝑣𝑎𝑟(�)=𝑣𝑎𝑟(�) 𝑁×� 其中,𝑓̃�表示正交化后因子矩阵的列向量,即𝐹⊥=[𝑓̃1,𝑓̃2,…,𝑓̃𝑀]。因子 的旋转过程是通过过渡矩阵定义。 在此过程中,涉及到的线性代数知识包括:(L1)实对称矩阵一定可以正交对角化;(L2)实对称矩阵的特征值必为实数;(L3)属于实对称矩阵的不同特征值的特征向量是正交的;(L4)任何实对称矩阵都可以通过正交变换将其对角化。 具体的步骤如下: 第一步:对于两个�维随机向量�和�(其元素分别记作𝑋�和𝑌�, �∈[1,…,𝑁]),其协方差矩阵𝛴𝑀×�定义为 𝛴𝑀×�≜𝑐𝑜𝑣(𝑋,𝑌)= � ∑ 𝑖=1 (𝑋𝑖−𝐸(𝑋))(𝑌𝑖−𝐸(𝑌)) 𝑁−1 =1 𝑁−1 (𝑋∙−𝐸(𝑋))′(𝑌∙−𝐸(𝑌)); 应当注意的是,这里分母中无偏估计选取的�−1是区别于最大似然估计选取的�;此外在实际处理中,我们对每个因子都将进行针对截面的z-score标准化,满足均值为0和模为1。标准化的意义在于,正交与不相关的概念本来是不等价的,正交不一定不相关,但加上z-score标准化后,正交等价于线性相关系数为0。 对于任意的�∈[1,…,𝑀],取�=�=𝑓�,则计算𝐹𝑁×�的协方差矩阵 即为𝛴𝑀×�≜𝑐𝑜𝑣(𝐹𝑁×𝑀),我们将(�−1)𝛴𝑀×�整体记作 111� ′′ ��⋯�� 𝑃𝑀×�≜𝐹𝑁×𝑀′𝐹𝑁×�=( ⋮⋱⋮), 𝑓𝑀′𝑓1⋯𝑓𝑀′𝑓� 此为对称矩阵; 第二步:根据正交阵定义,� =𝐹⊥′𝐹⊥=(� �)′� 𝑀×� 𝑁×� 𝑁×� 𝑁×� 𝑀×� 𝑁×� 𝑁×� 𝑆𝑀×�=𝑆𝑀×𝑀′(𝐹𝑁×𝑀′𝐹𝑁×𝑀)𝑆𝑀×�=𝑆𝑀×𝑀′𝑃𝑀×𝑀𝑆𝑀×�,其中倒数第一个和第三个等号分别是利用了已于上方注明的𝑃𝑀×�和𝐹⊥的定义,移项可得 𝑀×� 𝑆𝑀×𝑀