证券研究报告 专题报告2024年12月12日 【AI+HI系列(6)】 对端到端模型泛化性的思考与改进 ——基于样本加权与风格约束 华创证券研究所 证券分析师:�小川 电话:021-20572528 邮箱:wangxiaochuan@hcyjs.com执业编号:S0360517100001 联系人:洪远 邮箱:hongyuan@hcyjs.com 相关研究报告 《AI+HI系列(4):CrossGRU:基于交叉注意力的时序+截面的端到端模型》 2024-04-19 《AI+HI系列(5):CrossGRU-2:基于Patch与多尺度时序改进端到端模型》 2024-07-04 背景与目标 当样本外的数据分布与样本内存在偏差时,模型预测偏差可能导致实际应用中的高昂损失。面对近年复杂多变的市场风格,本篇报告以端到端模型的泛化性为出发点,旨在提高模型稳健性。基于SVE指标,我们发现端到端GRU模型在“未见过”的数据上表现不佳,由此展开如何降低端到端模型泛化风险的研究。 模型分析与设计 以Barra风格为切入点,主观上我们期望端到端模型能在不同市场主导风格时期、不同风格暴露的股票上均保持稳健性。然而,模型实际结果与预期存在差异,这可能是模型平均风险最小化的训练方式所导致的“盲区”。 针对这一局限,我们在GRU基线模型基础上,提出两种改进方案:基于分组样本加权的GRUDRO模型和基于风格约束的GRUCONST模型。两种方法均独立于模型架构设计,具有良好的通用和灵活性。 测试结果 在中证全指因子IC、20分组测试上: GRUDRO模型10日RankIC达14.3;分组多头TOP组超额年化收益39.67%较基线GRU提升4%;超额夏普比率1.55,较基线提升0.12;2024年最大回撤-16%,优于基线的-21%。 GRUCONST模型的10日IC最高达到为14.1;TOP组整体表现与基线持平,在2024年9-11月区间,强/弱约束设置下,TOP组超额收益分别为4.24%、-1.58%,较基线分别提高7.62%、1.8%。 在1000指增应用上: 两个改进模型均实现了超额年化收益和夏普比率的提升,GRUDRO模型超额年化较基线提高1.17%,最大回撤相比基线降低2%,Calmar比率为3,优于基线的1.99;GRUCONST模型超额年化较基线提高约1.5%,在回撤方面与基线持平。 风险提示: 策略基于历史数据回测,不保证未来数据的有效性。深度学习模型存在过拟合风险。深度学习模型受随机数影响。模型实现与参考文献原文存在差异。 投资主题 报告亮点 基于深度学习模型进行端到端因子挖掘已有较多工作,24年市场环境的变化与波动对已有方法的稳健性提出挑战;在本篇报告中,我们对端到端模型的泛化性进行了重新思考,尝试分析深度学习模型在极端市场环境的不佳表现原因,对模型进行改进。我们进一步探索深度学习模型应用的理论支持和实用方法,探索更为稳健的量化模型,助力量化投资的发展。 投资逻辑 深度学习算法训练目标为最小化训练集的平均风险,因此在样本外少数事件发生时可能表现不佳,为提升模型在动态且复杂市场环境下的适应能力和预测准确性,我们可以基于一定的主观先验知识对模型的学习流程进行干预。本篇报告继续对端到端量价因子深度学习模型进行探讨与改进,探索深度学习技术的运用。 目录 一、动机5 二、模型泛化性6 (一)泛化评估6 (二)风格局限8 三、方法11 (一)GroupDRO11 (二)风格惩罚项11 四、实验13 (一)模型说明13 (二)测试结果14 1、风格测试14 2、IC测试14 3、分组测试15 4、指增测试结果17 5、小结19 �、总结20 六、风险提示21 七、参考文献21 图表目录 图表1GRU基线模型6 图表2模型表征训练-测试偏移7 图表32021年-基线模型因子多空8 图表42024年-基线模型因子多空8 图表52021年基线模型1000指增表现8 图表62024年基线模型1000指增表现8 图表7环境对图像模型的影响9 图表8因子风格偏好9 图表9不同域间因子10日IC对比10 图表10不同域间因子多空收益累加对比10 图表11模型流程13 图表12模型超参数汇总13 图表13不同模型的风格相关性14 图表14IC测试结果汇总14 图表15TOP组超额净值走势对比(全区间)15 图表16TOP组超额净值走势对比(2024年)15 图表17TOP组逐年收益15 图表1820分组年化收益对比15 图表19模型TOP组对比16 图表20GRUDRO流动性分域测试16 图表21指数组合绩效对比17 图表22指增组合逐年对比17 图表23GRU基线指增组合超额18 图表24GRUCONST(0.1)指增组合超额18 图表25GRUCONST(0.01)指增组合超额18 图表26GRUDRO指增组合超额18 一、动机 深度学习技术在量化领域已有较多运用,然而数据驱动类模型通常建立在独立同分布假设上,当样本外存在数据分布偏移时,模型预测偏差可能导致高昂损失。2024年复杂多变的市场环境对已有模型与因子的稳健性提出了挑战,《AI+HI系列》系列过去的数篇研究中,我们主要聚焦于优化模型架构,提升模型在收益层面的表现,在本篇报告中,我们以模型的泛化能力为出发点,尝试找到模型的盲区并进行改进。 我们首先以一个简洁的GRU(门控循环单元)作为基线模型,观察样本外偏移对模型表征空间的影响。我们观察异常状态下模型应用端的表现,为模型泛化性评估提供一个新的可观测指标; 在改进模型泛化能力的方法上,我们认为考虑更多样的特征/模型是一个简单的解决策略,但对输入端相对固定的端到端模型,我们进一步讨论了在数据输入的多样性受限的情况下,如何提高模型稳健性。针对GRU基线,我们以风格因子为抓手,分析了导致泛化风险的潜在因素,这些因素可能是模型在训练过程中基于平均损失最小化目标带来的。基于此,我们对模型训练目标进行改进,在因子与指增测试中,改进后的模型相较于基线、取得了更好的表现。我们的改进方法与模型设计无关,可以灵活适用于已有模型。 本报告后续章节安排如下: 第二章:介绍一种基于奇异值分解的指标SVE,从模型表征的角度监测和识别模型的“异常”。基于SVE指标,我们发现GRU基线模型在“没见过”的数据上的不佳表现。 第三章:我们分析了导致端到端模型表现不佳的2个潜在原因,它们可能与模型的平均风险最小化训练方式相关;针对模型的“盲区”,我们提出2种具体的改进方法 ——基于样本加权的GRUDRO与风格约束GRUCONST并进行测试。 二、模型泛化性 本章我们以一个GRU基线模型为例,我们首先介绍模型及训练方法:模型: 模型由GRU+MLP模块构成,每个batch模型输入为截面n只股票的过去t天的量价时 序,取GRU最后一个时间步的输出作为个股表征,将其输入MLP层得到预测值;GRU嵌入维度d为64、MLP层数为2; 图表1GRU基线模型 资料来源:华创证券 数据集: 过去T日的日频的高、开、低、收、均价、成交量6个变量;在本章我们取T=30构建 30D数据集; 采样方法: 以每个交易日t为一个采样截面;模型预测标签: 预测标签为未来10日的市值行业中性化后收益(t+1日~t+11日,以收盘价计算;进行 rank标准化);模型损失函数为IC。测试方法: 样本空间为中证全指;分组测试调仓频率为周度,取每周最后一日因子值进行20分组, 以次周第一个交易日收盘价再平衡,不考虑交易成本; 其余标准化、训练流程与系列先前报告方法相同不再赘述。 (一)泛化评估 以上模型训练完成后,我们构建新的指标对模型的泛化能力进行评价。 如何理解模型的泛化能力?我们认为泛化能力体现在模型对训练样本内"没见过"的情况的应对能力,好的模型应该在样本外偏移事件发生时也具有一定鲁棒性。 一种直觉的方法是情景分析,例如根据区间内整体市场指数或风格表现,进行主观的聚类分组,观察模型在不同情境下的表现,如果模型在不同情景下均有稳定的表现,我们可以认为模型有好的泛化能力;但局限在于,样本外可能存在未被定义的情景、模型的倾向可能随新增训练数据而变化、当模型使用更为复杂输入时,我们难以直接观测样本外是否存在模型“没见过”的情景。因此我们参考Chen,etal.(2023)的方法,对模型表 征空间进行观测。 在模型训练完成后,取训练、测试数据集GRU输出最后一个时间步,即每个截面输出的股票中间表征,形状为(𝑛𝑡,d),其中𝑛�表示第t个batch的股票数量,d为GRU嵌入维度 (设置为64),对表征矩阵进行SVD分解,将奇异值S归一化后计算奇异值熵(SVE) 指标: � 𝑆𝑉�=−∑𝑝�log(𝑝𝑖) 𝑖=1 其中: 𝑠� �= ∑ �� 𝑗=1 𝑠� 计算训练集上模型表征SVE的均值方差统计量,再以此对测试集SVE指标进行Z-score标准化,基于此我们观察在测试集上相对训练集表征空间的偏移,偏移越大表示表征空间越“异常”,这些“异常”可能是在测试集模型接受的新数据与样本内显著不同导致的,我们将其近似视为模型“没见过”的情况发生;基线模型在测试集的SVE指标的时序表现如下图所示: 图表2模型表征训练-测试偏移 资料来源:wind,华创证券,纵坐标为标准差 根据上图的结果,SVE指标的波动较大,我们以2.5倍标准差为阈值,模型有2次较为显著的偏移事件: 第一次为21年SVE在2.5倍标准差外存在持续较长时间的偏移; 第二次为24年9月底,模型产生了短暂但大幅偏移,在24年初模型也曾短暂触及 2倍标准差; 我们展示2021年、2024年模型下游应用——因子多空、周频指增组合表现(基准中证 1000,约束成分股权重占比80%以上,约束市值行业暴露为0.3,双边换手0.3)。 SVE超出2倍~2.5倍标准差阈值的时点用垂直灰色虚线标记,超出2.5倍标准差阈值的时点用垂直红色虚线标注: 图表32021年-基线模型因子多空图表42024年-基线模型因子多空 资料来源:wind,华创证券资料来源:wind,华创证券 图表52021年基线模型1000指增表现图表62024年基线模型1000指增表现 资料来源:wind,华创证券,超额基准为中证1000资料来源:wind,华创证券,超额基准为中证1000 表征异常发生时期与模型的下游应用的较弱表现的时期大致对应,这可以被认为一种的泛化能力不佳; SVE指标提供了一个模型风险、泛化性评估的补充视角。我们基于SVE指标发现GRU在样本外偏移发生时不佳的泛化能力。在泛化性风险的解决思路上,我们认为增加训练数据的多样性可能是最优方案,即尽可能减少样本外模型“没见过”的情景。 对本篇报告讨论的端到端的框架而言,模型的输入端特征较为固定,模型难以避免遇到“未见过”的新情景,我们希望在少数偏移事件发生时,尽可能减少模型回撤风险,我们需要进一步分析基线模型的泛化能力的局限与盲区所在。 (二)风格局限 对大多数机器学习或深度学习算法而言,学习型算法依赖于数据独立同分布假设,而在实践中,样本外偏移现象常有发生,导致模型的不佳表现。 以一个图像识别任务为例(Beeryetal.,2018),我们可以轻易辨认出三张图中的动物牛,而模型只在常见的背景环境——如牧场中,牛被正确检测(子图A),在不常见的背景环境——例如海滩中,牛未被检测,或拥有较低的置信度(子图B、C)。 这是因为在模型的训练资料中,大部分的牛出现在绿色的牧场上,在辨认牛的任务中,牧场、颜色并非因果。但对于以平均风险最小化作为目标的模型,这些“环境”可能被视为判别因素,此时模型偏好与我们的主观认知产生了偏差。 图表7环境对图像模型的影响 资料来源:Beeryetal.“RecognitioninTerraIncognita”;子图标题为模型识别出置信度前5的物体 那么端到端模型是否也存在类似的“环境”信息,使