金融工程专题 2024年08月08日 深度学习赋能分析师行为:更稳的盈利预期调整组合 金融工程研究团队 ——开源量化评论(99) 魏建榕(首席分析师) 魏建榕(分析师)盛少成(分析师) 证书编号:S0790519120001 张翔(分析师) weijianrong@kysec.cn 证书编号:S0790519120001 shengshaocheng@kysec.cn 证书编号:S0790523060003 证书编号:S0790520110001 傅开波(分析师) 证书编号:S0790520090003 高鹏(分析师) 证书编号:S0790520090002 苏俊豪(分析师) 证书编号:S0790522020001 胡亮勇(分析师) 证书编号:S0790522030001 王志豪(分析师) 证书编号:S0790522070003 盛少成(分析师) 证书编号:S0790523060003 苏良(分析师) 证书编号:S0790523060004 何申昊(研究员) 证书编号:S0790122080094 陈威(研究员) 证书编号:S0790123070027 蒋韬(研究员) 证书编号:S0790123070037 盈利预期调整优选组合回顾 基于时间和股价跟随性加权的𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ,我们构建了盈利预期调整优选组合,表现非常优异,绝对年化收益为27.7%,相对中证500年化收益为22.9%,从2012年至今所有年份皆录得了正超额。就具体的年份来看,表现相对较差的 为2022年和2023年,分别录得了7.58%和3.33%的超额。 深度学习赋能:研报文本情感判断 对于分析师情绪衡量,研报文本和数值层面的表达有时会存在偏差,所以文本情绪变动因子为重要的alpha补充。本篇报告基于三大模型:KY-Bert、KY-Llama3、KY-CH进行文本情绪的判定。KY-Bert是在已有的金融新闻分类Bert基础上,结合数库的A股新闻文本微调而得,KY-Llama3是在Llama3-Chinese-8bit基础上,使用数库A股新闻文本数据并结合LoRA方法进行微调而得,KY-CH是基于金融情感词典和jieba分词进行的计数方法。 对于三大模型而言,有如下区别:(1)就研报的情感预测比例而言,KY-CH给出的正面比例最多,说明词汇计数模型较为简单,不能够达到理解上下文的作用,从而在正面词汇和负面词汇天然不对等的分析师报告中,更加倾向于给出正面的判断;(2)就情感预测相同比例而言,三个模型相互之间都有80%以上,并没有某一个模型偏差较大;(3)就因子相关性而言,三者皆有60%的相关性,同为大模型生成的KY-Bert_ASC和KY-Llama3-ASC相关性略高,达到67.89%; (4)就因子绩效而言,KY-Llama3-ASC相对最好,KY-CH-ASC相对最差。 进一步的,我们将KY-Bert-ASC、KY-Llama3-ASC、KY-CH-ASC三者等权合成,从2020年6月至2024年6月,最终合成因子KY-Combine-ASC10分组多空对冲年化收益为11.17%、收益波动比为2.33、最大回撤为1.85%,月度胜率为70.83%。最终合成因子效果相较于任何单一模型因子而言,绩效都有所提升。 改进盈利预期调整优选组合:考虑研报文本 在第一部分,我们回顾了数值预期调整因子𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ,在第二部分,我们结合三大模型并给出了分析师文本情绪调整因子KY-Combine-ASC。经过测算 相关研究报告 发现:二者的相关性仅20.63%,KY-Combine-ASC的因子稳定性更高,主要的 原因有两点:1、文本的表述有时和数值存在些许差异;2、情感变化因子 KY-Combine-AS更重视边际的变化。考虑研报文本改进的思路为:在最终使用 《业绩超预期Plus组合的构建—开源 量化评论(25)》-2021.7.7 《盈利预期调整优选组合的构建—开源量化评论(60)》-2022.8.6 《业绩超预期Plus组合2.0:基于预期调整的修正—开源量化评论(72)》 -2023.3.3 𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�选择30只股票之前,还需考虑研报文本情绪变动,如果该股票不位于因子KY-Combine-AS前1/3分位,则不予选择。改进后整体稳定性明显提升,对冲中证500的信息比率从1.44提升至2.41。 其他重要讨论 研报文本情绪变动因子还可以改进行业轮动,相较于只使用数值预期调整,考虑研报文本后,三分组多头超额IR从0.51提升至1.22。 风险提示:本报告模型基于历史数据测算,市场未来可能发生重大改变。 金融工程研究 金融工程专题 开源证券 证券研究报 告 目录 1、盈利预期调整优选组合回顾4 1.1、盈利预期调整因子𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�回顾4 1.2、盈利预期调整优选组合构建流程及绩效回顾5 2、深度学习赋能:研报文本情感判断7 2.1、模型一:KY-Bert8 2.1.1、KY-Bert的构建及研报情感判断8 2.1.2、KY-Bert研报文本情感变动因子构建9 2.1.3、KY-Bert与HW-Bert模型的对比11 2.2、模型二:KY-Llama311 2.2.1、LoRA微调过程简示11 2.2.2、KY-Llama3研报文本情感变动因子12 2.3、模型三:KY-CH12 2.4、三大模型的对比分析13 2.4.1、三大模型情感预测比例及因子效果对比13 2.4.2、三大模型因子合成14 3、改进盈利预期调整优选组合:考虑研报文本14 3.1、研报文本情绪变动因子和数值预期调整因子对比14 3.2、考虑研报文本情绪变动后,盈利预期调整优选组合稳定性提高15 4、其他重要讨论16 4.1、研报文本研究其他方法:关键词筛选16 4.2、改进行业预期调整因子:考虑研报文本17 5、风险提示17 图表目录 图1:相较于𝑭𝒀𝑹_𝑫𝑰𝑺𝑷,𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�多空对冲信息比率从1.9提升至2.54 图2:2020年6月以来,相较于𝑭𝒀𝑹_𝑫𝑰𝑺𝑷,𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�多空净值依旧更稳5 图3:盈利预期调整优选组合净值表现优异6 图4:对于分析师情绪衡量,研报文本和数值层面表达有时存在偏差7 图5:HW-Bert模型简易结构图8 图6:数库新闻文本数据样例展示9 图7:KY-Bert-ASC因子10分组多空对冲收益波动比为1.9810 图8:股价跟随性相较于等权稳定性明显增加10 图9:KY-Bert-ASC因子的10分组多空对冲IR高于HW-Bert-ASC11 图10:LoRA微调原理简示11 图11:KY-Llama3-ASC的10分组多空对冲收益波动比为2.0212 图12:KY-Llama3-ASC的10分组多空对冲收益波动比为1.7813 图13:KY-Llama3-AS的10分组回测效果13 图14:最终合成因子效果相较于任何单一模型因子而言,绩效都有所提升14 图15:KY-Combine-AS因子10分组多空对冲IR更高,达到了2.3315 图16:全区间来看,改进后的组合净值更加稳定15 图17:全区间来看,改进后的组合收益波动比更高16 图18:关键词:业绩超预期和业绩不及预期的净值对比16 图19:考虑研报文本,改进的行业预期调整因子3分组多头超额从0.51提升至1.2217 表1:对𝑭𝒀𝑹_𝑫𝑰𝑺�采取不同加权方式下的绩效对比:𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�绩效更优异4 表2:2020年6月以来,时间和股价跟随性加权对于𝑭𝒀𝑹_𝑫𝑰𝑺�依旧有改进5 表3:盈利预期调整优选组合构建流程5 表4:盈利预期调整优选组合绩效表现优异,所有年份皆录得正超额,2022和2023年略差6 表5:KY-Bert研报文本情感变动因子RankICIR:不考虑标题、使用概率、股价跟随性加权下的表现最好10 表6:考虑研报文本,改进的行业预期调整因子3分组绩效表现优异17 对于分析师行为alpha,我们在《盈利预期调整优选组合的构建》中进行了详细的分析,其中亮点有三:1、深入讨论标准化方法对因子效果的影响;2、创新性地提出“股价跟随性”的分析师加权方式;3、构建特色因子:分析师关联动量、分析师羊群效应等。最终构建的盈利预期调整优选组合表现优异,尤其是2024年以来,对冲中证500超额约18%。本篇报告将从“研报文本”继续深挖分析师行为中的alpha,探讨与数值预期调整的异同,以及是否有些许增量。 1、盈利预期调整优选组合回顾 1.1、盈利预期调整因子𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�回顾 (1)对于数值预期调整而言,由于不同股票存在一定量级差别,在生成因子时需要进行标准化。在《盈利预期调整优选组合的构建》中,对于分析师A关于股票B的预期调整幅度计算,我们讨论了三种标准化方式:1、上一期的盈利预测数值;2、盈利预测数值历史时序标准差;3、该股票所有分析师盈利预测的截面标准差。其中采取第三种的标准化方式定义的𝐹𝑌𝑅_𝐷𝐼𝑆�绩效更加优异,具体测算结果可见原始报告。 (2)除此之外,我们发现对分析师进行时间和股价跟随性加权后,可以进一步提升𝐹𝑌𝑅_𝐷𝐼𝑆�的绩效,𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ是综合考虑时间和股价跟随性加权后的因子,绩效对比如表1所示: 表1:对𝑭𝒀𝑹_𝑫𝑰𝑺�采取不同加权方式下的绩效对比:𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�绩效更优异 因子名称 RankICIR 多空年化收益 多空信息比率 多空最大回撤 多空月度胜率 𝐹𝑌𝑅_𝐷𝐼𝑆� 2.00 16.77% 1.90 16.68% 74.05% 时间加权 2.26 17.97% 2.31 15.09% 78.92% 股价跟随性加权 2.27 17.05% 2.21 14.84% 77.84% 𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ 2.54 17.44% 2.53 11.36% 83.24% 数据来源:Wind、朝阳永续、开源证券研究所(回测区间:20090101-20240630) (3)对于𝐹𝑌𝑅_𝐷𝐼𝑆�和𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ而言,二者10分组多空对冲的净值曲 线如图1所示。从图中可以明显的看出:改进后的𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ整体回撤和波动减小较多,更加稳定。 图1:相较于𝑭𝒀𝑹_𝑫𝑰𝑺𝑷,𝑭𝒀𝑹_𝑫𝑰𝑺𝑷𝒔𝒕𝒓𝒆𝒏𝒈𝒕�多空对冲信息比率从1.9提升至2.5 数据来源:Wind、朝阳永续、开源证券研究所 (4)但是进一步对比我们发现:在2020年6月份之后,𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ的十 分组多空对冲波动也明显加大。为了验证加权方式在2020年6月份之后的适用性, 我们将这一时间区间单独做了测算,结果如表2和图2所示。从中我们可以看出加权方式在这一段区间也依旧有效,𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ回撤和波动有所减小。就 𝐹𝑌𝑅_𝐷𝐼𝑆𝑃𝑠𝑡𝑟𝑒𝑛𝑔𝑡ℎ而言,其表现在2022-2023年沉寂了较长时间后,2024年以来表现尤其亮眼。 表2:2020年6月以来,时间和股价跟随性加权对于𝑭𝒀𝑹_𝑫𝑰𝑺�依旧有改进 因子名称 RankICIR 多空年化收益 多空信息比率 多空最大回撤 多空月度胜率