2022年11月22日 扎堆效应的识别:以股东户数变动为例 ——开源量化评论(66) 金融工程研究团队 魏建榕(首席分析师) 魏建榕(分析师)胡亮勇(分析师) 证书编号:S0790519120001 weijianrong@kysec.cn 证书编号:S0790519120001 huliangyong@kysec.cn 证书编号:S0790522030001 张翔(分析师) 证书编号:S0790520110001 傅开波(分析师) 证书编号:S0790520090003 高鹏(分析师) 证书编号:S0790520090002 苏俊豪(分析师) 证书编号:S0790522020001 胡亮勇(分析师) 证书编号:S0790522030001 �志豪(研究员) 证书编号:S0790120070080 盛少成(研究员) 证书编号:S0790121070009 苏良(研究员) 证书编号:S0790121070008 何申昊(研究员) 证书编号:S0790122080094 相关研究报告 《高频股东数据的隐含信息量》 -2020.12.31 《机构调研个股的潜在超额收益》 -2021.09.10 《自选股与点击量:投资者关注度的选股能力》-2022.03.27 《一叶知秋:在线平台销售数据的前瞻作用》-2022.11.06 股东户数信息的披露大致经历了三个阶段 A股股东户数信息的披露大致经历了低、中、高三个阶段。第一阶段股东户数信息披露并不完善,缺失值较多;第二阶段股东户数信息主要源于定期财报的公布;第三阶段受益于投资者互动平台的搭建,股东户数信息的获取更加及时。 虽然整体而言上市公司增大了最新股东户数的披露频率,但披露集中在少数上市公司之中,大部分上市公司依然较少在定期财报之外进行股东户数信息的披露。 股东户数相关因子具有稳健的选股能力 在因子构建层面,我们提出了间隔选取多期后再进行时序标准化处理的方法,其 能够有效避免相邻月份数值相同导致求解变动比例时产生过多零值而无法有效分组的问题。 股东户数变动(SNC)因子在测试期内具有优异表现,RankIC均值为4.5%,RankICIR为2.50,RankIC为正次数占比约74%。 人均持股占比变动(PCRC)因子在多空对冲稳定性上表现优异,最大回撤仅为 -2.9%,收益波动比达到2.6。 综合而言,当选取间隔较短时(Gap<3),滚动窗口适宜选取长一些;选取间隔较长时(Gap>3),则滚动窗口不宜过长,累计跨度在两年左右时,因子表现较优。 局部最优参数下PCRC因子单调性有所改善,不同分组的走势区分度更加凸显。多头端年化收益率达到14.5%,RankIC为4.58%,RankICIR为2.63。 PCRC因子在中证1000指数上具有优异的增强表现 PCRC因子的表现好坏与所选股票池的市值大小存在一定的关联度,所选股票池平均市值越低,选股稳定性越高。 PCRC因子在沪深300指数成分股中表现相对较弱,测试期内RankIC均值为2.19%,RankICIR约为0.93,弱于全市场下的选股表现;在中证1000指数成分中因子显著性最强,RankIC均值达到4.88%,年化超额收益率为9.08%,收益波动比1.508,胜率约66%。 风险提示:模型基于历史数据统计,未来存在失效风险。 金融工程研究 金融工程专题 开源证券证券研究报告 目录 1、股东户数信息披露衍化3 2、股东户数相关因子构建4 2.1、股东户数变动因子5 2.2、人均持股占比变动因子6 2.3、不同间隔跨度及滚动窗口的影响分析7 3、股东户数相关因子的增强实践8 4、拓展讨论:额外披露信息的增益11 4.1、定期财报与全样本对比11 4.2、高披露频率与低披露频率对比11 5、风险提示12 图表目录 图1:上市公司股东信息披露大致经历了低、中、高三个阶段4 图2:滚动12个月内披露最新股东户数超过4次的上市公司占比约一半4 图3:股东户数变动因子RankIC均值为4.5%5 图4:SNC因子多空对冲收益走势稳定6 图5:人均持股占比变动因子RankIC均值为4.4%6 图6:人均持股占比变动因子超额收益表现稳定7 图7:RankIC表明(9,4)是最优参数8 图8:RankICIR的最优参数为(4,3)8 图9:调参后PCRC因子RankIC提升到4.6%8 图10:调参后PCRC因子�分组区分度更加明显8 图11:PCRC因子在中证1000指数中显著性最佳9 图12:PCRC因子在国证2000指数中稳定性最好9 图13:PCRC因子在沪深300指数上超额能力较弱10 图14:PCRC因子在中证500指数上超额波动较大10 图15:PCRC因子在中证1000指数上具有最优表现10 图16:PCRC因子在国证2000指数上超额稳定性较优10 图17:额外披露的股东信息虽有增益但效果不显著11 图18:额外披露的股东信息能够小幅提升收益11 图19:高披露频率组RankIC均值达4.68%12 图20:高披露频率组在多头端表现占优12 表1:SNC因子多空对冲端胜率约80%6 表2:PCRC因子最大回撤控制能力优秀,对冲端最大回撤仅为-2.9%7 表3:不同宽基指数增强效果对比10 谚语有云,人多的地方不要去。投资亦如是。2021年以来抱团股的大幅下跌,或许是A股市场参与者最深刻的教训之一。2020年12月31日,我们发布了报告《高频股东数据的隐含信息量》,通过对深交所互动易平台关于股东户数的问答数据进行抓取、解析、清洗、融合,构建了高频股东户数相关因子,其测试结果表明个人投资者在个股上的扎堆行为与个股未来收益表现之间存在显著的负向关系,即股东户数大幅增长的个股未来股价表现承压概率增加。换言之,个人投资者的非理性扎堆行为,是其他聪明投资者稳定的超额收益来源。买在分歧,卖在共识,不要扎堆,避免成为最后买单的人。 囿于数据来源所限,上述报告中我们仅在深交所上市公司中进行了股东户数变动与股价关系的测试,本篇报告我们尝试将样本域拓展至全市场,在因子构建层面进行了更多尝试,并在更多维度对因子表现进行分析与讨论。 本篇报告内容主要分为四个部分。第一部分,我们简单回顾了上市公司股东信息披露的行为变迁,其大致经历了低、中、高披露三个阶段,每个阶段持续约十年。第二部分,我们尝试对高频股东户数信息进行分析,提出了隔季选取再时序标准化的因子构建方法,从股东户数变动和人均持股占比变动两个维度分别进行了因子测试,超额收益稳定。第三部分,我们以人均持股占比变动因子为例,在不同宽基指数中分别进行了测试,结果表明人均持股占比变动因子在小市值宽基指数中的选股显著性和稳定性更优,如中证1000指数。第四部分,我们通过对比定期财报和全样本数据、低披露频率和高披露频率样本域内的因子表现差异,发现高频信息确实带来了信息增益,但幅度不如预期。 1、股东户数信息披露衍化 通过图1可知,A股股东户数信息的披露大致经历了低、中、高三个阶段。第一阶段为1992年至2002年间,其时股东信息披露并不完善,在每个财报期可查阅到的股东户数信息往往低于当前上市公司的数量,股东数据缺失严重;第二阶段为2002年至2012年间,上市公司定期报告虽然会按时公布股东信息,但缺少第三方平 台进行信息补充,上市公司数量和股东信息披露的频率高度契合。第三阶段为2012年以来至今,受益于交易所投资者在线互动平台的推出,上市公司股东户数信息披露次数逐渐超过同期的上市公司数量,对投资者及时了解上市公司股东变化起到了积极补充作用。 2010年1月1日,深圳交易所互动易平台上线;2013年7月5日上交所e互动 在线平台上线。相比于上市公司财务报告中每年固定4期的股东户数信息披露,深交所的互动易和上交所的e互动在线平台的问答内容偶尔包含着上市公司当下最新的股东户数信息,对了解上市公司最新股东情况起到了及时补充作用,股东户数信息的跟踪从既往的定期低频发布模式逐步向不定期高频更新的模式转变。 图1:上市公司股东信息披露大致经历了低、中、高三个阶段 披露次数上市数量 12000 10000 8000 6000 4000 2000 1992/12 1993/09 1994/06 1995/03 1995/12 1996/09 1997/06 1998/03 1998/12 1999/09 2000/06 2001/03 2001/12 2002/09 2003/06 2004/03 2004/12 2005/09 2006/06 2007/03 2007/12 2008/09 2009/06 2010/03 2010/12 2011/09 2012/06 2013/03 2013/12 2014/09 2015/06 2016/03 2016/12 2017/09 2018/06 2019/03 2019/12 2020/09 2021/06 2022/03 0 数据来源:Wind、开源证券研究所 此外,我们针对上市公司股东信息发布频率进行了统计。在滚动12个月内我们计算上市公司关于最新股东户数的累计披露次数,当月多次披露按一次计算。可以看到随着披露次数阈值的提升,符合条件的上市公司数量在逐渐减少,滚动12个月 披露最新股东户数超过4次的上市公司仅占当前上市公司数量的一半左右,近两年这个比例有所下滑。从这个角度可以推断出,虽然整体而言上市公司增大了最新股东户数的披露频率,但披露集中在少数上市公司之中,大部分上市公司依然较少在定期财报之外进行股东信息的披露。 图2:滚动12个月内披露最新股东户数超过4次的上市公司占比约一半 total456789101112 6000 5000 4000 3000 2000 1000 0 数据来源:Wind、开源证券研究所 2、股东户数相关因子构建 一般而言,上市公司股东户数不断增加,通常表明个人投资者开始扎堆涌入该只个股。个人投资者容易受情绪干扰而从众交易的特征,导致其交易行为通常蕴含着负向alpha,实证结果便是股东户数大幅增加的上市公司其未来股价倾向于跑输股东户数不断减少的公司。基于此,在报告《高频股东数据的隐含信息量》中,我们根据上市公司最新披露的股东户数信息构造了股东户数变化因子。 在构建相关因子时,我们对数据缺失的月份进行前值填充,对相同月份的多条数据进行取最新值的处理。为避免相邻月份数值相同导致求解变动比例时产生过多 零值而无法有效分组,我们尝试采用间隔选取多期后再进行时序标准化处理,生成最终的因子值。 𝑓𝑓𝑎𝑐𝑡𝑜𝑟� 𝑥�−𝑥� = �1∑� (� −𝑥�)2 �𝑖𝑖,𝑗𝑗=0 𝑡−𝑖𝑖∗𝑗� � 1 𝑥�=��𝑥𝑡−𝑖𝑖∗𝑗� 𝑖𝑖,𝑗𝑗=0 其中,�是当前值,𝑥�是时序上均值,�表示滚动期数,𝑖�表示选取间隔。在下文测试过程中,默认选取间隔为3个月,选取窗口长度为8期。 在进行因子测试前,我们需要对数据进行预处理。新股刚上市时股东户数往往波动较大,我们对上市不满一年的新股进行剔除。同时,我们对调仓期间的退市股和停牌股进行剔除。在此基础上,我们对数据进行异常值处理,在截面上对异常值剪枝后再对全部数据进行标准化处理。最后,我们对因子值进行行业市值中性化处理。如无特别说明,所有因子的构建均遵循以上步骤。 通常,刻画上市公司股东户数的变动有两种计算模式,一种是计算股东户数在时序上的变动,一种是计算人均持股比例在时序上的变动。理论上二者是一体两面,即同一件事情的不同表达。下面,我们分别从这两个维度来观察股东户数的变动对预测个股未来收益率的影响。 2.1、股东户数变动因子 我们首先对股东户数变动(ShareholderNumberChange,下文简称SNC)因子在全市场进行测试,这里我们对最终生成的因子值取负处理,使其转为正向选股因子。从测试结果来看,股东户数变动因子在测试期内具有优异表现,