金融工程 专题报告 另辟蹊径:发掘分析师因子中的另类alpha ——量化研究系列报告之十七 报告日期:2024-06-12 主要观点: 分析师:严佳炜 执业证书号:S0010520070001邮箱:yanjw@hazq.com 联系人:吴正宇 执业证书号:S0010522090001邮箱:wuzy@hazq.com 相关报告 1.《探索股价动态关联,捕捉属性敏感的动量溢出——量化研究系列报告之十六》2024-3-21 2.《加速换手因子:“适逢其时”的换手奥秘——量化研究系列报告之十 �》2024-3-16 3.《风格轮动三部曲:重构、探索和实践——量化研究系列报告之十四》2023-12-17 4.《PB之变:精细分拆,新生华彩— —量化研究系列报告之十三》2023- 12-17 5.《收益和波动共舞:非对称性理论蕴含的alpha——量化研究系列报告之十二》2023-9-10 6.《ChatGPT与研报文本情绪的碰撞 ——量化研究系列报告之十一》2023-6-11 分析师数据是重要的alpha来源 随着金融市场的发展,证券分析师作为投资者与上市公司之间的桥梁,通过撰写研究报告进行行业分析,或提供上市公司盈利预测和投资建议。对于量化从业人员而言,分析师数据是收益端的有效补充,能有 效提供独立的增量alpha。本文基于慧博分析师预期数据,从目标价、 报告页数和发布时点三个角度挖掘蕴藏在分析师数据中的另类alpha。 慧博分析师数据质量较高,一致预期估值因子表现优异 目前,慧博量化投研数据产品主要包括分析师原始预期和分析师一致预期数据,还详细提供了分析师和机构的基础信息。慧博数据报告数量丰富,股票和机构覆盖度广,并且具有更强的报告录入效率,整体而 言数据质量较高。 基于慧博分析师一致预测数据的预期估值因子表现出色,预期BP因子RankIC达5.94%,年化ICIR为1.82,多空年化收益14.75%,多头年化超额达8.2%,一致预期EP因子多头年化超额收益为10.3%,主要增量来源于慧博汇总数据时对不同机构的赋权逻辑。 从目标价、报告页数和发布时点三个角度构造另类分析师因子 从目标价、报告页数和报告发布时点三个维度探寻分析师增量alpha因子:从目标价可比性、发布期前后个股涨跌幅和算法三个角度改进目标收益因子,低谷掘金型目标收益因子多空年化收益15.74%,多头年化超额为4.4%。6个月标准化目标收益因子年化ICIR为 2.48,多头年化超额收益5.07%;报告页数是分析师关注度的另类表 达方式,报告最大页数因子多空组合年化收益16.76%,多头超额4.2%;报告发布天数表明了分析师对其覆盖公司的优先级,定义为报 告发布时点相距最近财报的天数,平均发布天数因子多头超额4.2%。 合成另类分析师因子RankIC均值为3.99%,年化ICIR分别为 2.58,在各个选股域中均有不错的表现,且与传统alpha因子的相关性较低:沪深300内,RankIC均值为3.23%,年化ICIR为1.45,分 �组多头年化超额为3.5%;中证500内,RankIC均值为3.03%,年化ICIR为1.41,分�组多头年化超额为4.2%;中证1000内,RankIC均值为4.46%,年化ICIR为2.42,分�组多头年化超额为7.3%,表现出色。 风险提示 本报告基于历史个股数据进行测试,历史回测结果不代表未来收益。未来市场风格可能切换,Alpha因子可能失效,本文内容仅供参考。 敬请参阅末页重要声明及评级说明证券研究报告 正文目录 1分析师数据是重要的ALPHA来源5 2慧博分析师数据库及一致预期因子测试6 2.1数据来源6 2.1.1报告数量丰富6 2.1.2股票数量覆盖度广7 2.1.3机构数量覆盖稳定7 2.1.4报告录入及时性强8 2.2基于慧博分析师一致预期数据的基础性因子测试8 3挖掘分析师数据中的另类ALPHA14 3.1改进目标价因子的三个法门14 3.1.1基于目标价可比性的改进15 3.1.2基于发布时点的改进16 3.1.3算法改进18 3.2分析师关注度的另类表达方式:报告页数因子19 3.3及时雨:报告发布天数因子22 3.4另类分析师因子表现优异24 4总结28 风险提示:29 图表目录 图表1分析师数据分类与应用示意图5 图表2慧博分析师数据表字典明细6 图表3慧博和友商年度报告数量7 图表4慧博和友商分年度股票覆盖数量7 图表5慧博和友商分年度机构覆盖数量8 图表6慧博和友商报告录入时间分布8 图表7分析师一致预测因子明细9 图表8分析师一致预期因子在全市场内有效性汇总(不填充缺失值,结果按RANKIC降序排序)9 图表9分析师一致预期因子在沪深300内有效性汇总(结果按RANKIC降序排序)10 图表10分析师一致预期因子在中证500内有效性汇总(结果按RANKIC降序排序)10 图表11分析师一致预期因子在中证1000内有效性汇总(结果按RANKIC降序排序)10 图表12优秀分析师一致预期因子在全市场内有效性汇总(不填充缺失值,结果按RANKIC降序排序)11 图表13优秀分析师一致预期因子在沪深300内有效性汇总(结果按RANKIC降序排序)11 图表14优秀分析师一致预期因子在中证500内有效性汇总(结果按RANKIC降序排序)11 图表15优秀分析师一致预期因子在中证1000内有效性汇总(结果按RANKIC降序排序)12 图表16慧博&友商分析师一致预期因子在不同选股域内的有效性汇总(上表为慧博因子,下表对照组为友商因子)12图表17分析师一致预测EP因子IC序列13 图表18分析师一致预测EP因子多头超额净值走势13 图表19分析师一致预测EP因子多头组合分年度表现14 图表20含目标价覆盖股票数及占比15 图表21分析师一致预测目标收益因子表现汇总(2014.1.1-2024.1.31,全市场内不处理缺失值)15 图表22一致预测调整目标收益因子计算示意图(以分析师中枢为例)16 图表23分析师一致预测中枢调整目标收益因子表现汇总(2014.1.1-2024.1.31)16 图表24分析师发布报告时点时间轴示意图17 图表25考察期高点续航目标收益因子VS低谷掘金目标收益因子表现(2014.1.1-2024.1.31)17 图表26不同时间窗口下低谷掘金目标收益因子表现汇总(2014.1.1-2024.1.31)18 图表27验证期市场印证目标收益因子VS预测偏离目标收益因子表现(2014.1.1-2024.1.31)18 图表28标准化分析师一致预测目标收益因子表现汇总(2014.1.1-2024.1.31)18 图表29分析师一致预测目标收益因子分指数域表现汇总(2014.1.1-2024.1.31)19 图表30报告总页数股票数分布20 图表31报告平均页数股票数分布20 图表32分析师报告页数因子表现汇总(2014.1.1-2024.1.31)20 图表33分析师关注度类因子相关性检验(2014.1.1-2024.1.31)20 图表34分析师报告页数偏离度因子表现汇总(2014.1.1-2024.1.31)21 图表35分析师关注度类因子分指数域表现汇总(2014.1.1-2024.1.31)22 图表36分析师报告发布天数分布23 图表37分析师报告发布天数因子在全市场内表现汇总(2014.1.1-2024.1.31)23 图表38分析师报告发布天数变化因子在全市场内表现汇总(2014.1.1-2024.1.31)24 图表39合成因子明细24 图表40另类分析师因子RANKIC序列24 图表41另类分析师因子分组年化超额收益24 图表42另类分析师因子多空净值及最大回撤25 图表43另类分析师因子分十组多头超额净值25 图表44另类分析师因子分十组多头超额分年度表现汇总26 图表45另类分析师因子分域有效性汇总26 图表46另类分析师因子沪深300内多头净值表现26 图表47另类分析师因子沪深300内多头组合分年度表现26 图表48另类分析师因子中证500内多头净值表现27 图表49另类分析师因子中证500内多头组合分年度表现27 图表50另类分析师因子中证1000内多头净值表现27 图表51另类分析师因子中证1000内多头组分年度表现27 图表52另类分析师因子与其它大类因子间相关性28 1分析师数据是重要的alpha来源 股价变化反映了投资者对上市公司基本面发展的一致性看法,投资者可以利用手中的“筹码”对看好的公司进行“投票”。随着金融市场的发展,证券分析师,作为金融从业人员的重要组成部分,扮演着投资者与上市公司之间的专门化中介和桥梁,他们利用自身的专业知识,通过撰写研究报告进行行业分析,或提供上市公司盈利预测和投资建议,是投资者进行股票投资的信息来源之一。 对于量化从业人员而言,分析师数据更是收益端的有效补充:从多因子模型的角度,alpha来源大体可分为三部分:以财务报表数据为养料的基本面因子,以市场交易数据为基础的量价因子,以及以分析师预测数据为依据的分析师因子。由于分析师因子具有与传统基本面因子和市场交易因子相对独立的数据和收益来源,一直以来都是提供增量alpha的重要手段。 相较于披露时间和数据形式更规则化的财报和交易数据,分析师数据类型更为多样:一方面,财务报告的报告期是固定的,且其披露日期的范围也有规可循,而市 场交易数据更是可实时跟踪。相比之下,分析师报告的发布时点相对不规律,与公司的重要事件、公告的发布时点,以及一些行业、政策性大事件息息相关;另一方面, 从数据形式的角度,当前对财报和交易数据的挖掘主要基于数值型数据,而分析师 数据中除了盈利预测、目标价、投资评级等数值型数据外,研报的标题、摘要等文本数据亦是值得探索的领域,业界中关于运用NLP算法对分析师文本进行情感分析的研究层出不穷,提供了广泛、前沿的因子挖掘思路。由此可见,分析师数据类型更为 多元、灵活,从某种意义上来讲,分析师因子的可塑性更强。 图表1分析师数据分类与应用示意图 资料来源:华安证券研究所整理 本文的分析师研报数据来源于慧博投研,慧博作为股票分析师预期数据供应商,其数据对A股有较为全面的覆盖,同时慧博也提供了根据原始数据加工得到的一致预期数据。当前,在市场有效性增强,alpha日益稀缺的环境下,本文尝试从目标价、报告页数和发布时点这三个已有研究涉猎较少的角度,挖掘蕴藏在分析师数据中的alpha增量信息。 2慧博分析师数据库及一致预期因子测试 2.1数据来源 目前,慧博量化投研数据产品主要包括分析师原始预期和分析师一致预期数据,原始报告数据最早于2006年,涉及涵盖证券公司130余家、期货公司140余家及 其他研究机构420余家,覆盖超过5000名证券分析师。截止2023年12月31日, 慧博投研数据覆盖研究报告超过400万篇,其中个股报告约60万篇,数据字段包括 分析师对于上市公司的盈利预测、目标价、评级等等;分析师一致预期数据始于2013年,包括全体分析师一致预期和优秀分析师一致预期两大类。二者均对分析师预测的原始数据,按照机构和时间维度加权而得,区别在于分析师所选取的范围不同,前者选取全市场的分析师,后者选取包括新财富以及水晶球分析师在内的优秀分析师。另外,慧博还提供了详细的分析师基础信息、机构基础信息以及报告和分析师的关联信息以便于研究人员更精细化地对数据进行处理和筛选,数据表具体信息如下 所示: 图表2慧博分析师数据表字典明细 表名 中文名称 表类型 说明 SRR_BAS_INFO 分析师原始预期 分析师原始预期 该表包含了2013年开始以来分析师个股报告的基础信息,包括报告标题、摘要、评级、目标价等主要字段。 SRR_PRED_STK 分析师报告预测数据 分析师原始预期 该表包含了2013年开始以来分析师对个股分年度的预期数据,包括营业收入、净利润、每股收益、市盈率、市净率、市销率以及3大报表的指标等。 SRR_P