量化专题报告 财报文本中公司竞争信息刻画与ALPHA构建 2023年02月19日 传统行业分类难以准确度量企业间的竞争关系。企业不仅与同行业公司存在经营竞争关系,也与主营业务有交叉的非同行业公司有直接或间接的竞争关系。传统行业分类难以全面度量这种关系。而由于监管相关要求,财报文本附注中企业经营范围的描述是文本分析的理想材料。本报告通过文本分析计算经营业务相似度SIM描述企业相似程度。通过正则表达式定位后得到企业业务词汇向量,基于余弦相似度计算截面上公司之间的业务相似度矩阵SIM,基于该矩阵进行企业层次聚类较传统行业分类从更直接的维度度量了企业之间的关系。 分析师叶尔乐执业证书:S0100522110002邮箱:yeerle@mszq.com 基于SIM计算的业务竞争度因子能有效预测股票波动。通过将SIM加总得到业务竞争度因子,该因子越大,说明在市场中与公司具有相似业务的公司越多,公司在市场中的经营业务竞争程度越激烈;反之说明其所处市场中竞争程度越弱。该因子与下一期股票波动率之间呈现稳定的正相关。 相关研究 1.量化周报:市场仍处情绪较优状态-2023/0 2/12 2.量化周报:短期市场情绪较优-2023/02/05 基于SIM计算的股票收益联动因子𝑳𝒊𝒏𝒌𝒂𝒈�能有效捕捉动量溢出收益。弱式有效市场下信息传递存在摩擦。基于业务相似度因子计算收益联动因子𝐿𝑖𝑛𝑘𝑎𝑔𝑒,多空组合年化收益为20.68%,多头组合相对于中证500的超额年化收益15.12%。因子TOP100组合在双边千分之四交易成本下,组合实现年化收益19.24%。 3.资产配置月报:二月配置视点:如何对北向 因子进行择时?-2023/02/044.基金分析报告:基金季报2022Q4:切向前期弱势品种期待复苏-2023/01/305.基金分析报告:如何捕捉市场升温预期下的超额收益?-2023/01/29 因子提升思考一:相较于同行业公司,投资者更容易低估业务相似公司对目标公司股价的影响。投资者会对行业分类产生锚定效应。市场同时存在低估同行公司和相同业务(不同行业)公司之间的收益联动效应,因此两种因子都能具有稳定的多空净值表现,对于股票收益率都有着显著的预测能力。但市场对于不同来源消息的低估程度不同。市场参与者相对更容易关注到同行业公司对目标公司股价的影响,而非不同行业相似业务公司。因子提升思考二:有限信息处理能力下投资者对业务复杂公司的动量溢出更难把握。对于经营业务分布广泛、甚至出现跨行业多元经营的公司,投资者相较于经营业务单一的公司更难把握和判断市场信息对其的影响。使用业务相似度因子构建业务复杂度因子𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑖𝑡𝑦,并对相似业务收益联动因子的进一步改进得到𝐿𝑖𝑛𝑘𝑎𝑔𝑒_𝐶𝑜𝑚𝑝𝑙𝑒�因子,在多空和多头收益较𝐿𝑖𝑛𝑘𝑎𝑔�有进一步改善。因子提升思考三:低关注度组合中𝑳𝒊𝒏𝒌𝒂𝒈�因子TOP100组合扣费多头收益达26.8%。投资者的注意力是有限的,市场对某一标的关注度越低,那么该标的的股票收益联动效应会越明显。实证表明,𝐿𝑖𝑛𝑘𝑎𝑔�在低流动性组合中具有较好表现。TOP100组合在2010年中至2022年底,策略实现扣费年化收益26.8%,信息比率达到0.95,超额年化收益达24%。风险提示:因子是基于上一期年报的相关文本计算,若公司业务在此期间变更,存在较长的时滞风险;不同公司关于相同业务的表述可能会存在不同表达,存在相似度估计错误的风险;外部环境变化带来的量化策略失效风险。 目录 1公司业务中隐含的竞争关系3 1.1传统行业分类难以全面定义公司业务3 1.2利用年报文本分析公司业务4 1.3经营业务竞争度刻画9 2市场信息摩擦下的股票收益联动效应12 2.1市场信息摩擦的成因及后果12 2.2相似业务收益联动因子13 3股价联动效应进一步提升的方向思考18 3.1对行业分类的锚定认知18 3.2业务复杂度带来的认知困难19 3.3投资者的有限注意力20 4总结与展望22 5风险提示23 插图目录24 1公司业务中隐含的竞争关系 目前国内对上市公司财务报表文本信息研究和运用仍较少,现有关于财报的研究主要聚焦在数字信息化。股价的表现受到诸多因素影响,而在其中,企业信息披露无疑是最为重要的环节之一,在对于企业信息的研究中,由于财务报表的数字化研究数据获取难度较小、分析较为直观,因此大部分的研究都是基于财务报表的数字指标,构建财务指标对于企业的经营状况进行度量,但这无疑会遗失一些重要的信息。 本文将从一个较少被提及的角度出发:财报文本中的业务信息。上市公司经营分布信息是对公司业务范围下定义的最直接信息。中国证监会在《公开发行证券的公司信息披露内容与格式准则第2号—年度报告的内容与格式》(2021年修订)中规定,“公司应当对报告期公司从事的主要业务进行简要介绍,包括报告期公司所从事的主要业务和主要产品简介、行业发展变化、市场竞争格局以及公司行业地位等内容。”我们将利用财报文本附注中关于企业经营范围的描述信息对上市公司的业务及其关联性进行重新的梳理。 1.1传统行业分类难以全面定义公司业务 企业业务的多样使得其难以被单一的传统行业分类所涵盖。下面以特变电工 (600089)和中天科技(600522)为例做简单的说明。 图1:特变电工与中天科技部分业务存在竞争关系 公司 行业划分 wind行业证监会行业申万行业中信行业中证行业 经营范围 SW电力CS电力设CICS工业 工业- CSRC制造 设备- 备及新能CICS电力1、输变电业务:变压器、电抗器、互感器、电线电缆及其他电气机械器材的制造、销售、检修、安装及回收 资本货物-业- SW电网源 设备2、加工业务:矿产品的加工(煤炭等) 特变电工(600089)电气设备- CSRC电气 设备- CS电气设CICS电网3、新能源业务:新能源技术、建筑环保技术、水资源利用技术及相关工程项目的研发及咨询;硅及相关产品的制造、研发及相关技术 电气部件 机械和器材 SW输变备 设备咨询 与设备 制造业 电设备 CS输变电CICS输变4、工程业务 设备电设备 CICS通信1、通信设备:通信设备、输配电及控制设备、光纤复合架空地线、光纤复合相线、光纤复合绝缘电缆、陆用光电缆、海底光电缆、海 服务-洋管道、射频电缆、漏泄电缆、铁路信号缆、高温同轴缆、高温线缆 信息技术- CSRC制造SW通信- CICS通信2、输变电业务:光伏发电系统、分布式电源、微电网的设计、运行维护的管理服务;送变电工程设计;电力通信工程设计及相关技术 中天科技(600522) 技术硬件与设备-通信设备 业-CSRC电气机械和器材 SW通信设备-SW通信 CS通信-设备及技开发、咨询服务;输变电、配电、通信设备用直流远供电源设备、光缆、电线、电缆监测管理系统、变电站监控系统、温度测量设备CS通信设术服务-3、新能源业务:太阳能电池组件、太阳能光伏背板、光伏接线盒、连接器、支架、充电设备用连接装置、储能系统、混合动力及电动 备-CICS通信汽车电池系统、锂电池、钠硫电池、钒电池、交流不间断电源、一体化电源、应急电源、充放电设备、逆变设备 Ⅲ-制造业 线缆及配CS线缆设备-4、合金加工及其他材料:制冷、超导、环保材料等:制冷、空调设备制造;制冷、空调设备销售;超导材料销售;电容器及其配套设 通信设备 套CICS通信备制造;电容器及其配套设备销售;石墨及碳素制品制造;石墨及碳素制品销售;水环境污染防治服务;大气环境污染防治服务;环境系统设备保护专用设备制造;环境保护专用设备销售 资料来源:wind,民生证券研究院 及组件 5、工程业务 特变电工在各个行业下的划分基本属于输电/电气设备板块,而中天科技的板块行业划分则主要集中于通信设备板块。单从这里的信息难以看出二者存在任何直接竞争关系,然而通过对于财务报告文本附注经营范围的分析,可以发现,二者在电线电缆和输变电业务等存在一定的竞争关系。从二者官网也可以看到其在相关业务上的布局。 企业不仅与同行业公司存在经营竞争关系,也与主营业务有交叉的非同行业公司有直接或间接的竞争关系。 图2:中天科技输变电业务图3:特变电工输变电业务 资料来源:中天科技公司官网,民生证券研究院资料来源:特变电工公司官网,民生证券研究院 1.2利用年报文本分析公司业务 1.2.1公司业务相似度计算 近年来,伴随着文本分析和自然语言处理技术的发展,财务报表的文本信息也逐步被运用于资产定价、市场竞争等相关领域的研究。正如前文所言,监管要求公司应当详细全面地披露报告期内所从事的主要业务、主要产品及其用途、经营模式等内容,避免有选择性披露。因其客观性、全面性且免受管理层主观调整影响,这些信息是研究公司经营业务状况的理想材料。 我们选择以A股上市公司年度财务报告附注中关于公司基本情况的描述作为初始信息,通过正则表达式定位含有“经营范围”、“经营业务”、“主营业务”、“主要产品及提供的劳务”、“公司主要从事”等关键词句及其同义词的句子作为目标句。同时,考虑到企业在披露经营信息时会使用诸如:“甲业务(不含/不包括/不涉及乙业务)”等前缀排除性表述,我们将删除目标短语中前缀性排除词汇表述后至第一个除顿号以外的标点符号结尾之间的内容。对于类似“(乙业务除外)”等后缀排除性表述,我们同样删除标短语中后缀性排除性词汇表述前至第一个除顿号以外的标点符号开头之间的内容。此外,部分公司关于经营业务范围的表述包含历史,本文选取关键词“经变更后许可经营项目为”及其类似表述后或多个定位中最后一个作为最新业务范围。 图4:词向量构建(示例) 资料来源:民生证券研究院绘制 我们使用基于Python的Jieba工具将目标语句精确分词,将整句分成多个单词。之后,删除重复的单词和停用词,得到描述公司业务范围且不重复的词语单元集合,称之为公司业务信息集。接下来,对于每年所有公司的业务信息集求并集,得到每年所有公司不含重复词的词语单元集合,称之为年度业务信息集。 公司经营信息向量基于年度经营信息集构建。若年度经营信息集中的某个词语也在公司经营信息集中,则该词语对应的向量元素值为1,否则赋值为0.此向量仅包含1和0两种元素,表示公司财务报告中的经营范围是否包含某项业务。任 , 意两家公司i,j通过以上方法分别可以计算出它们的公司经营信息向量� �� 和�, , �� ,, 两个向量之间夹角的余弦值反映了单位化后�在�上的投影长度或向量重叠 ���� 程度,这是本文中两家公司间经营业务相似度的代理变量。 𝑺𝑰� � , �� = ∗� , �� 𝒊,𝒋,� ∥� , �� ∥∗∥�∥ , �� 从理论上来说,该值越大表明公司i和j的经验范围越接近,该值越小表明公司i和j的经验范围越不同。如果𝑺𝑰𝑴𝒊,𝒋,�=𝟏,则表示公司i和j在t年度经营业务完全一致,如果𝑺𝑰𝑴𝒊,𝒋,�=�则表示公司i和j在t年度经营业务完全不一致。 图5:相似度矩阵构建(示例) 资料来源:民生证券研究院绘制 1.2.2SIM下的企业层次聚类 为了进一步了解经营相似度对公司的划分与传统行业划分有什么区别,我们采用层次聚类分析的方式依据业务的关联性对公司进行划分。层次聚类分析 (HierarchicalClusteringAnalysis,HCA)是一种聚类分析方法,它通过不断地合并或分裂簇来构建层次结构的聚类树。这种方法可以用来处理无监督的数据集。在层次聚类中,每个样本都被视为一个单独的簇。然后,每次选择最相似的两个簇进行合并,直到所有样本都被合并到一个簇中。这样构建出来的层次结构可以通过树状图来表示。 HCA的算法有很多种,常用的AGNES算法步骤: •(1)初始化,每个样本当做一个簇; •(2)计算任意两簇距离,找出距离最近的两个簇,合并这两簇; •(3)重复步骤2直到最远两簇距离超过阈值,或者簇的个