│ 金融工程 行业配置系列1——定义配置对象 金融 工——行业拆分和聚类 邮箱所有人使用,未经许可,不得外传。 程 ybjieshou@eastmoney.com 专专题内容摘要 题 随着国内A股投资者机构化程度不断提升,市场对股票定价越发有效, 本报告仅供 从而导致选股差异度下降。投资者想要获取更多或维持当前超额收益的水平,需要更多地依赖行业的配置和择时。 本报告是行业配置系列报告的第一篇,主要目的是搭建一个板块划分量化标准,为行业配置策略提供高内聚的配置对象。文中所有的步骤均为量化精确描述,历史数据均可复现。从一级行业分化度刻画、行业拆分标准设定到行业聚类,全程采用时间窗口移动的计算方式,并且都有明确的量化指标,没有在当前时间节点对历史行业进行主观的调整部分。 基于市场主流的行业划分,对全市场股票行业分类标准做出了适当调整。通过将同属一级行业的二级子行业进行适当地拆分,将分化度大的行业进行精细化分类,减少行业配置时低相关性的二级子行业的噪音干扰。然后用数据聚类的方法,把多个拆分后的行业进行板块聚类。 行业拆分两步走。首先从量价信息、基本面信息两个视角,对一级行业进行分化度刻画,将分化度高的一级行业选入预拆分的备选池。然后从二级行业的自由流通市值、二级行业成分股平均流通市值和一二级行业的相关系数进行二次筛选。最终将原始的31个一级行业拆分为最新截面20220731的48个行业。 行业聚类部分,用KMeans算法对拆分得到的最终行业划分进行板块聚类,并对板块进行编号处理。本报告不将板块进行具体化命名,比如上游材料、中游制造、下游消费等,直接用编号命名各板块。这样可以防止带入主观经验的板块划分偏好。 风险提示:本报告基于历史数据得到的结论,历史回测结果不代表未 来。未来市场可能发生变化,产业链的变动可能带来与本报告结论不一样的结果。 证券研究报告 2022年08月15日 分析师:朱人木 执业证书编号:S0590522040002电话: 邮箱:zhurm@glsc.com.cn 相关报告 1、《新能源基金投资策略优选:null》2022.08.11 2、《医药基金投资策略报告:null》2022.08.09 3、《7月PMI公布,观察复苏的持续性:null》 2022.08.07 正文目录 1投资聚焦3 2行业分化度刻画3 ybjieshou@eastmoney.com 邮箱所有人使用,未经许可,不得外传。 2.1量价信息刻画3 2.2基本面信息刻画9 3行业拆分13 3.1行业自由流通市值拆分标准14 本报告仅供 3.2二级子行业与一级行业相关性拆分标准15 3.3行业拆分具体执行步骤17 4行业聚类21 5总结23 6风险提示23 图表目录 图1:个股分层LongShort算法3 图2:分层LongShort算法刻画行业分化度,20220731截面4 图3:分层LongShort算法,20220731截面分化度前5行业历史变化5 图4:个股日收益率相关性算法5 图5:个股相关性算法刻画行业分化度,20220731截面6 图6:个股相关性算法,20220731截面分化度前5行业历史变化7 图7:个股对行业指数回归拟合度算法7 图8:个股对行业指数回归拟合度算法刻画行业分化度,20220731截面8 图9:个股对行业指数回归拟合度算法,20220731截面分化度前5行业历史变化9 图10:个股PE_TTM和PB的变异系数刻画行业分化度9 图11:个股PE_TTM和PB的变异系数刻画行业分化度排序值10 图12:个股PE_TTM变异系数刻画行业分化度10 图13:个股PB变异系数刻画行业分化度10 图14:杜邦分析三指标的变异系数刻画行业分化度11 图15:营业净利润、总资产周转率和权益乘数的变异系数刻画行业分化度排序值12 图16:杜邦分析三指标的变异系数,20220731截面分化度前5行业历史变化13 图17:申万二级行业自由流通市值、成分股个数全览,20220731截面数据14 图18:基于自由流通市值的行业拆分标准15 图19:二级子行业与一级行业相关性拆分标准15 图20:一级行业与二级子行业相关性测算16 图21:量价信息刻画一级行业分化度全览,20220729截面数据17 图22:基本面信息刻画一级行业分化度全览,20220731截面数据18 图23:量价、基本面行业预拆分池取并集,20220731截面数据19 图24:二级行业自由流通市值筛选结果,20220731截面数据20 图25:一级行业最终拆分结果,20220731截面数据21 图26:基于Kmeans的聚类结果22 图27:基于Kmeans的聚类结果表格展示22 1投资聚焦 ybjieshou@eastmoney.com 邮箱所有人使用,未经许可,不得外传。 近年行业配置重要性逐步上升,在经济增速放缓的大背景下,行业龙头集中现象导致了选股差异度下降,基金超额收益更多依赖行业的配置和择时。 本报告仅供 本文作为行业配置系列研究的第一篇报告,主要目的是结合最新的产业链发展状况对全市场股票的行业分类标准做出调整。通过将同属于一级行业的的二级子行业进行适当地拆分,目的是为了把分化度大的行业精细化分类,减少行业配置时低相关性的二级子行业的噪音干扰。然后用数据聚类的方法,把多个拆分后的行业标准进行板块聚类,为行业配置策略提供高内聚的配置对象。 行业拆分部分,以申万一级行业划分为基础。从量价信息、基本面信息两个视角,对一级行业进行分化度刻画,对分化度高的一级行业进行拆分成多个二级子行业。 行业聚类部分,用KMeans算法对拆分后得到的最终行业分类进行板块聚类,并对板块进行编号进行处理。 从一级行业分化度刻画、行业拆分标准设定和行业聚类部分,全程采用的是时间窗口移动的计算方式,并且都有明确的量化指标,几乎没有在当前时间节点对历史行业进行主观的调整部分。 2行业分化度刻画 2.1量价信息刻画 个股分层LongShort 逐日将每个申万一级行业内的所有最新成分股的日收益率进行横截面升序排名,然后逐日进行横截面Long-Short测算,具体算法步骤如图1。Long-Short算法刻画的是行业内个股一段时间内走势的一致性。 图1:个股分层LongShort算法 计算步骤: 取最近500个交易日的个股行情数据,设为:StkQdata。 逐日、逐行业,计算最新成分股日收益率,设为:Dret。 逐日、逐行业个股Dret按照升序分5组,计算每组算术平均收益,设为: DretMean_N,其中N表示组别,取[1,5]的整数。 逐日、逐行业,令Dlongshort=DretMean_5–DretMean_1。 逐行业,将每日Dlongshort累加,得DLS_cum。 逐日,将DLS_cum横截面降序排名,即排名值越小,分化度越大。 降频处理,日数据粒度,降频为月数据粒度。 资料来源:国联证券研究所 本报告仅供 ybjieshou@eastmoney.com 邮箱所有人使用,未经许可,不得外传。 根据图1所述的分层Long-Short算法得到的行业分化度刻画指标如图2所示。图2为20220731截面的行业内个股Long-Short分化度刻画的排序值,排序值小表示分化度大。当前截面,分层LongShort算法刻画行业分化度排序第1的是电力设备行业,但是从近10年平均来看,电力设备行业的分化度排序平均值为8.6。这表示电力设备随着近两年的行业发展,行业内部产生了比较大的分化。 图2:分层LongShort算法刻画行业分化度,20220731截面 LongShort 最新 近10年最大 近10年最小 近10年平均 电力设备 1 20 1 8.6 美容护理 2 25 1 6.3 有色金属 3 27 2 14.6 基础化工 4 22 3 12.8 汽车 5 26 5 13.5 社会服务 6 22 3 11.2 机械设备 7 18 6 11.3 电子 8 8 1 2.8 食品饮料 9 29 4 16.4 医药生物 10 27 7 15.0 家用电器 11 26 9 14.3 建筑材料 12 28 4 16.6 综合 13 26 7 15.3 国防军工 14 24 3 13.1 农林牧渔 15 23 3 12.5 公用事业 16 30 16 25.5 传媒 17 20 1 6.6 计算机 18 19 1 5.4 轻工制造 19 27 3 12.4 煤炭 20 30 20 28.9 纺织服饰 21 26 13 19.9 石油石化 22 26 6 17.2 商贸零售 23 29 16 23.8 通信 24 24 1 6.8 建筑装饰 25 27 1 14.8 钢铁 26 30 15 26.9 环保 27 27 4 18.2 房地产 28 28 20 25.0 交通运输 29 29 12 25.2 非银金融 30 30 15 24.6 银行 31 31 31 31.0 资料来源:Wind,国联证券研究所 本报告仅供 ybjieshou@eastmoney.com 邮箱所有人使用,未经许可,不得外传。 行业的分化度会随着行业的发展而变化,分层LongShort算法是对行业内个股一段时间内走势一致性的描述。如电力设备从2020年以来,分化度排名连续上升,这体现了该行业内个股近年来走势差异变大。其中还有基础化工、有色金属和汽车,近两年行业分化度上升得较明显。美容护理从2018年以来,行业内部分化度一直排名靠前。 图3:分层LongShort算法,20220731截面分化度前5行业历史变化 资料来源:国联证券研究所 个股日收益率相关性 在时序上循环取行业内个股近500个交易日收益率序列计算相关性,用来刻画一段时间内行业个股日涨跌幅的一致性。行业内个股间日涨跌幅差异越大,相关性越低,行业分化度越大,横截面排序值越小。 具体算法如图4: 图4:个股日收益率相关性算法 计算步骤: 逐个一级行业、逐个股票计算日收益率,设为:Dret。 逐行业、时序循环500个交易日,计算个股相关系数矩阵,设为:CorrMtx。 逐日、逐行业计算CorrMtx所有值的算术平均值,设为:CorrMtx_Mean。 逐日,将CorrMtx_Mean横截面升序排名,排名值越小,分化度越大。 降频处理,日数据粒度,降频为月数据粒度。 资料来源:国联证券研究所 根据图4所述的个股日收益率相关性算法得到的行业分化度刻画指标如图5所 示。图5中为20220731截面的行业内个股日收益率相关性分化度刻画的排序值。在 本报告仅供 ybjieshou@eastmoney.com 邮箱所有人使用,未经许可,不得外传。 当前截面,行业分化度排名前5的行业为家用电器、综合、商贸零售、轻工制造和纺织服饰。与分层LongShort算法比较,分化度排名靠前的行业完全不一样,这体现了两种不同算法,刻画角度差异比较大。 图5:个股相关性算法刻画行业分化度,20220731截面 相关系数 最新 近10年最大 近10年最小 近10年平均 家用电器 1 23 1 8.9 综合 2 19 1 7.8 商贸零售 3 22 2 12.1 轻工制造 4 18 1 6.2 纺织服饰 5 21 1 7.7 机械设备 6 22 3 12.9 基础化工 7 18 5 11.4 汽车 8 21 1 11.9 建筑装饰 9 23 1 14.4 美容护理 10 29 2 16.9 电力设备 11 25 5 14.7 建筑材料 12 28 1 17.6 医药生物 13 23 3 9.2 交通运输 14 26 9 18.7 社会服务 15 25 2 7.3 食品饮料 16 17 1 7.2 电子 17 23 9 16.9 房地产 18 27 3 20.3 农林牧渔 19 23 1 10.9 公