证券研究报告 2022年08月22日 │ NLP增强的主动权益基金标签体系 NLP抽取合同文本信息,全面增强基金分类 基金分类是FOF管理流程的起点,传统的分类方法大都过度依赖文本或持仓信息。本文则以NLP技术深挖基金合同的文本信息,对未建仓的主动权益基金实施有监督的文本分类算法;对已建仓的基金则在聚合文本、持仓、净值等信息的基础上采用无监督的层次化聚类方法,全面增强基金分类的效果。 110% 100% 90% 80% 70% 60% 普通股票型基金指数股票指数型基金指数债券型基金指数 对未建仓基金进行有监督的文本分类 合同文本是未建仓基金唯一可用的信息,且人们常以既有的标签体系对新基金归类。本文即根据业界习惯预定义一个含15个类别的标签体系,按基金名称标注部分样本作为训练集,然后采用中文NLP领域领先的百度ERNIE模型对主动权益基金实施有监督的文本分类。模型在测试集上的准确率达89.83%,对行业、主题类基金的预测准确率多在80%以上。 对已建仓基金聚合文本、持仓等信息实施无监督聚类 在以TF-IDF算法将量化抽取文本主题的基础上,本文从持仓组合、净值走势、交易偏好、截面特征、合同文本维度对已建仓基金画像,并实施基于预定义距离矩阵的层次化聚类。针对平替产品投资的需求,我们使用距离阈值横切出组内相似度高的社区结构;针对FOF组合投资的需求,我们先以CH指标遴选构建组间异质性强的文本聚类结构,然后结合持仓等信息优化迭代出细化、稳健的聚类体系。 结合文本、持仓信息识别基金“风格漂移” 基金分类的事前法、事后法均无法识别风格漂移现象。本文在结合文本、持仓信息聚类的基础上,提出了两种量化识别基金“风格漂移”的方法。第一种是通过度量与基准产品的文本、持仓向量距离差来定义风格漂移的产品;第二种则是在文本聚类的基础上根据组内样本的行业分布差异进行定义。 风险提示:基金的业绩分析基于历史数据,计量模型则带有一定的假设,据此预测未来收益存在失准、失效的可能。 21-08 21-09 21-10 21-11 21-12 22-01 22-02 22-03 22-04 22-05 22-06 22-07 分析师:朱人木 执业证书编号:S0590522040002电话: 邮箱:zhurm@glsc.com.cn 联系人:孙子文 邮箱:sunzw@glsc.com.cn 相关报告 1、《本周MLF降息,利好中小成长风格》 2022.08.21 2、《北向偏好新能源,医药ETF持续流入》 2022.08.21 3、《基金市场08月周报(8.15-8.21)》2022.08.21 金融工程 金融工程专题 正文目录 1机器学习增强基金分类4 1.1传统分类方法不够精细4 1.2创新使用NLP文本分类+层次化聚类5 2基于基金合同文本的有监督分类6 2.1百度ERNIE知识增强模型——观千剑而后识器6 2.2按合同文本对基金进行有监督分类7 3层次化聚类的流程简介9 3.1灵活、普适的层次化聚类10 3.2从文本、持仓等多维度为基金画像11 3.3结合文本、持仓量化刻度风格漂移现象15 4灵活实施层次化聚类16 4.1基于距离阈值的社区识别16 4.2基于CH指数的层次化聚类实践18 4.3聚类实践总结20 5风险提示20 图表目录 图表1:基金分类是FOF管理流程的起点4 图表2:好的分类体系使基金投研更高效4 图表3:百度ERNIE和TF-IDF均适用于小样本、长文本的分类任务5 图表4:主动权益基金分类使用多种机器学习算法6 图表5:2018年NLP预训练时代开启后百度ERNIE模型的表现后来居上7 图表6:主动权益基金的文本分类标签体系共有15个类别7 图表7:合同数据集近50%的文本长度大于500字符8 图表8:ERNIE的文本多分类任务训练准确率达90%8 图表9:模型对2/3以上类别的主动基金预测准确率大于70%8 图表10:由ERNIE3.0模型预测的各类型规模靠前的主动权益基金简况9 图表11:纳入文本、持仓信息的主动权益基金层次化聚类流程10 图表12:主动基金的聚类特征包括持仓信息、交易偏好和基金合同等11 图表13:TF-IDF文本向量的余弦相似度选出的各主题部分代表性基金12 图表14:基金持股的加权市值准确的反映基金经理的大/小盘风格13 图表15:以持股的GV分数来准确判断基金的成长/价值风格13 图表16:各板块、行业近2年平均仓位排名前5的基金简况14 图表17:金梓才所管两只基金的板块变化大,葛兰两只基金的板块变化小14 图表18:结合文本、持仓信息量化刻度部分主题基金的风格漂移情况15 图表19:预定义距离矩阵的频次分布和众数16 图表20:按阈值聚类的各组频数统计16 图表21:根据距离阈值聚类产生的组别主题特征多样、鲜明17 图表22:基于距离阈值的社区识别将投资风格相近的基金经理归并到一起18 图表23:层次化聚类当组数=26时的CH值最大19 图表24:26组文本聚类的频数多在100只以下19 图表25:经持仓信息优化后的主动权益基金本聚类标签体系20 图表26:金融地产主题部分基金简况20 图表27:大消费主题部分主动基金简况21 图表28:科技主题部分基金产品简况21 图表29:医药主题部分基金产品简况22 图表30:新能源主题部分基金简况22 图表31:成长风格主题部分基金简况23 图表32:价值风格主题部分基金简况23 图表33:红利风格主题部分基金简况24 图表34:国企改革主题部分基金简况24 1机器学习增强基金分类 公募基金数量破万只,基金投资愈发依赖深度投研能力。据中国基金业协会数据显示,截止2022年6月底我国公募基金的数量为10010只,净值达26.79万亿元,规模创下历史新高。面对瞬息万变的资本市场和风格多样的基金产品,投资者越来越需要借助科学、专业的投资方法论。本篇报告即从基金投资的起点出发,在主动权益基金范围内全面采用机器学习技术以搭建精细、灵活的分类体系。 1.1传统分类方法不够精细 基金分类是FOF管理体系的基石 FOF管理流程包括基金分类、基金评价与筛选、组合配置和投后管理等步骤。基金分类是整个管理流程的起点,良好的基金分类可在多个环节提升基金投研的效率:第一,组内相似度高,提高基金评价的可比性、便于平替产品投资;第二,市场风格覆盖广,便于筛选应时的绩优产品;第三,颗粒度细,满足多样化、小众化的投资需求;第四,组间区分度高,便于构建轮动、分散化的投资组合。 图表1:基金分类是FOF管理流程的起点图表2:好的分类体系使基金投研更高效 基金分类 评价与筛选 组合配置 投后管理 组内相似度高 •基金评价更可比 •寻找平替更容易 风格覆盖广 •筛选各风格下的绩优产品 •筛选应时的绩优产品 颗粒度细 •满足多样化、个性化的投资需求 组间区分度广 •构建轮动或分散化的投资组合 来源:wind,国联证券研究所来源:wind,国联证券研究所 传统分类方法片面、不精细 传统的基金分类方法主要分为事前法和事后法。事前法是指依照基金合同、尽调报告等文本信息确定基金投资风格和策略类型,常见的WIND分类体系即属于此类。事前法可以得到先验、客观的分类结果,也能够灵活地识别持仓特征不明显的投资策略。然而该方法不能应对基金的风格漂移现象,且在采用一般的文本分析技术时也难以做到深入、精细的分类。 事后法则是指根据基金的持仓、净值信息来确定基金类型,流行的晨星风格箱即为如此。这一量化方法可较为准确的刻画基金类型,但其因数据披露时限而存在滞后性问题。一些持仓特征不明显的策略类型如量化主题、多策略主题也难以通过事后法识别出来。 1.2创新使用NLP文本分类+层次化聚类 全面引入NLP技术深挖合同文本,增强基金分类效果。基金合同较为详尽的阐释了该基金的投资风格和策略类型,传统的文本分析方法不能充分挖掘相关信息。近年来中文NLP领域取得了诸多突破性的进展。针对小样本、长文本的主动权益基金归类任务,本文即分别采用百度ERNIE3.0模型和TF-IDF算法从基金合同中提取信息,以增强分类效果。 图表3:百度ERNIE和TF-IDF均适用于小样本、长文本的分类任务 来源:百度飞桨开发者论坛,国联证券研究所 对新基金采用百度ERNIE模型有监督分类 采用百度ERNIE3.0模型对未建仓的主动权益基金执行有监督的文本分类。对于未建仓的新基金,事前法是分类任务唯一的选择,深挖合同文本会带来显著的增益。在主动权益基金的合同文本中,投资目标、投资基准、投资理念和投资策略部分均含有丰富的风格/策略信息,与基金类型识别直接相关。 在具体实践中,人们常会根据既定的标签体系或目标策略来对新基金进行归类,因此这是一个典型的有监督分类任务。本文针对主动权益基金搜集了业界常用的15个类别标签,并根据基金名称对部分基金打标签形成训练样本集。在模型选择上,本文选择在中文NLP领域实测表现十分优秀的百度ERNIE3.0模型进行训练和预测。 对已建仓基金结合文本、持仓数据无监督聚类 对于已建仓的基金,由于文本信息和持仓数据难以整合,业界通常采用事后法以持仓数据来确定基金类型,本文则尝试引入NLP算法将二者聚合分析。TF-IDF就是一种可以较好凸显文本主题的NLP算法,其在小样本、长文本数据集中有着便捷、高效的应用优势。本文即采用TF-IDF算法将基金合同向量化表示,然后再结合持仓信息构建聚类标签体系。 根据文本向量和持仓特征、净值等信息构建灵活、稳健的聚类标签体系。投资风格相似的基金经理往往有一致的持仓偏好,其基金的净值走势也会趋同。本文按基金的合同文本、持仓组合/风格、净值信息等指标分别计算主动权益基金的余弦、马氏 距离矩阵,然后分别基于距离阈值和CH指标构建不同层次的标签体系。 图表4:主动权益基金分类使用多种机器学习算法 来源:国联证券研究所 两种分类方法均取得较好的应用效果 在具体实践中,ERNIE模型和层次化聚类方法均取得了较好的分类效果。ERNIE模型在整个测试集中的准确率达89.83%,且对2/3类别的预测准确率超70%。根据距离阈值横切社区结构的方法则灵活、准确地识别出多种宽基风格、细分主题的相似产品;另外,拿CH指标遴选文本聚类结构、并以持仓信息迭代优化的方法也成功构建出一个多维、稳健的标签体系。 2基于基金合同文本的有监督分类 2.1百度ERNIE知识增强模型——观千剑而后识器 ERNIE模型有丰富、系统的先验知识 NLP本质上是对人类语言的数学化建模,曾先后历经基于词频统计的向量化表示和考虑上下文的深度学习阶段。2018年BERT等模型在样本集外的超大语料库习得先验知识,开启了全新的预训练时代。但BERT预训练仍只是完形填空和上下句预测,其无法学到词语、实体的完整语义。 ERNIE3.0等于BERT+知识图谱,具有丰富、系统的先验知识。百度ERNIE立足中文情境,以知识图谱增强大规模预训练模型,从字开始学习词语、实体的结构关系,显著提升了模型的精度和泛化能力。从2019年以来,百度飞桨团队先后基于知识融合、持续学习语义、知识图谱推出三个版本的ERNIE模型,并凭借习得的先验知识在文本分类等多个任务情境中均取得了优异的实绩。 图表5:2018年NLP预训练时代开启后百度ERNIE模型的表现后来居上 来源:DataFunTalk,国联证券研究所 2.2按合同文本对基金进行有监督分类 主动权益基金的文本多分类 本文所指的主动权益基金包括WIND基金分类中的普通股票型、偏股混合型、平衡混合型和灵活配置型基金,后两类基金的近2年平均股票仓位须大于60%。此时样本集共有3551只基金。在文本分析之前,本文还对合同文本的相关字段进行了预处理:首先,提取投资策略中关于权益资产的策略描述段落;其次,保留投资基准中与策略相关的指数名称;最后将基金的投资目标、投资基准、投资理念、投资策略文本拼接起来。在剔除拼接文本长度小于50个字符的