您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:Alpha掘金系列之十一:基于BERT-TextCNN的中证1000舆情增强策略 - 发现报告
当前位置:首页/其他报告/报告详情/

Alpha掘金系列之十一:基于BERT-TextCNN的中证1000舆情增强策略

2024-05-08高智威、赵妍国金证券华***
Alpha掘金系列之十一:基于BERT-TextCNN的中证1000舆情增强策略

金融论坛中的舆情信息蕴含了丰富的股民情绪,可能影响其交易行为进而影响股价,通过对金融论坛中股民的发帖信息进行情感分析,有望能够挖掘到有效的选股因子。我们已经在《Alpha掘金系列之八:FinGPT对论坛评论情感的精准识别——沪深300另类舆情增强因子》报告中构建了沪深300指数增强策略,本次我们将基于中证1000指数成分 股股票池,构建中证1000指数增强策略。 本报告采用子长科技提供的中证1000指数成分股相关的金融论坛股民发帖数据,使用了2018年至2023年的超5000万条的主帖文本内容。经预处理后,我们在主帖文本数据中抽取部分样本进行训练和验证,我们利用大语言模型进行这部分样本的标注,然后采用BERT-TextCNN模型进行针对金融论坛舆情信息的特定任务训练,最终构建出文本情感识别模型,将股评信息标注为积极、消极、悲观三类。BERT模型通常用于提取文本的深层次语义信息和上下文信息,而TextCNN模型则用于捕捉文本的局部特征,两者结合可以同时利用全局和局部特征进行文本分类。我们训练后的BERT-TextCNN模型样本外准确率超过85%,我们用该模型对超过5000万条股评信息进行情感分类。 我们利用金融论坛舆情信息文本情感评分结果,从多维度构建了周频舆情选股因子,包括情绪一致性、关注度、周内关注度波动、整体情绪、周内情绪波动等因子。我们用积极/消极帖子占比来刻画情绪一致性,两个因子均显著,积极帖子占比因子IC值为负值,即积极情绪一致的股票未来股价可能较差。我们用主帖数、积极帖子数、消极帖子数来刻画关注度,积极帖子数量因子IC值为-6.22%,多空年化收益率为59.41%,即中证1000股票池中,关注度越高的股票,未来表现越差。我们用积极帖子数量减去消极帖子数量来衡量股民整体情绪,整体情绪因子IC均值为3.86%,即整体情绪越积极,未来一周股票表现越好。此外,关注度波动因子、情绪波动因子的IC均值均为负值。 我们将五个维度的因子进行等权重合成,合成因子IC达到6.13%,风险调整的IC为0.71,t统计量达到12.4,多空年化收益率为54.76%,多空组合夏普比率为4.07,而多空组合最大回撤率为9.02%。合成因子分位数组合单调性较好,top组合的年化超额收益率能够达到12.99%。合成后的舆情因子与传统选股因子的相关系数也均不超过0.3。 我们利用构建的舆情因子,我们基于如下条件构建了中证1000指数增强策略:选股范围是中证1000指数成分股,回测时间区间是2018.1.8-2023.12.29,每周第一个交易日进行调仓,按开盘价进行交易,调仓日根据合成因子值从大到小进行排序,选择前10%的股票等权重构建组合,交易成本设置为单边千分之二。我们设置了换手率缓冲条件,即上期持仓中如果当期仍然在前0%与35%内,则保留。基于金融论坛多维度舆情因子的中证1000指数增强策略,自2018年初至2023年末,获得10.85%的年化收益率,相对于中证1000指数获得了13.95%的年化超额收益率,信息比率达到1.56,超额净值最大回撤率为9.52%。除2019年之外,其余各年份均获得了正的超额收益率。 以上结果基于一定的假设条件、通过历史数据统计和测算完成,在市场环境发生变化时模型存在失效的风险;大语言模型对文本进行情感分析的结果具有一定的随机性,存在一定的随机性风险。 内容目录 1、引言4 2、金融论坛舆情信息的情感评分方法4 2.1数据来源4 2.2数据基本情况介绍5 2.3大语言模型与传统NLP模型相结合的文本情感识别步骤5 2.4数据预处理6 2.5大语言模型标注样本6 2.6文本情感分析模型的选择与构建8 2.7模型训练及金融论坛舆情信息的文本情感分类结果10 3、多维度舆情因子构建与回测11 3.1样本预处理11 3.2周频舆情选股因子计算方式与回测方法介绍11 3.3多维度舆情因子构建12 3.4多因子合成与测试15 3.5舆情因子与传统选股因子的相关性较低16 3.6因子覆盖度17 4、基于金融论坛多维度舆情因子的中证1000指数增强策略构建17 4.1基于金融论坛多维度舆情因子的中证1000指数增强策略构建方法17 4.2基于金融论坛多维度舆情因子的中证1000指数增强策略表现18 5、总结19 6、风险提示19 图表目录 图表1:AI大模型发展进程4 图表2:金融论坛数据形式5 图表3:大语言模型与传统NLP模型相结合的文本情感识别流程5 图表4:数据预处理效果展示6 图表5:大语言模型在各类情感分析任务中的零样本性能6 图表6:FinGPT模型结构7 图表7:标注样本中各类情绪帖子占比7 图表8:BERT-TextCNN模型结构8 图表9:Bert模型的结构9 图表10:BertVSAlbert模型的参数量对比9 图表11:TextCNN模型结构10 图表12:情感分类结果样例10 图表13:BERT-TextCNN模型标注结果各类型占比10 图表14:单只股票对应帖子数量周平均值(向前7天滚动计算)11 图表15:周频舆情选股因子计算方式11 图表16:舆情选股因子分类12 图表17:情感一致性因子IC测试及分位数组合测试结果12 图表18:积极帖子占比因子分位数组合表现(升序)13 图表19:积极帖子占比因子多空组合表现(升序)13 图表20:消极帖子占比因子分位数组合表现13 图表21:消极帖子占比因子多空组合表现13 图表22:关注度因子IC测试结果即分位数组合表现13 图表23:积极帖子数量因子分位数组合表现(升序)14 图表24:积极帖子数量因子多空组合表现(升序)14 图表25:关注度波动因子IC测试及分位数组合测试结果14 图表26:整体情绪因子IC测试及分位数组合测试结果14 图表27:整体情绪因子分位数组合表现15 图表28:整体情绪因子多空组合表现15 图表29:整体情绪周内极值因子IC测试及分位数组合测试结果15 图表30:情绪周内极值因子分位数组合表现(升序)15 图表31:情绪周内极值因子多空组合表现(升序)15 图表32:各因子相关性16 图表33:合成因子IC测试及分位数组合测试结果16 图表34:合成因子分位数组合表现16 图表35:合成因子多空组合表现16 图表36:合成因子与传统选股因子的相关系数17 图表37:主帖数量因子对中证1000成分股的覆盖(只)17 图表38:合成因子对中证1000指数成分股的覆盖(只)17 图表39:选股策略指标统计18 图表40:中证1000舆情增强策略表现18 图表41:中证1000舆情增强策略超额净值表现18 图表42:策略分年度表现18 基于金融论坛舆情信息挖掘的选股因子具有研究价值。股民的情绪可能影响其交易行为进而影响股价,通过对金融论坛中股民的发帖信息进行情感分析,挖掘股民的情绪变化,有望能够挖掘到有效的选股因子。在传统的选股因子不断失效的市场环境下,舆情因子往往与传统选股因子相关性低,是对传统选股因子的有效补充。 构建传统的文本情感识别模型(NLP),如深度学习模型、Bert模型等,在针对特定任务进行训练时需要标注好的样本,传统手段采用人工标注,成本高昂。 大语言模型的诞生和演进助力我们进行文本情感分析。2022年末以来,随着OpenAI发布ChatGPT,由此引发AI大模型热潮,国内外各类大语言模型不断问世,能力也不断演进。大语言模型采用Transformer等复杂架构,能够捕捉到复杂的情感模式,基于海量数据进行训练,泛化能力较强,大语言模型为我们进行文本情感分析提供了有效的工具。 图表1:AI大模型发展进程 来源:SuperCLUE,国金证券研究所 但对于庞大的舆情数据集,调用ChatGPT等大语言模型进行文本情感分析,往往按照token收费,具有高成本、耗时长等问题。即使使用本地部署的开源大模型,对千万级别的数据集进行情感分析,仍然需要耗费较长的时间。 结合大语言模型的文本情感分析能力,我们可以利用大语言模型进行部分样本标注,再使用传统文本情感识别模型对该任务进行针对性训练,能够降低成本,提高庞大数据集的文本情感分析速度。 2.1数据来源 我们曾在2023年10月16日发布的报告《Alpha掘金系列之八:FinGPT对论坛评论情感 的精准识别——沪深300另类舆情增强因子》报告中使用过子长科技提供的沪深300指数 成分股的金融论坛舆情数据,构建了沪深300增强策略。 子长科技创建于2018年,创始团队包括前路透社,亚马逊,谷歌等人工智能及金融数据专家。公司创立以来,以包括知识图谱和自然语言处理的知识模型LKM为核心技术,始终致力于打造垂直金融行业的人工智能核心能力,推出多款数据及金融终端产品,有效服务投研、量化和风控等多个场景。 本报告采用子长科技提供的中证1000指数成分股相关的金融论坛股民发帖数据。子长科技基于公开社交媒体信息,包括股民及股市大V的各类言论,结合公司、行业、产品、相关技术等数据,运用AI知识模型LKM,准确将股民情绪关联及定位到相关股票。并根据情绪表达,产生实时的量化情绪分数及统计信息,从而充分体现个股的股民情绪,关注变化,捕捉市场信号。基于知识模型LKM体系的数据,具有精准、实时、可溯源等优,通过知识模型,AI准确进行实体对齐,将股民评论精准定位到相关股票,准确产生情绪数据,效果远超于基于情绪关键词的上一代技术。 2.2数据基本情况介绍 金融论坛的数据主要可以分为两种类型,主帖和评论,均包含了股民的情绪宣泄、市场观点等信息。相比于研报、新闻信息等舆情,金融论坛的舆情数据中股民对于股票的观点可能在专业性上有所欠缺,但可能带有强烈的感情宣泄,内容简短,能够反映股民对于股票的情感和看法,例如“千万别再跌了啊,再跌我就要赔一百元了啊”、“今天没戏了,哎”等内容的帖子。 图表2:金融论坛数据形式 来源:国金证券研究所 主帖数据中,除了股民的观点表达,仍包含新闻、研报、董秘问答、公司公告等信息,但子长科技目前对主帖数据提供了分类标签,能够去除这些与股民情绪表达无关的信息。 我们获得的中证1000指数成分股金融论坛舆情数据时间来自2018年1月至2023年12 月,主帖总数据集数据超过5000万条,评论数据集数据超过7000万条,总的样本量超过 1.2亿条。庞大的数据量增加了文本情感分析的难度和成本。本文将基于主帖数据进行文本情感分析及选股因子的构建。 2.3大语言模型与传统NLP模型相结合的文本情感识别步骤 我们将大语言模型与传统文本情感分析模型进行结合,充分发挥大语言模型进行文本情感识别的优势。我们将采用如下步骤,进行文本情感识别模型的估计。 图表3:大语言模型与传统NLP模型相结合的文本情感识别流程 来源:国金证券研究所 2.4数据预处理 1)股评数据中可能会出现一些特定格式文本,利用正则表达式的方式进行删除。 2)主帖下股评数据主要分布在正文与标题中,大多数标题是正文的开头部分的截断内容,或者标题是正文的凝缩,不直接选取于正文,或者标题(正文)没有内容;针对以上情况,我们对标题与正文内容进行合并。 图表4:数据预处理效果展示 标题 正文 合并结果 明天涨停 明天涨停 明天涨停 今日形势不错 可以考虑入手 今日形势不错可以考虑入手 -- 希望大涨 希望大涨 华锦还有一万股但是华锦怎么不如ST股呢? -- 华锦还有一万股但是华锦怎么不如ST股呢? 来源:子长科技,国金证券研究所 2.5大语言模型标注样本 2.5.1大语言模型具有文本情感分析能力 大语言模型采用复杂的Transformer架构,能够捕捉语言的深层特征和模式,具有较强的文本分析能力。大语言模型基于海量数据集进行了预训练,无需标注样本,这些数据集包含了丰富的情感表达,因此拥有较好的泛化能力,能够泛化到新样本,能够帮助我们进行股评信息的情感识别。 在《SentimentAnalysisintheEraofLargeLanguag