已有的大模型研究表明,在提示词中给出示例的推理工作流程可以引导大模型使用思维链进行思考推断,使用思维链的大模型在面对复杂任务时结果的准确率得到进一步增强。GPT-4o作为当下最先进的大语言模型之一,通过设计合适的提示词,给定投资分析的工作流程,可以激发模型的思维链,根据上市公司相关的文本信息对该公司的投资价值进行判断。 市场中机构投资者的动向是受到重点关注的话题,调研活动有强制披露的要求,且数据披露格式规范,蕴含了大量机构投资者的行为信息。通过调研事件可以更好探察机构投资者动向。现有调研事件的相关研究主要使用机构调研数据中的活动信息、参与主体信息,但机构调研披露的问答明细数据作为非结构化文本,传统的分析方法和以Bert为例的NLP模型在分析时面临诸多挑战,因此前期较少研究分析该类数据。 在本研究中,我们通过设计提示词,给定针对机构调研活动的思考流程,并提供机构调研活动的发生时间、行业分类、问答明细信息,使用ChatGPT利用思维链从多角度(如公司发展阶段、公司行业地位、行业发展阶段等维度)分析机构调研活动,并据此给出对该调研活动利好或利空的投资判断。最终,我们整理得到ChatGPT根据机构调研文本分析得出的投资判断股票池,由此得出ChatGPT选股池。 ChatGPT选出的利好股票池、传统NLP方法(FinBert)分析调研事件文本选出的利好股票池,以及整体被调研的股票池的年化超额收益分别为4.03%、0.23%和-0.80%。ChatGPT选股池与FinBert选股池的收益均超越了基于调研数据构建的股票池,表明对明细数据的分析能够贡献额外收益。ChatGPT选股池的年化收益更高,这表明ChatGPT在理解调研文本信息方面优于FinBert,策略表现更为优异。 通过筛选流通市值和一个月内调研事件被ChatGPT判断为利好次数到达5次以上的公司,构建ChatGPT调研事件优选策略,从而极大提高了原ChatGPT选股池的收益率。该策略2016年至2024年10月的年化收益率、年化超额收益率分别为25.50%,27.05%。 为了进一步增强策略的稳健性,降低换手率,选择两个月的滚动窗口,在每月调仓时考虑过去两个月的投资判断,构建ChatGPT调研事件优选策略(换手缓冲),从而降低了策略的换手率,并提高策略的持仓股票数。在2016年至2024年,该策略的年化收益率为16.30%,年化超额收益率为16.85%。 以上结果通过历史数据统计、建模和测算完成,历史规律不代表未来;在市场环境发生变化时,模型存在失效的风险;策略依据一定的假设通过历史数据回测得到,当交易成本或其它条件改变时,可能导致策略收益下降甚至出现亏损;大模型输出的内容存在一定的随机性和准确性风险;本文所提炼的观点,基于一定的提示词产生,大语言模型输出的结果可能随着提示词的变化而发生变化。 内容目录 一、机构调研数据及大模型潜在应用4 1.1机构调研活动介绍4 1.2机构调研问答明细数据介绍5 1.3大模型使用思维链进行投资分析6 二、基于大模型思维链的调研明细文本分析框架8 2.1ChatGPT模型设置与提示词工程8 2.2基准模型-FinBert10 2.3调研与选股池分析11 三、ChatGPT股票池优选增强策略13 3.1ChatGPT选股池的市值与换手率特征13 3.2ChatGPT调研事件优选策略14 3.3ChatGPT调研事件优选策略(换手缓冲)17 四、总结19 参考文献20 风险提示20 图表目录 图表1:调研活动事件数量变化4 图表2:调研活动数量月度数量4 图表3:调研活动公布样式5 图表4:已有报告得出的机构调研相关因子5 图表5:调研活动问答明细数据示例6 图表6:问答明细分析方法演进6 图表7:大模型是否添加思维链对比7 图表8:大模型是否使用思维链时模型结果准确度7 图表9:ChatGPT使用思维链分析机构调研问答过程试验8 图表10:ChatGPT数据生成过程9 图表11:ChatGPT问答示例10 图表12:FinBert分析示例10 图表13:FinBert处理示例11 图表14:事件处理结果示例11 图表15:利好判断占调研活动比例12 图表16:利好判断事件数量与比例时间序列12 图表17:调研或利好判断发生后的相对中证800指数平均超额收益率12 图表18:调研与选股池净值表现13 图表19:调研与选股池相对中证800指数超额收益走势13 图表20:调研与选股策略表现13 图表21:不同市值ChatGPT选股池净值表现14 图表22:ChatGPT判断利好次数是否加权净值对比14 图表23:利好次数是否加权策略对比14 图表24:不同利好次数等权股票池相对中证800指数超额收益表现15 图表25:不同利好次数加权股票池相对中证800指数超额收益表现15 图表26:利好次数是否加权策略对比15 图表27:窗口期内不同利好次数股票池策略表现16 图表28:ChatGPT调研事件优选策略表现16 图表29:ChatGPT优选调研事件优选策略净值表现16 图表30:ChatGPT调研事件优选策略收益率分年度表现16 图表31:ChatGPT优选增强股票池策略近期持仓16 图表32:ChatGPT优选调研事件优选策略净值表现17 图表33:筛选条件为利好5次以上数量的每月持仓数17 图表34:滚动窗口次数增强策略净值表现17 图表35:不同滚动窗口相对中证800指数超额收益表现17 图表36:不同滚动窗口策略表现18 图表37:ChatGPT调研事件优选策略(换手缓冲)改善每月持仓数18 图表38:ChatGPT调研事件优选策略(换手缓冲)净值表现18 图表39:ChatGPT调研事件优选策略(换手缓冲)表现18 图表40:ChatGPT调研事件优选策略(换手缓冲)收益率分年表现18 图表41:ChatGPT调研事件优选策略(换手缓冲)近期持仓19 在往期的报告中,我们利用机构调研活动的结构化数据(机构调研活动数量、机构调研参与主体)构建策略,深入挖掘了机构调研数据在绩优基金重仓股和行业轮动中的应用潜力,具体可以参考国金证券金融工程组的《主动量化研究之二:当绩优基金重仓股遇到调研会发生什么“共振”?》和《Beta猎手系列之五:基于机构调研热度和广度视角的行业配置策略》。 然而,由于机构调研问答明细含义丰富、非结构性的特征,难以使用传统的数据处理方法进行处理,前期报告中并没有充分利用机构调研问答明细中的有效信息。 而近年兴起的以ChatGPT为例的大语言模型打开了利用机构调研问答明细数据的想象空间。大模型展现出来的推理与生成能力,结合思维链技术,允许扮演大模型类似研究员的角色,实现热点识别、投资分析等更复杂的功能。 因此,本研究考虑使用大语言模型分析机构调研问答明细,从而进一步利用机构调研数据。我们在机构调研活动数据、调研参与主体数据的基础上,使用GPT-4o模型,设置合适的提示词激发大模型思维链,促使大语言模型扮演研究员的角色,从多个角度分析机构调研问答明细数据,最终得出符合逻辑的投资价值判断。 1.1机构调研活动介绍 根据《深圳证券交易所创业板上市公司规范运作指引(2020年修订)》、《深圳证券交易所主板上市公司规范运作指引(2015年修订)》和《上海证券交易所上市公司自律监管指引第1号——规范运作》等文件的明确规定,上市公司接受从事证券分析、咨询及其他证券服务业的机构及个人、从事证券投资的机构及个人的调研时,应当妥善开展相关接待工作,并按规定履行相应的信息披露义务。要求机构调研事件应被具体、全面地披露调研事件数据。公开的调研事件数据可被整理成规整的数据形式,且信息量丰富。 从数量的变化趋势看,调研活动数量从2019年开始呈稳定上升趋势,蕴含的信息增多。 2021年后机构调研活动数快速增加。2024年1月至10月的月均调研次数已达2000次。 从每年调研次数的分布来看,财报披露时间后的一个月(5月、9月、11月)是调研活动发生最频繁的时期。尤其是刚披露了年报后的5月,是机构调研次数最多的月份。 图表1:调研活动事件数量变化图表2:调研活动数量月度数量 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 201207 201301 201307 201401 201407 201501 201507 201601 201607 201701 201707 201801 201807 201901 201907 202001 202007 202101 202107 202201 202207 202301 202307 202401 202407 0 12期滚动平均被调研事件数 2000 1800 1600 1400 1200 1000 800 600 400 200 0 010203040506070809101112 来源:Wind,国金证券研究所来源:Wind,国金证券研究所 上市公司披露的调研事件数据主要分为三个部分: ⚫调研活动部分:记录被调研上市公司代码及简称、调研时间及地点、投资者关系活动类别等相关信息。 ⚫调研参与主体部分:记录机构投资者名称、机构投资者参与人员信息、上市公司接待人员信息等相关信息。 ⚫调研事件问答明细部分:记录每次调研活动中具体进行的提问内容和回答内容。 图表3:调研活动公布样式 来源:Wind,国金证券研究所 在《主动量化研究之二:当绩优基金重仓股遇到调研会发生什么“共振”?》中,我们从调研事件特征、基金与绩优基金重仓股特征和绩优基金重仓股与调研共振池特征三个角度出发探寻了绩优基金重仓股与调研股的共振效应是否存在。通过验证,我们发现这样的共振效应确实存在,在这样的共振池中还能够进一步优选股票构建策略组合。 在《Beta猎手系列之五:基于机构调研热度和广度视角的行业配置策略》中,我们通过对行业内的调研活动平均数进行拆解,分别构建了调研热度与广度两类因子,并将两个因子合成,得到调研活动因子应用于行业轮动的策略。通过验证,我们发现从调研事件这一另类视角,分析调研热度与广度,可以更好地探察行业走势。 图表4:已有报告得出的机构调研相关因子 因子类别因子名称 测试时间段 平均值 标准差 最小值 最大值 风险调整IC t统计量 特定对象调研 0.43% 8.75% -17.37% 17.72% 0.05 0.3 其他调研 2.59% 13.59% -20.57% 42.88% 0.19 1.19 全类型调研 0.64% 8.42% -17.12% 16.47% 0.08 0.47 其他-证券公司参与 个股因子 2013年1月 -4.97% 12.64% -33.81% 25.26% -0.39 -2.46 其他-基金公司参与 至2023年1月 -1.19% 9.38% -16.41% 19.10% -0.13 -0.79 其他-其他公司参与 7.77% 19.38% -29.01% 50.00% 0.4 2.37 特定对象调研-证券公司 -1.77% 8.49% -15.38% 13.63% -0.21 -1.3 特定对象调研-基金公司 -1.19% 9.38% -16.41% 19.10% -0.13 -0.7 行业因子 调研热度因子调研广度因子 8.64% 16.55% -30.87% 53.71% 0.52 4.58 6.72% 21.71% -43.95% 57.27% 0.31 2.72 2017年1月 至2023年6月 调研活动因子11.38%19.50%-25.37%59.15%0.585.12 来源:Wind,国金证券研究所 1.2机构调研问答明细数据介绍 已有的策略大多只使用了机构调研活动信息和参与主体信息来考虑机构调研活动的数量特征和行业特征,而记录了丰富机构和公司行为信息的机构调研问答明细数据却没有得到有效的应用。 机构调