您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:量化漫谈系列之十:RAG-ChatGPT读季报:公募基金经理一致观点解析 - 发现报告
当前位置:首页/其他报告/报告详情/

量化漫谈系列之十:RAG-ChatGPT读季报:公募基金经理一致观点解析

2024-08-08高智威、赵妍国金证券王***
量化漫谈系列之十:RAG-ChatGPT读季报:公募基金经理一致观点解析

基金定期披露的季度报告中往往包含基金经理对报告期内投资策略和运作情况的分析,以及对未来的展望和判断。本篇报告中我们将以大语言模型为工具,基于全市场主动权益型基金经理的季度观点,从宏观、A股市场、港股市场、各行业板块、风格、热门概念板块等不同维度进行拆解,全面掌握基金经理的最新一致性观点。 RetrievalAugmentedGeneration(RAG,检索增强)是一种利用外部来源获取事实来增强生成式AI模型的准确性和可靠性的技术,它结合了信息检索和文本生成的自然语言处理技术,旨在提升生成文本的准确性和相关性。为了解决季报文本过长无法直接输入大模型的问题,我们采用检索增强技术,通过文本分块、向量化处理,将检索出来的相关内容输入大模型,同时也能够提升大模型回答质量。 我们从基金二季报中提取了宏观经济的观点,基金经理们普遍认为2024年下半年中国经济将保持温和复苏态势,通胀水平将保持温和,国内货币政策将继续保持稳健偏宽松,财政和货币政策协同发力,支持经济复苏。但除了上述共识,在经济复苏力度、地方债务与财政政策、消费复苏力度、地缘政治影响与出口前景等方面基金经理也产生了分歧。相比于一季度,基金经理对宏观经济的预判更为谨慎。 对于A股市场基金经理普遍认为未来A股整体走势将保持震荡的格局,A股的未来走势虽然面临经济复苏不确定性和国际环境复杂变化的影响,但政策面的积极推进和市场结构性的机会预期,将在底部稳固情况下推动局部向上的行情。因此,基金经理们的广泛共识是未来震荡市中寻找结构性机会,操作上注重选择基本面扎实、估值合理和具有长期成长潜力的优质资产。 对于港股市场,大家普遍认为港股市场的估值具有吸引力,流动性改善和政策利好有助于市场表现。而分歧主要集中在对具体行业的看法和市场可持续性的预判上。 我们分别提取了基金经理对于消费、TMT、周期、金融地产、医药、新能源、军工等行业板块的观点并进行总结提炼,获得了基金经理的整体观点中的共识和分歧情况,也将各个行业板块中的细分行业观点进行准确提取并提炼分析。此外,我们逐个赛道总结了基金经理的选股逻辑和关注点,对基金经理的行业观点进行了全面的剖析。 风格层面,我们分别从红利风格、市值风格、成长/价值风格入手总结提炼基金经理的观点,获取他们对风格走势的最新判断。 热门概念方面,我们分别提取了出海、低空经济等热门概念相关的内容,全面剖析了基金经理的看法。 大模型输出的内容存在一定的随机性和准确性风险;受限于大模型的输入token量的限制以及向量数据库的检索原理,可能不能够覆盖全部基金经理的观点;本文所提炼的观点,基于一定的提示词产生,大语言模型输出的结果可能随着提示词的变化而发生变化。 内容目录 1、基于检索增强技术的大语言模型对基金季报的全面解析4 1.1大语言模型与检索增强技术(RAG)41.2基于检索增强技术的大语言模型对基金季报的分析流程5 2、基金经理二季度观点全面解析:宏观经济、A股市场、港股市场6 2.1宏观经济观点6 2.2A股市场展望与配置观点8 2.3港股市场展望与配置观点8 3、基金经理二季度各行业观点解析10 3.1消费行业相关观点10 3.2TMT行业相关观点12 3.3周期行业133.4金融地产行业相关观点153.5医药行业相关观点183.6新能源行业相关观点203.7军工行业相关观点22 4.基金经理二季度风格观点解析24 4.1基金经理对红利风格的观点244.2基金经理对市值风格的观点254.3基金经理对成长/价值风格的观点26 5.基金经理二季度热门概念观点解析266.风险提示27 图表目录 图表1:GPT-4o性能强劲4图表2:检索增强技术流程5图表3:基金季报样本中字符数量(个)6图表4:基于检索增强技术的大语言模型对基金季报的分析流程6图表5:基金经理二季报对宏观经济的共识与分歧7图表6:基金经理二季报对A股市场的共识与分歧8图表7:基金经理二季度对港股市场的共识与分歧9图表8:港股配置观点9图表9:基金经理二季度对消费行业的共识与分歧10 图表10:基金经理二季度消费细分行业观点11 图表11:消费行业内选股关注点11 图表12:基金经理二季度对TMT行业的共识与分歧12 图表13:基金经理二季度TMT细分行业观点12 图表14:TMT行业内选股关注点13 图表15:基金经理二季度对周期行业的共识与分歧14 图表16:基金经理二季度周期细分行业观点14 图表17:周期行业内选股关注点15 图表18:基金经理二季度对金融地产行业的共识与分歧16 图表19:基金经理二季度金融地产细分行业观点16 图表20:金融地产行业内选股关注点18 图表21:基金经理二季度对医药行业的共识与分歧18 图表22:基金经理二季度医药细分行业观点19 图表23:医药行业内选股关注点20 图表24:基金经理二季度对新能源行业的共识与分歧20 图表25:基金经理二季度新能源细分领域观点21 图表26:新能源行业内选股关注点22 图表27:基金经理二季度对军工行业的共识与分歧22 图表28:基金经理二季度军工细分领域观点23 图表29:军工行业内选股关注点24 图表30:基金经理二季度对红利风格的共识与分歧24 图表31:基金经理二季度对市值风格的共识与分歧25 图表32:基金经理二季度对成长/价值风格的共识与分歧26 图表33:基金经理二季度对热门概念的共识与分歧26 基金定期披露的季度报告中往往包含基金经理对报告期内投资策略和运作情况的分析,以及对宏观经济、市场走势、行业、风格等方面的展望和判断。通过不断跟踪基金季报中基金经理的观点,我们可以定期获得他们对宏观经济、市场走势、行业表现、风格表现的最新观点,为我们的投资提供重要的参考资料。而通过对比多期观点,也可以了解到基金经理的观点变化。 众多基金经理每季度会产生大量的多维度的观点,依靠人工进行整体的总结与分析较为繁琐。大语言模型为我们提供了分析长文本的便捷工具。本篇报告中我们将以大语言模型为工具,基于全市场主动权益型基金经理的季度观点,从宏观、A股市场、港股市场、各行业板块、风格、热门概念板块等不同维度进行拆解,全面掌握基金经理的最新一致性观点。 1.1大语言模型与检索增强技术(RAG) 2022年末以来,随着OpenAI发布ChatGPT,由此引发AI大模型热潮,国内外各类大语言模型不断问世,能力也不断演进。2024年5月14日,OpenAI发布了新旗舰模型“GPT-4o”,可以实时对音频、视觉和文本进行推理。性能方面,在传统基准测试中,GPT-4o在文本、推理和编码智能方面达到了GPT-4Turbo级别的性能,同时在多语言、音频和视觉功能方面创下了新的高标准。 图表1:GPT-4o性能强劲 来源:OpenAI,国金证券研究所 RetrievalAugmentedGeneration(RAG,检索增强)是一种利用外部来源获取事实来增强生成式AI模型的准确性和可靠性的技术,它结合了信息检索和文本生成的自然语言处理技术,旨在提升生成文本的准确性和相关性。 检索增强技术有如下优势: 1)提高准确性,减少大模型幻觉:RAG通过整合外部数据库知识来增强大语言模型的准确性,避免大模型生成不真实的内容(幻觉)。 2)增强回答质量:RAG通过检索相关信息来支持生成过程,能够生成更详细和相关性更高的回答,特别是在知识密集型任务中。 3)动态数据处理:RAG适用于数据不断变化的环境,它可以查询外部资源来提供最新信息。 图表2:检索增强技术流程 来源:《Retrieval-AugmentedGenerationforAI-GeneratedContent:ASurvey》,国金证券研究所 大语言模型在处理输入文本时存在字数(token)的限制,例如,GPT-4o输入的最大token数通常为128K。处理超过大语言模型输入限制的长文本时,为了应对大模型的token限制,可以通过以下步骤来实现: 文本分块:将长文本分割成较小的片段,逐块输入模型。这种方法需要设计合适的分块策略,以确保每个片段包含足够的上下文信息而不过多冗余。语言模型集成框架LangChain为我们提供了便捷的文本分块的工具,可以根据分隔符分块,可以根据语句结构特征来分块,也可以根据固定长度来分块。 文本向量化,也称为文本嵌入(TextEmbedding),是一种将自然语言文本转换为数值向量形式的过程,是检索增强技术中的重要步骤。向量化处理中,不仅将文本信息转化为数值向量的形式,也同时保留了文本中的语义信息。目前除了OpenAI提供的Embedding模型,也有较多的开源Embedding模型可以下载使用。 向量数据库与检索:在RAG(Retrieval-AugmentedGeneration)模型中,FAISS常用作向量数据库,以实现高效的文本向量检索。FAISS的检索原理是,基于计算查询向量与数据库中向量的相似度,并根据这些相似度进行排序,找到与查询向量相似度最高的若干文本向量,相似度的度量可选择欧氏距离、余弦相似度等。 1.2基于检索增强技术的大语言模型对基金季报的分析流程 首先,我们以主动权益型基金为研究对象,筛选了权益仓位超过60%的普通股票型、偏股混合型、灵活配置型基金,提取了基金季报中的“报告期内基金的投资策略和运作分析”、“市场展望”两个部分的文本内容进行分析。为了避免同一个基金经理、同一个基金公司管理的产品出现重复的观点,我们对文本进行了去重处理,并且每一个基金经理只保留了该基金经理一个产品的观点。 我们发现,即使经过去重处理,每个季度的主动权益型基金季报文本数据仍然包含大量的字符串。我们整理的2024年基金二季报样本中,字符数量已超过130万个,如果转化成token的形式进行度量,也必然超过了绝大多数大模型的输入token限制,因此,我们需要结合检索增强技术来解决文本过长的问题,在单个分析任务中,只检索出相关的内容输入大模型。 图表3:基金季报样本中字符数量(个) 1600000140000012000001000000 800000600000400000200000 0 2023年四季报2024年一季报2024年二季报 来源:Wind,国金证券研究所 我们按照如下步骤来实现大模型对基金季报整体观点的分析。 1)文本分块:我们按照分号、句号来对季报文本进行分块处理。由于季报观点中的一段话中往往可能包括多方面的观点(例如宏观、行业、风格),所以我们需要按语句进行分块,以便在后续检索过程中能够更加精确地检索到对应的语句,避免信息冗余。 2)向量化处理:我们使用了开源的“xiaobu-embedding-v2”模型进行文本向量化,该模型近期在MTEB(海量文本embedding基准)中文的embedding排行榜中排名第一。 3)知识库检索:对于不同的分析任务,例如宏观经济观点分析、A股走势观点分析、港股走势观点分析、不同行业观点分析,我们设置了不同的检索语句,检索出相对应的文本内容。 4)提示词设计:对于不同的分析任务,我们分别设计不同的提示词,以便从季报观点中总结提炼出核心观点。 5)大模型处理:我们选择了GPT-4o的API作为本次任务的分析工具。 图表4:基于检索增强技术的大语言模型对基金季报的分析流程 来源:国金证券研究所 2.1宏观经济观点 我们提取了基金二季报中基金经理对于宏观经济的观点,基金经理们普遍认为2024年下半年中国经济将保持温和复苏态势,通胀水平将保持温和,国内货币政策将继续保持稳健 偏宽松,财政和货币政策协同发力,支持经济复苏。但除了上述共识,在经济复苏力度、地方债务与财政政策、消费复苏力度、地缘政治影响与出口前景等方面基金经理也产生了分歧。 图表5:基金经理二季报对宏观经济的共识与分歧 要点 基金经理观点 共识 1.经济增长预期:基金经理们普遍认为2024年下半年中国经济将保持温和复苏态势