您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:智能化选基系列之四:如何用LLM生成基金经理调研报告并构建标签体系? - 发现报告
当前位置:首页/其他报告/报告详情/

智能化选基系列之四:如何用LLM生成基金经理调研报告并构建标签体系?

2023-08-21高智威、赵妍国金证券张***
智能化选基系列之四:如何用LLM生成基金经理调研报告并构建标签体系?

本篇报告是国金证券金融工程团队智能化选基系列的第四篇,也是我们围绕ChatGPT等大语言模型开展的多项深度前瞻研究的第四篇。在本篇报告中,我们将大语言模型应用到了基金研究中,我们以基金经理调研纪要为研究对象,利用大语言模型,对冗长的基金经理调研纪要进行深度解析。 2023年初,OpenAI发布的ChatGPT因其较强的性能引发全球追捧,国内外各类大语言模型层出不穷,开启了人工智能的新时代。2023年7月份,Anthropic公司推出Claude2,相比于ChatGPT-4,Claude2支持更大的上下文窗口、便捷的文件上传能力、免费使用的特点,也引发了大量关注。基金经理调研,是基金研究的重要环节,基金经理调研纪要往往较为冗长,而Claude2支持10wtoken上下文度,能够帮助我们对冗长的基金经理调研纪要进行文本分析,挖掘其中隐含的关键信息,提高工作效率。 为了更清晰有效的阅读基金经理调研纪要,挖掘其中的关键信息,我们将以三种形式对基金经理调研纪要进行解析,即基金经理调研总结报告、基于基金经理调研内容的个性化问答生成结构化数据、基金经理投资框架思维导图。Claude2处理PDF文件时有较好的识别和定位能力,对于多篇调研纪要能够同时处理。通过设计有效的提示词,我们可以个性化的将对话形式的调研纪要,制作成调研总结报告,也可以通过问答形式,批量提问,生成结构化的数据形式,此外Claude2可以生成mermaid格式思维导图,清晰展示基金经理投资框架。 市场中有大量微信公众号、研报包含了基金经理调研纪要、基金经理定性研究信息,我们可以将大批量冗长的纪要及研报,使用Claude2将其处理成结构化的基金经理定性标签数据,便于存储和使用。我们通过文本收集、文本整理与清洗、大模型解析、结果检查与汇总等步骤,将搜集到的98篇研报及63篇调研纪要,从投资框架、风格偏好、行业偏好、选股逻辑、择时倾向、交易特征等维度进行拆解,构建了二维数据表格,包含日期、基金经理姓名、各维度特征标签等信息,形成了我们的基金经理研究数据库。 大语言模型存在一定的随机性,开启不同对话可能会导致输出结果的不同。大语言模型仍然会犯错,需要我们在使用过程中注意甄别结果的准确性。在设计提示词的过程中,可以通过赋予角色、详细描述问题并提供解决方法、限定大模型不可以胡编乱造等方式,提高大模型使用效果。Claude2解析基金经理调研纪要的能力,一方面取决于大模型的性能,也取决于提示词的有效性,另一方面也依赖于调研纪要的质量。尽管Claude2能够支持较长文本的分析,但大批量的调研纪要数据仍然可能超过其分析能力,在大模型不断升级迭代的情况下,有望得到解决。 大语言模型输出结果具有一定随机性,对同一个问题可能会产生不同的结论;模型迭代升级、新功能开发可能会导致结论不同;人工智能模型得出的结论仅供参考,答案可能存在错误的风险;调研纪要文本质量影响最终输出结果的风险。 内容目录 1、大语言模型推陈出新,长文本分析大有可为4 1.1Claude2基本情况介绍4 1.2Claude特色——宪法式AI技术4 1.3产品迭代升级,Claude2表现优异5 1.4Claude2VSChatGPT:为什么我们选择了Claude27 1.5LLM模型助力基金经理调研纪要的结构化处理7 2、利用Claude2撰写基金经理调研报告并绘制思维导图8 2.1方法介绍8 2.2案例展示9 3、调研纪要批量处理及基金经理定性标签数据库构建13 3.1方法介绍13 3.2案例展示13 4、总结14 5、风险提示15 图表目录 图表1:Claude大模型升级迭代4 图表2:宪法式AI的训练过程5 图表3:Claude2单位token的损失5 图表4:Claude各版本的无害性测试6 图表5:Claude各版本在“HHH”的总体表现6 图表6:Claude各版本的标准化测试结果对比6 图表7:Claude2对上证综指进行数据分析7 图表8:Claude2编程计算最大回撤7 图表9:ChatGPT-4和Claude2的对比7 图表10:基金经理调研是基金研究的重要一环8 图表11:基金经理调研纪要主要结构8 图表12:基金经理调研纪要的展示方式8 图表13:Claude2能够在pdf文件中识别报告标题9 图表14:基金经理调研总结报告10 图表15:提问方式拆解基金经理调研纪要并输出表格11 图表16:mermaid格式思维导图11 图表17:绘制流程图格式思维导图11 图表18:某基金经理投资框架思维导图12 图表19:各个报告中基金经理关注的行业的变化12 图表20:基金经理投资框架变化思维导图13 图表21:Claude2批量处理调研纪要、卖方研报的思路13 图表22:部分基金经理调研纪要及研究报告处理结果14 图表23:Claude2输出结果统计(整体框架)14 图表24:Claude2输出结果统计(风格偏好)14 图表25:同一个问题在不同的对话中,答案存在差异15 本篇报告是国金证券金融工程团队智能化选基系列的第四篇,也是我们围绕ChatGPT等大语言模型开展的多项深度前瞻研究的第四篇。在本篇报告中,我们将大语言模型应用到了基金研究中,我们以基金经理调研纪要为研究对象,利用大语言模型,对冗长的基金经理调研纪要进行深度解析。 1.1Claude2基本情况介绍 2023年初,OpenAI推出的ChatGPT引发了公众对人工智能的广泛关注与讨论,有望引燃新一轮科技革命。而如今,Anthropic公司推出的Claude也受到人们广泛关注。Claude是一款由Anthropic公司研究创建的新一代AI聊天机器人,其能够分析用户上传的大量文本,为用户提供详细和全面的回答。与ChatGPT类似,Claude既可通过网页端的聊天界面进行对话,也可以通过代码端的API进行使用。Claude能够完成各种各样的会话和文本处理任务,并保持高度的可靠性和可预测性。同时,Claude还可以帮助完成诸如摘要、搜索、创意和协作式写作、问答、编码等任务。出于其强劲的性能,Claude目前被视为ChatGPT的有力竞争者。 Anthropic公司最初于2023年3月推出了Claude1.3和ClaudeInstant。Claude1.3起初是作为slack的插件向用户推出,它能够执行多样的复杂任务,包括但不限于复杂推理、深度对话、编程和详细内容创作等。与此同时,ClaudeInstant作为Claude的轻量级版本,其具有低延迟和低成本运行的特点,在一些复杂度低的工作中ClaudeInstant相比于Claude正式版拥有更高的性价比。而在今年7月份,Anthropic公司进一步推出了Claude2.0,这个版本相较于Claude1.3拥有了显著的改进,进一步提升了Claude在AI聊天机器人领域的地位。 图表1:Claude大模型升级迭代 来源:国金证券研究所 1.2Claude特色——宪法式AI技术 作为性能优秀的大语言模型,Claude的搭建除了使用了transformer架构和RLHF(ReinforcementLearningfromHumanFeedback,基于人类反馈的强化学习)外,还使用了Anthropic公司自行开发的宪法式AI技术(ConstitutionalAI,CAI)。这个技术为Claude提供了明确的“价值观”,一定程度上解决了对AI系统的透明度、安全性和决策制定的担忧,弥补了RLHF方法中评估者可能追求错误目标、监督困难等问题。 宪法式人工智能模型训练过程分为监督学习(SupervisedLearning,SL)和强化学习 (ReinforcementLearning,RL)两个阶段。在第一个监督学习阶段中,首先研究者会让仅提供帮助的模型生成有害提示的回复,然后根据一套基本准则对其反应进行批判并进行修正,重复多次。在每次的训练中,模型在宪法准则中随机抽取一个准则。训练完成后,研究者将会用这个训练好的模型进行监督学习来微调得到预训练的SL-CAI模型。这个阶段改变了语言模型的初始分布,减少了下一阶段的探索空间和训练时长。在第二个强化学习阶段,研究者用AI反馈替代人类对无害性的偏好进行强化学习(即RLAIF,ReinforceLearningfromAIFeedback)。研究者让第一阶段训练好的模型根据有害数据集的提示进行回复,并将每个问题与回复配对,形成多项选择题。随后,反馈模型基于宪法准则给出哪个回复是最佳选项,进而产生无害的AI偏好数据。接着,研究者将该数据与人类标注的有帮助的偏好数据,训练出一个偏好模型(PreferenceModel,PM)。最后,将PM模型 与第一阶段的SL-CAI模型进行结合,得到最终的RL-CAI模型。 图表2:宪法式AI的训练过程 来源:《ConstitutionalAIHarmlessnessfromAIFeedback》、国金证券研究所 1.3产品迭代升级,Claude2表现优异 Claude2此次全面升级,将训练时间拓展到了2023年初,并将训练数据中的非英语语言的比例提高到了10%。这意味着Claude2能够知道2022年以前发生的事情,且对中文等非英语语言支持更好。同时,经过研究人员的训练,Claude2将可以更好地生成JSON、XML、YAML、代码和Markdown格式的正确输出。最值得注意的是,Claude2大幅增加了上下文窗口,从9K增加到了目前的100K。研究人员还展示了Claude2在1000个长文档上单位token的平均损失,表明了Claude2具备使用完整上下文的能力。 图表3:Claude2单位token的损失 来源:《ModelCardandEvaluationsforClaudeModels》、国金证券研究所 为了评估Claude2的性能,Anthropic研究人员针对Claude2、Claude1.3以及轻便版的Claudeinstant进行了一系列实验。在模型对齐上,研究人员针对生成内容的三个关键指标“HHH”进行了评估,即:有用性(helpfulness)、无害性(harmlessness)和真实性(honesty)。结果显示Claude2总体上优于Claude1.3和ClaudeInstant。值得注意的是,Claude2在给出无害回复上的效果是Claude1.3的两倍。 图表4:Claude各版本的无害性测试图表5:Claude各版本在“HHH”的总体表现 来源:《ModelCardandEvaluationsforClaudeModels》,国金证券研究所来源:《ModelCardandEvaluationsforClaudeModels》,国金证券研究所 在能力测试上,Anthropic的研究人员开展了多个标准测试,包括用于python函数合成的CodexHumanEval、用于解决小学数学问题的GSM8k、用于多学科问答的MMLU、针对长故事问答的QuALITY、用于科学问题的ARC-Challenge、用于阅读理解的TriviaQA和用于中学水平阅读理解与推理的RACE-H,评估结果如下表所示。可以看到,在绝大多数测试中,Claude2的各项指标相比于Claude1.3和ClaudeInstant要么持平,要么有着更好的表现。其中,最亮眼的是Claude2的编程能力有了极大的提升,在CodexHumanEval这项测试中其得分从56.00%上升到71.20%。 图表6:Claude各版本的标准化测试结果对比 项目 ClaudeInstant Claude1.3 Claude2 CodexP@1(0-shot) 52.80% 56.00% 71.20% GSM8k(0-shotCoT) 80.90% 85.20% 88.00% MMLU(5-shotCoT) 73.40% 77.00% 78.50% TriviaQA(5-shot) 78.90% 8