您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:智能化选基系列之九:Python+ChatGPT:全自动撰写基金评价报告 - 发现报告
当前位置:首页/其他报告/报告详情/

智能化选基系列之九:Python+ChatGPT:全自动撰写基金评价报告

2024-11-05高智威、赵妍国金证券丁***
智能化选基系列之九:Python+ChatGPT:全自动撰写基金评价报告

基金经理调研纪要解读 投资机构会定期对市场关注的基金经理进行调研,调研内容涵盖了基金经理的职业背景、投资框架、资产配置、选股择券逻辑、市场观点及后市展望等内容。这些纪要可以帮助FOF基金经理深入了解研究标的,进行价值评估,进而制定投资策略。然而,目前市场上的基金经理调研纪要形式多样,缺乏统一的标准。如果依赖人工对这些不同年份的调研纪要进行总结时和分析,不仅工作量巨大,还容易导致观点的冗余或遗漏。 在智能化选基系列之四报告中,我们曾尝试过使用Claude2模型生成基金经理调研报告并构建标签体系。报告中主要关注了基金经理的研究框架和投资偏好,并以思维导图和markdown表的形式进行输出。然而,此方法主要依赖于网页端问答,未能充分实现api集成,在自动化程度上仍有一定提升空间。 OCR技术助力Kimi完成高效文本识别 Kimi在长文本处理领域展现了卓越的能力,尤其是在光学字符识别(OCR)方面。该模型采用先进的CNN+RNN网络架构,通过卷积、循环和转录层,精准地将图像中的文字转换为可编辑文本。Kimi的OCR技术对中文字符进行了深度优化,适应各种字体和背景条件,确保高识别率。此外,Kimi提供多文件上传,并支持更多种文件类型,还可以免费使用,相比其他大语言模型更具优势。 基金经理调研总结报告的生成 在本文中,我们将运用最新的Kimi和ChatGPT-4o大模型,从基金经理的履历和能力圈、投资框架、大类资产配置、行业配置、选股逻辑和风格配置等多个角度,结合万得数据库数据进行验证,出具更加深入全面的自上而下基金经理画像,为投资者提供决策参考依据。 首先,我们使用大语言模型从纪要中提取了基金经理的姓名、所在公司和最新一篇纪要的发布时间,统计了代表产品 (规模最大产品)的规模和单位净值等相关信息。其次,我们从资产配置、行业配置、选股策略、交易方法和风险控制等多个维度定性分析了基金经理的投资框架。 在大类资产配置上,我们分析了基金经理的配置观点及其仓位控制情况,特别关注了在不同时间段内是否发生了变化 及具体情况,并用Wind数据库统计了过去四个季度里股票市值占基金净值的比例进行验证。在行业配置上,我们让大模型从消费、TMT、制造、金融地产等8个行业中选择主要配置的行业,而后归纳总结出基金管理人对上述选出行业未来走势的看法,并统计了最近年报/中报中重仓行业的具体配置信息。 对于底层资产,我们希望了解基金经理的选股逻辑,并判断是否发生变化,还着重统计了代表产品在最近的四个季度里重仓股的市盈率、持仓市值和占总股票的投资比例。最后,我们从市值和估值两个角度定性分析了选股风格及变化情况。 风险提示 1、本文提及的投资框架、资产配置、行业配置、选股逻辑等是以大语言模型为工具,基于对基金调研纪要中基金经理观点而进行的总结提炼;大模型输出的内容存在一定的随机性和准确性风险; 2、大模型迭代升级、新功能开发可能会导致结论的风险;人工智能模型得出的结论仅供参考,可能出现错误答案的风险; 3、调研纪要文本质量最终输出结果的风险; 4、基金相关信息及数据仅作为基金研究使用,不作为募集材料或者宣传材料。 内容目录 一、基金经理调研纪要解读4 二、国产大语言模型kimi介绍4 2.1国产大语言模型kimi4 2.2Kimi与其他大语言模型性能对比6 2.3基于LLM模型对基金经理调研纪要的分析流程7 三、基金经理调研纪要数据来源7 3.1基金经理调研纪要7 四、大语言模型解读基金经理纪要的提示词设计思路8 4.1专业术语解释与需求要点明确8 4.2回答格式与模板的规范化9 4.3多篇纪要同时分析,关注最新观点与观点变化9 五、大语言模型解读基金经理调研纪要实证示例9 5.1基金经理基本信息分析9 5.2基金经理投资框架11 5.3基金经理大类资产配置分析13 5.4基金经理行业配置情况分析15 5.5基金经理选股思路逻辑分析16 5.6基金经理风格配置框架分析18 六、总结18 七、风险提示19 图表目录 图表1:Claude2基金经理调研纪要拆解并输出表格4 图表2:OCR技术中的CRNN模型网络架构5 图表3:Mooncake系统架构5 图表4:Kimi与常见大语言模型的文件读取性能对比6 图表5:Kimi与常见的大语言模型的其它性能对比6 图表6:大模型处理基金经理调研纪要的流程和思路7 图表7:基金经理调研纪要示意图8 图表8:基金经理调研纪要分析框架图9 图表9:基金经理基本信息10 图表10:基金经理的基本要素10 图表11:基金产品代表产品单位净值走势图11 图表12:基金经理的投资框架示意图12 图表13:基金经理AAA投资框架分析结果13 图表14:基金经理AAA大类资产配置框架分析结果14 图表15:基金经理代表产品股票市值占基金净值比例保持稳定15 图表16:基金经理AAA行业配置情况分析15 图表17:基金经理AAA代表产品前五大重仓行业配置信息16 图表18:基金经理AAA选股逻辑分析16 图表19:基金经理代表产品前十大重仓股信息17 图表20:基金经理代表产品重仓股配置情况稳定17 图表21:基金经理AAA代表成品前十大重仓股信息18 图表22:基金经理AAA风格配置情况分析18 一、基金经理调研纪要解读 基金投资机构、证券公司研究所、基金销售机构等会持续对市场关注的基金经理进行调研并制作调研纪要,调研纪要的内容涵盖了基金经理的职业背景、投资框架、资产配置、选股择券逻辑、市场观点及后市展望等内容。这些纪要可以帮助FOF经理深入了解研究标的,进行价值评估,进而制定投资策略。然而,目前市场上的基金经理调研纪要形式多样,缺乏统一的标准。如果依赖人工对这些不同年份的调研纪要进行总结时和分析,不仅工作量巨大,还容易导致观点的冗余或遗漏。 在智能化选基系列之四中,我们曾尝试过使用Claude2模型生成基金经理调研总结报告并构建标签体系。报告中主要关注了基金经理的研究框架和投资偏好,并以思维导图和markdown表的形式进行输出。然而,此方法主要依赖于网页端问答,未能充分实现api集成,在自动化程度上仍有一定提升空间,文本内容也缺乏数据的佐证。 图表1:Claude2基金经理调研纪要拆解并输出表格 来源:Claude2,iFinD,基煜研究公众号,国金证券研究所 在本文中,我们将运用最新的Kimi和ChatGPT-4o大模型,从基金经理的履历和能力圈、投资框架、大类资产配置、行业配置、选股逻辑和风格配置等多个角度,出具更为深入的基金经理画像,为投资者提供决策参考依据。 二、国产大语言模型kimi介绍 2.1国产大语言模型kimi 自2022年OpenAI发布ChatGPT以来,人工智能领域进入了快速发展的新时代。2023年10月9日,北京月之暗面科技有限公司(MoonshotAI)推出了全球首款支持20万汉字输入的智能助手——Kimi。2024年3月,Kimi智能助手再次升级,能够处理高达200万汉字的长文本。 与市场上其他主流大语言模型产品相比,Kimi的最大亮点在于其卓越的长文本读取与解析能力。Kimi能够轻松处理用户上传的百页报告或书籍内容,提供精确的总结或基于文本的问答功能。这一特性使Kimi在应对大规模文本处理任务时表现得尤为出色。在当今市场中,虽然许多模型擅长生成图片、视频、音频,或支持插件与智能体等功能,但Kimi选择专注于长文本的消化与理解。这一功能正是广大普通用户最为迫切、实际需要的,因而使Kimi在同类产品中独树一帜。 在大规模文本处理任务中,光学字符识别(OCR)技术发挥着至关重要的作用。Kimi模型采用了最先进的OCR技术,能够高效、准确地将图像中的文字内容转换为可编辑的文本格式。这一技术使Kimi不仅可以处理纯文本,还能从图片、扫描文件或手写文档中提取信息,进一步增强了其在多源数据处理中的能力。Kimi的OCR技术特别针对中文字符进行了优化,确保了在不同字体、大小和复杂背景下的高识别率,从而满足用户在多种场景中的使用需求。 当下主流的OCR技术都采用了CNN+RNN的网络结构,该结构共包含三个部分,从下到上依次是:1)卷积层,从输入图像中提取特征序列;2)循环层,为每一帧预测标签分布;3)转录层,将每帧的预测结果转换为最终的标签序列。 图表2:OCR技术中的CRNN模型网络架构 来源:AnEnd-to-EndTrainableNeuralNetworkforImage-BasedSequenceRecognitionandItsApplicationtoSceneTextRecognition,国金证券研究所 Mooncake是Kimi的服务平台,它采用了以KV(Key-Value,键值)缓存技术为核心的解耦架构,极大地提升了其长文本处理效率。通过将已处理过的内容存储在缓存中,Kimi能够在需要时快速访问并利用这些数据,避免重复计算。这一技术不仅加快了响应速度,还降低了系统资源的消耗,保证了在处理大规模文本时的稳定性和流畅性。此外,KV缓存技术还支持多次交互下的上下文关联,使得Kimi能够在长时间的对话或连续文本处理任务中保持前后一致的理解和分析能力。 图表3:Mooncake系统架构 来源:Mooncake:AKVCache-centricDisaggregatedArchitectureforLLMServing,国金证券研究所 2.2Kimi与其他大语言模型性能对比 与市场上其他主流大语言模型相比,Kimi在处理长文本方面展现出了显著的优势。具体来说,Kimi的文件接口不仅支持更多样化的文件上传类型,包括文本、表格、图片以及常见代码文件格式等,而且其单次上传的文件数量和文件大小也远远超越了ChatGPT和Claude,这使得它在批量处理大量数据时具备明显的优势。 在基金经理调研纪要的分析过程中,我们通常希望分析各类纪要文件并且对多篇纪要进行同时、批量处理。Kimi在处理这些大体量、格式多样化的纪要文件时表现出色,能够有效满足我们对信息完整性和多样性的需求。因此,对于这种需要大规模处理长文本和复杂内容的应用场景,Kimi无疑是最为适合的选择。 此外,Kimi模型在文件读取功能上也具备重要的成本优势。只要文件上传总量不超出限制,Kimi允许免费无限次地读取文件内容(仅限提取文本),这大大降低了我们在进行调研纪要分析时的成本。而相较之下,ChatGPT和Claude在文件读取与深度解析上是按相同标准收费的,这意味着使用这两款模型进行长文本处理时,成本会显著增加。 模型特性Kimi ChatGPTClaude .pdf.txt.csv.doc .docx .xls. xlsx.ppt.pptx.md .jpeg .png. bmp.gif.svg.svgz .webp .ico. xbm.dib.pjp.tif .pjpeg .avif 图表4:Kimi与常见大语言模型的文件读取性能对比 支持读取文件类型 .dot.apng.epub.tiff.jfif.html.json.mobi.log.go.h.c.cpp.cxx.cc.cs.java.js.css .jsp.php.py.py3.asp.yaml.yml.ini.conf.ts.tsx等格式。 文本文件、电子表格、演示文稿和文档的所有常见文件扩展名。 .pdf.docx.csv.txt.html .odt.rtf.epub.json 文件上传数量限制1000205 文本文件单个不超过512MB, 且每个文件最多可容纳200万个令牌;CSV文件或电子表格单个不能超 文件上传大小限制 单文件不超过100MB,所有已上传的文件总 和不超过10G。 过50MB,具体取决于每行的大小;图像文件单张限制为20MB。 此外,每个最终用户的上限为10GB,每个组织的上限为100GB。 每个文件30MB,提取内容的长 度有其他令牌限制。 Claude3.5