姓名 资格编号:S11305XXXXXX 邮箱:xxxxx@tebon.com.cn 金融工程专题 证券研究报告|金融工程专题 文献精译 ChatGPT能够预测股票价格的走势吗?收益可预测性和大型语言模型 ——德邦金工文献精译第十期 2022年04月22日 证券分析师肖承志 资格编号:S0120521080003 邮箱:xiaocz@tebon.com.cn 研究助理 相关研究 1.《只有艰难时期的赢家能重复成功:对冲基金在不同市场条件下的业绩持续性——德邦金工文献精译第九期》2023.03.31 2.《训练语言模型以遵循带有人类反馈的指令——德邦金工文献精译第八期》2023.03.17 3.《股价是否充分反映了业绩中应计和现金流部分所蕴含的未来盈利信息?——德邦金工文献精译第七期》2022.07.13 投资要点: 这篇报告介绍了ChatGPT语言模型预测股票收益的效果。论文标题是《CanChatGPTForecastStockPriceMovements?ReturnPredictabilityandLargeLanguageModels》,于2023年04月15日预发布于ArXiv,该论文评估了使用 ChatGPT等大型语言模型对新闻标题进行情感分析,从而预测股票市场回报的潜力。 利用股票数据和新闻数据让ChatGPT进行情感分析。本文主要使用两个数据集进行分析,分别是CRSP日收益率和RavenPack新闻标题数据集。CRSP数据集包含了美国主要证券交易所上市的公司的日收益率等数据。RavenPack新闻标题数 据集由各种来源的新闻标题组成,经过预处理和过滤以筛选公司新闻,并提供新闻与公司的相关性得分指标。 样本外的数据保证了预测的可信度。为了保证模型不提前知道数据,研究人员在确保所有预测结果都是在样本外进行的。由于ChatGPT训练数据截止于2021年9月,该论文选定的样本数据起始日期为2021年10月。 ChatGPT得分与股票回报正相关。该论文使用新闻标题向ChatGPT提问,并将 4《. 资产配置:管理风格和绩效衡量— ChatGPT的回答转换成ChatGPT得分。使用回归模型,将ChatGPT得分与股票 —德邦金工文献精译第六期》 2022.07.11 5《.规模很重要,如果控制了绩差股— —德邦金工文献精译第五期》 2022.05.28 6.《中国股市的规模和价值因子模型 ——德邦金工文献精译第四期》 2022.04.22 7.《机器学习驱动下的金融对不确定性的吸收和加剧——德邦金工文献精译第三期》2022.02.11 8.《不可知的基本面分析是可行的— —德邦金工文献精译第二期》 2022.01.14 9.《机器学习因子:在线性因子模型中捕获非线性——德邦金工文献精译第一期》2021.09.17 日收益进行比较,发现ChatGPT得分与股票回报呈现正相关关系。 开发专用的金融大语言模型和混合其他AI技术的系统会更有前景。本文强调开发针对金融行业的大型语言模型以提高决策准确性和效率,并提议将大型语言模型与其他机器学习技术和量化模型结合,创建综合各种方法优势的混合系统,以进一 步提高金融经济学中AI驱动模型的预测能力。 ChatGPT预测结果仍有不确定性以及面临监管风险。ChatGPT等高级语言模型在投资决策的过程中预测失误的可能性仍存在。此外,AI技术在金融领域的应用也需要更为完善严格的监管措施来防止不当操作和风险控制问题的产生。 风险提示:数据不完备和滥用风险,信息安全风险,模型失效风险 请务必阅读正文之后的信息披露和法律声明 内容目录 1.摘要4 2.简介4 3.相关工作5 4.背景5 5.数据6 6.方法7 6.1.提示语7 6.2.实证设计8 7.结果9 8.结论11 9.风险提示12 10.参考文献12 信息披露15 图表目录 图1:样本公司累计收益率6 图2:实验数据描述7 图3:新闻相关性分析数据7 图4:基于情感评分预测的次日日均收益率9 图5:基于情感评分预测的全体公司样本数据回归计量结果10 图6:基于情感评分预测的小公司样本数据计量结果10 图7:基于情感评分预测的非小公司样本数据计量结果11 图8:衡量模型解释性的指标11 1.摘要 这篇报告是德邦金工文献精译的第十期,我们介绍ChatGPT语言模型预测股价的表现。 该论文的标题是《CanChatGPTForecastStockPriceMovements?ReturnPredictabilityandLargeLanguage》,于2023年4月15日预发布于Arxiv,作者是AlejandroLopez-Lira和YuehuaTang。这篇论文评估了利用大型语言模型ChatGPT进行情感分析来预测股票收益的能力。研究发现,ChatGPT分数与股市日回报之间正相关,ChatGPT模型的表现优于传统情感分析方法。基线模型GPT-1、GPT-2和BERT不能更精确的预测股票收益,这表明股票收益可预测性是复杂模型的一种能力。该论文建议将先进的语言模型纳入投资决策过程中,以获得更准确的预测并且增强量化交易策略的表现。该研究还能帮助金融从业人员决策是否将LLMs(大型语言模型,LargeLanguageModels)纳入其投资策 略,指导AI在金融监管框架的应用,促进LLMs在金融领域的应用,激发对人工智能与金融相融合的研究。 2.简介 近几个月来,LLMs的应用(如ChatGPT)在各个领域得到了显著的关注,许多研究探索了它们在不同领域的潜力。然而,大型语言模型在金融经济学领域 (特别是在预测股票市场收益方面)的应用仍然相对未知。一方面,这些模型并没有专门以此目的进行训练,人们可能认为它们在预测股市走势方面提供的价值很小;另一方面,这些模型更擅长的是理解自然语言,人们更认为它们在处理文本信息预测股票回报方面是更有价值工具。LLMs在预测金融市场走势方面是一个开放性的问题。 本文可能是第一个通过评估ChatGPT在预测股市回报方面的能力来解决这个关键问题的论文之一。通过一种利用该模型的情感分析能力的新方法,论文使用新闻标题数据评估了ChatGPT的表现,并将其与现有较情感分析方法进行了比较。 该论文的研究结果对金融业的就业格局可能存在较大影响。这一结果可能会导致市场预测和投资决策所用方法的转变。 首先,该论文的研究可以帮助监管机构和政策制定者了解金融市场LLMs的潜在益处和风险。随着这些模型变得更加普遍,监管者将重点关注它们对市场行为、信息传播和价值发现的影响。该论文结果可以为AI监管制定框架提供参考,并为将LLMs整合到市场运营中开发最佳实践做出贡献。 其次,该论文可以为金融机构及投资者提供关于LLMs在预测股市回报方面效力的实证证据。这些证据可以帮助这些专业人士做出更明智的决策,将LLMs纳入到他们的投资策略中,潜在地改善业绩并节省大量时间。 最后,该论文对于关于人工智能在金融领域应用的更广泛学术讨论也做出了贡献。通过探究ChatGPT在预测股市回报方面的能力,论文推进了对LLMs在金融经济学领域潜力和限制的理解。这可以激发未来更多的研究,开发出更加针对 金融行业需求的复杂LLMs,为更加高效和准确的金融决策铺平道路。 3.相关工作 最近几篇使用ChatGPT在经济学领域的论文包括Hansen和Kazinnik (2023),Cowen和Tabarrok(2023),Korinek(2023)和Noy和Zhang(2023)。Hansen和Kazinnik(2023)表明,像ChatGPT这样的LLMs具有解码Fedspeak (即美联储用于传达货币政策决策的语言)的能力。Cowen和Tabarrok(2023年)及Korinek(2023)证明ChatGPT在经济学教学和经济研究中很有用。Noy和Zhang(2023)发现,ChatGPT可以提高专业写作工作的生产力。此外,Yang和Menczer(2023)证明ChatGPT成功地识别可信的新闻机构。 这篇论文是第一批研究LLMs在金融市场,特别是投资决策过程中潜力的论文之一。 这篇论文利用文本分析和机器学习来研究各种金融研究问题(例如Jegadeesh和Wu(2013),Campbell等(2014),Hoberg和Phillips(2016),Gaulin(2017),Baker,Bloom和Davis(2016),Manela和Moreira(2017),Hansen,McMahon和Prat(2018),Ke,Kelly和Xiu(2019),Ke,MontielOlea和Nesbit(2019),Bybee等(2019),Gu,Kelly和Xiu(2020),Cohen,Malloy和Nguyen(2020),Freyberger,Neuhierl和Weber(2020),Lopez-Lira2019,Binsbergen等(2020),Bybee等(2021))。该论文独特贡献在于第一个评估最近开发的LLMs(如ChatGPT)在预测股市走势方面文本处理能力的研究。 该论文还参考了使用新闻文章的语言分析来提取情感和预测股票回报的文献。这个领域的一部分研究了媒体情感和股票总收益(例如Tetlock(2007年),Garcia (2013),Calomiris和Mamaysky(2019))。另一个领域使用公司新闻的情感来预测个股收益(例如Tetlock,Saar-Tsechansky和Macskassy(2008),Tetlock (2011),Jiang,Li和Wang(2021))。与以往的研究不同的是,这篇论文侧重于了解LLMs是否通过提取预测股票市场反应的额外信息来增加额外价值。 最后,该论文也涉及有关就业暴露和对人工智能相关技术的脆弱性的文献。Agrawal,Gans和Goldfarb(2019),Webb(2019),Acemoglu等人(2022),Acemoglu和Restrepo(2022),Babina等人(2022),Noy和Zhang(2023)最近研究了人工智能相关技术的工作暴露程度,以及对就业和生产力的影响。随着AI自其成立以来一直在不断发展,这篇论文侧重于了解AI,特别是LLMs在金融领域的能力,这是一个紧迫但未回答的问题。该论文强调LLMs在处理信息以预测股票回报方面为市场参与者增加价值的潜力。 4.背景 ChatGPT是OpenAI基于GPT(GenerativePre-trainedTransformer)架构开发的一种大规模语言模型。它是迄今为止开发的最先进的自然语言处理(NLP)模型之一,经过对大量文本数据的训练,可以理解自然语言的结构和模式。GenerativePre-trainedTransformer(GPT)架构是一种用于自然语言处理任务的深度学习算法。它由OpenAI开发,基于Transformer架构,该架构在Vaswani等人(2017年)中引入。GPT架构在一系列自然语言处理任务中取得了最先进的 性能,包括语言翻译、文本摘要、问答和文本完成。 GPT架构使用多层神经网络来模拟自然语言的结构和模式。使用无监督学习方法,它在大量的文本数据,如维基百科文章或网页上进行预训练。这个预训练过程使模型能够深入理解语言的语法和语义,然后针对特定的语言任务进行微调。GPT架构的一个独特特点是其使用transformer块,它通过使用自注意力机制来聚焦输入中最相关的部分,从而使模型能够处理长序列的文本。这种注意力机制使模型更好地理解输入的上下文,并生成更准确、连贯的响应。 ChatGPT经过训练,可以执行各种语言任务,如翻译、摘要、问答,甚至可以生成连贯且类似人类语言的文本,这使它成为创建聊天机器人和虚拟助手的强大工具,可以与用户进行自然的交流。ChatGPT是一种处理语言任务工具,它没有专门训练以预测股票