量化分析报告 大语言模型(LLM)在量化金融中的应用展望 2023年03月23日 当前大语言模型(LLM)成为市场关注焦点,本报告将从各个角度展望LLM在量化金融领域的应用。LLM的代表模型GPT-4是一个基于预训练的给定上文推测下文(单词)的神经网络。通过自回归语言模型,GPT实现了从单词推断到完整回答的功能。如果仅仅是根据上文“猜”下文,GPT-4又是如何产生逻辑性的?第一个重要的原因在于超大量样本训练带来的智能涌现,通过大规模样本的输入和训练,量变引起质变导致GPT学会了部分逻辑。第二个重要的原因在于RLHF技术,以人类偏好引导GPT进行语言输出实现了有效的人机交互。 分析师叶尔乐执业证书:S0100522110002邮箱:yeerle@mszq.com LLM的三大特点:“零示例推理者”;不是高级版本的搜索引擎;解决的不 仅仅是“语言问题”。GPT模型通过“思考链”的模式推理,对原先无法回答的问题进行“分而治之”的解答,最终得到正确答案的概率大幅提升。GPT的能力并不来自对训练数据的直接“记忆”和“搜索”。除了传统的文本理解、文本分类、情感分析、文本对话、文本摘要等工作以外,GPT还可以进行指令编程、逻辑推理、文学创作等等功能,并且未来通过多模态有望处理更丰富的任务。LLM对量化研究的启示:LLM的出现无疑会提升整体量化研究的效率。量化金融未来可能形成“黑箱”为基础,“白箱”为交互的发展模式。提出一个好问题仍是未来量化研究的重要要素。 相关研究1.量化周报:震荡延续,创业板50ETF规模持续大幅提升-2023/03/192.量化专题报告:量化捕捉宏观驱动下的行业戴维斯双击机会-2023/03/16 3.量化周报:社融大增,市场转牛概率提升- 2023/03/124.量化专题报告:绝对收益的炼成:公募固收类基金收益全解析-2023/03/06 5.量化周报:震荡延续但风险较低-2023/03/ LLM在量化金融中的应用展望: 05 1、可以用于提炼研报重点,将投资者从纷繁复杂的信息中解放出来;2、可以帮助基本面投资者进行定量分析、策略构建、代码编程;3、通过它及时知晓市场当下的投资热点和主题,节省复盘时间;4、高效的文本比对能力可以被广泛应用于各种政策研究中; 5、可对大量上市公司发布的投资者交流纪要进行学习和总结,凝练重要投资信息; 6、公司间相似性,产业链关系刻画,辅助构建产业图谱;7、“思考链”模式更精准的识别投资者情绪,给出更准确的情绪标签;8、基金调研文本的归纳与标签化,辅助定性评价;9、ESG领域对非标准文本和高管讲话的深度理解和分类;10、对人类反应的有效模拟可助力行为金融学发展。 风险提示:1)本文中所有大语言模型的问答均为测试案例,不构成任何投资建议。2)技术发展与应用落地不及预期。 目录 1大语言模型的特点与功能3 1.1LLM的基础原理3 1.2LLM的功能特点6 2大语言模型在量化金融中的应用展望9 2.1LLM对量化研究的启示9 2.2LLM在量化金融中的应用展望9 3参考文献22 4风险提示24 插图目录25 1大语言模型的特点与功能 1.1LLM的基础原理 近期随着OpenAI的GPT-4模型发布、百度文心一言发布、微软Copilot发布,大语言模型(LLM,LargeLanguageModel)成为市场关注焦点。对于AI模型运用较多的量化金融领域,LLM将会带来怎样的改变?本报告将从各个角度进行LLM在量化金融领域应用的展望。 在展望未来应用之前,我们首先以GPT模型为例简要解释LLM的基础原理。2023年3月16日,OpenAI发布了GPT-4的技术报告,其中用一句话来介绍GPT-4即:GPT-4是一个基于预训练的Transformer模型,用于预测某一文本的下一个字词(token)。也就是说GPT-4是一个给定上文推测下文(单词)的神经网络。同时,相比于GPT的早期版本,GPT-4的输入拓展到了图片。 图1:GPT-4的基本功能 资料来源:民生证券研究院绘制 那么GPT-4是如何通过预测下个单词来达成回答一段话的功能的?主要是将生成的单词重新加回到上文中作为新的输入,使得模型继续生成下一个单词,循环往复达到回答一段话的功能(称为AutoregressiveLM,自回归语言模型),类似我们在使用智能输入法的过程中,输入法给出的对下一个单词的不断预测。其基础模型Transformer来自2017年谷歌在NIPS上提出的论文“Attentionisallyouneed”。其克服了传统序列推导模型(Sequencetransductionmodel)采用RNN时面临的问题,成为了解决此类问题新的通用模型。 如果GPT-4仅仅是根据上文“猜”下文,其又是如何产生逻辑性的?我们知道GPT-4模型不仅可以进行简单的对话聊天,还可以实现指令识别、总结、推断、模仿等一系列更为高级的智能。甚至还可以在人类知识水平测试中达到与普通人类似的水准。那么这些智能是如何通过大语言模型训练得到的? 图2:GPT模型在人类知识水平测试中的表现(分位数下限) 资料来源:”GPT-4TechnicalReport”,民生证券研究院 图3:GPT-4的“看图做物理题” 资料来源:”GPT-4TechnicalReport”,民生证券研究院 第一个重要的原因在于超大量样本训练带来的智能涌现。语言是人类知识传承的载体,语言中本身蕴含着人类指令识别、总结、推断、模仿的行为,通过大规模样本的输入和训练,量变引起质变导致GPT学会了部分逻辑,称为Scalinglaw,也被解读为“涌现”现象。“涌现”是自然界较为普遍的一种现象,指的是某种规则单独表达时不存在,但是在大规模互相作用下出现的特殊模式,比如仅 采用一个简单的复二次多项式f(z)=z^2+c进行大量迭代计算便可以得到模式复杂且在宏观上特征显著的Mandelbrot集。在大语言模型中,训练量或者参数量提升到一定临界值后,会导致模型的表现大幅增强,而在数量级不够的情况下无论怎么训练表现都将难有起色。在2022年的论文“EmergentAbilitiesofLargeLanguageModels”中研究者就测试得到了支持该论据的实验结果。各类模型的预测效果随着训练量或者参数量达到某一临界值后出现了质的飞跃。 图4:各LLM预测效果与训练量(FLOPs)关系图5:各LLM预测效果与模型参数量关系 资料来源:“EmergentAbilitiesofLargeLanguageModels”,民生证券研究院 资料来源:“EmergentAbilitiesofLargeLanguageModels”,民生证券研究院 GPT-4的模型发展也是一定程度上依靠训练量和参数量的大幅提升。GPT-3相比于GPT-1,训练数据量增加了9000多倍,模型参数量增加了约1500倍。海量的预训练数据集加上少量的优质范例数据辅助监督学习,使得大语言模型具备了基础智能。 图6:GPT各代模型数量级差异 模型 发布时间 输入文本上限 训练数据大小 模型参数数量 GPT-1 2018年6月 - 5GB 1.17亿 GPT-2 2019年2月 700左右单词 40GB 15亿 GPT-3 2020年5月 1500左右单词3000左右单词(GPT-3.5) 45TB 1750亿 GPT-4 2023年3月 25000左右单词 - - 资料来源:OpenAI,民生证券研究院,注:缺失数据为未公布 第二个重要的原因在于RLHF技术(Reinforcementlearningforhumanfeedback)。海量样本下的预训练保证了GPT能够获取海量的知识,但无法保证GPT能够以人类习惯的方式进行表达和交互,整体的表达可能有“瞎编”、“拼接”、“生硬”等问题。因此,以人类偏好引导GPT进行语言输出是实现有效人机交互的重要步骤。在2020年发表的论文“Learningtosummarizefromhumanfeedback”中OpenAI提出了利用人工标注样本方式对GPT进行强化学习的方法。通过人工比对GPT给出的摘要质量,给予人类偏好的文本以更高的奖励,从而强 化GPT用人类偏好的方式进行表达的能力。从实验结果来看,确实对于输出文本的质量有明显的提高。 图7:GPT的RLHF流程 资料来源:”Learningtosummarizefromhumanfeedback”,民生证券研究院 图8:加入RLHF后语言模型输出的“人工满意度”明显高于预训练+监督学习 资料来源:”Learningtosummarizefromhumanfeedback”,民生证券研究院 1.2LLM的功能特点 特点一:“大语言模型是零示例推理者”。在2022年的论文“LargeLanguageModelsareZero-ShotReasoners”中,研究者发现通过在输入文本中简单的添加“Let’sthinkstepbystep”就可以使得GPT模型进行“思考链”的模式推理,对原先无法回答的问题进行“分而治之”的解答,最终得到正确答案的概率大幅提升。 图9:大语言模型中提示词的效果 资料来源:”LargeLanguageModelsareZero-ShotReasoners”,民生证券研究院 当然触发“思考链”的关键词并没有固定格式,论文中给出了其他几种更复杂或者更简单的提示词,一样都能明显改善GPT的回答能力。 图10:大语言模型在得到某些提示词后回答精度大幅提升 资料来源:”LargeLanguageModelsareZero-ShotReasoners”,民生证券研究院 实验说明了LLM可以回答训练样本中未曾出现过,后续也未给出示例(零示例)的问题,通过关键词触发对逻辑的调用和泛化,其具备了像人类一样的推理能力。 特点二:LLM不是高级版本的搜索引擎。GPT训练的目的不是为了要得到每个问题的精确回答,而是要得到人类“最认可”的回答。因此区别于搜索引擎,GPT给出的答案并不是显式的“记忆”在模型中的规范答案,而是通过超大量的人类问答学习后,最能够让人类“满意”的回答。因此在某些需要精确回答的问题下,GPT可以切换到精确逻辑推导和类似“记忆”输出的回答模式,而在某些需要创新或者幽默的回答下,GPT又可以在理解提问者诉求的基础上,给出之前没有“记忆”但符合要求的创造性回答。并且预训练的模式导致对GPT无法直接删除或者修改“记忆”,只能通过不同的引导方式改变其回答的规则、方向、语气、格式。在OpenAI2020年的论文“LanguageModelsareFew-ShotLearners”中,研究者发现“污染”数据(质量较低)不会影响模型的能力,也说明GPT的能力并不来自对训练数据的直接“记忆”和“搜索”。 图11:少量的被污染数据不会对模型的能力造成显著影响 资料来源:”LanguageModelsareFew-ShotLearners”,民生证券研究院 特点三:大语言模型能解决的不仅仅是“语言问题”。预训练的过程样本本身不是精挑细选的,因此只要是能够用文字表达的任务都可以教给GPT,保证了GPT处理各种任务的潜在可能性。因此除了传统的文本理解、文本分类、情感分析、文本对话、文本摘要等工作以外,GPT还可以进行指令编程、逻辑推理、文学创作等等功能。并且GPT模型目前也在结合多模态(图像、声音)的路径上开展了有效的探索,未来LLM不仅能“读”,还能“看”,能“听”,其可处理的任务类型和互动方式都可能有更进一步的提升。 图12:OpenAI的ImageGPT效果图13:OpenAI自动语音识别系统Whisper工作原理 资料来源:OpenAI,民生证券研究院资料来源:OpenAI,民生证券研究院 2大语言模型在量化金融中的应用展望 2.1LLM对量化研究的启示 LLM的出现无疑会提升整体量化研究的效率。量化研究主要工作为做大量的文献资料总结归纳,以及数据规律的探索