GPT-4分析文本的原理解析 OpenAI公司发布的GPT-4(GenerativePre-trainedTransformer-4)模型具备高效理解和生成自然语言文本的能力,应用范围广泛且无需微调即可实现不同类型的生成型任务。其优势主要得益于预训练所用海量参数规模和数据量产生的涌现(Emergence)现象以及在微调阶段引入的基于人类反馈的强化学习(RLHF)技术。GPT-4模型整体的结构细节还未公布,内部的基础Transformer架构通过分词与编码、位置提取与编码、嵌入、提取特征、生成序列、输出的基本过程来分析文本。 GPT-4模型在技术上有三大创新:参数容量更庞大、数据来源更广泛、不正当行为率显著降低;同时也存在文本输入长度限制和回答时效性限制两个局限,前者可以通过优化输入文本的方式尽量避免,后者可以先借助微软公司的NewBing收集时效性信息、再使用GPT-4对信息进行分析总结。 ChatGPT挖掘策略研报中的行业配置信息 卖方策略团队会综合考虑宏观经济环境、产业链和行业政策等各类非结构化的数据,并定期给出推荐的行业与对应理由。其推荐理由会包含政策等难以量化的信息,这也是当前量化策略中难以考虑到的因素,因此我们认为卖方策略团队观点能为传统量化的行业轮动策略带来增量收益。另外卖方策略观点往往推荐多个行业,但缺乏行业间比较,要将卖方策略观点融入量化配置模型,需更加详细的行业排名数据。然而在分析师撰写报告的时候,会从多个角度包括语言组织形式、论据以及观点情绪等角度表达自己的倾向,只是报告中未将这样的倾向性量化出来。GPT模型有强大的文本分析与理解能力,能识别文本的情感倾向性,并根据用户的需求从复杂文本中提炼出精简的观点与理由。通过GPT的文本分析可以帮忙提炼出分析师文本中的倾向性,从而构建出推荐行业的排名打分。 我们将GPT-4模型应用于基于卖方策略团队月报的行业打分任务。我们首先明确行业配置任务的需求,并按照提示工程的方法将任务需求转化为Prompt提示文本。在使用过程中我们不断修正输出结果,并总结出以下要点:1、文本中避免使用“行话”,必要时给出解释;2、模型对负面词汇较敏感,需要对输入文本进行筛选;3、打分理由可能显示不全,根据输入文本检查结果的合理性;4、模型可能“过度解读”导致打分不稳定,要保证文本的信息量充足。 GPT策略研报因子构建与检验 我们根据市面上16家卖方策略团队的月度报告生成打分数据,并将每个行业当月得分的中位数作为GPT策略研报配置因子,发现该因子IC值表现不佳,但分组单调性明显,说明具有一定的预测能力。我们滚动挑选过去半年表现最好的4个卖方策略团队,并根据其对各行业的打分中位数构造GPT精选配置因子,因子IC均值为0.94%,Top组合年化收益率8.46%。 GPT精选因子轮动策略 我们以中信一级行业等权配置作为基准,并根据GPT精选配置因子构建了GPT精选因子轮动策略,策略为2021年7月至2023年4月每月调仓,每次选取因子得分前6的行业等权配置,手续费千分之二。策略的年化收益率为6.03%,夏普比率为0.28,相较于等权基准,策略的年化超额收益率达到9.63%,信息比率为0.95。 风险提示 以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。 内容目录 一、GPT-4分析文本的原理解析4 1.1GPT-4:文本分析领域的里程碑4 1.2Transformer:GPT模型的支柱5 二、GPT-4的技术创新与局限6 2.1GPT-4的技术创新6 2.2GPT-4的技术局限7 三、提示工程及prompt设计10 3.1提示工程介绍及思维链提示10 3.2Prompt设计要素及注意事项11 四、GPT挖掘策略研报中的行业配置信息12 4.1模型选择与任务拆解12 4.2行业打分任务的Prompt优化13 五、GPT策略研报因子构建与检验17 5.1GPT-4打分结果描述17 5.2因子构造初步尝试19 5.3GPT精选配置因子构建19 六、GPT精选因子轮动策略21 七、总结22 风险提示22 图表目录 图表1:GPT系列模型的迭代演化4 图表2:GPT-4分析文本主要步骤5 图表3:GPT和BERT模型的对比6 图表4:Transformer架构分析文本基本过程6 图表5:text-danvinci-003(GPT-3修正模型)、GPT-3.5-turbo和GPT-4不正当行为率对比7 图表6:分段输入文本总结(1)8 图表7:分段输入文本总结(2)8 图表8:时效性对比(NewBing)8 图表9:时效性对比(GPT-4)8 图表10:NewBing的三种模式对比(精准模式)9 图表11:NewBing的三种模式对比(平衡模式)9 图表12:NewBing的三种模式对比(创造力模式)9 图表13:总结能力对比(NewBing)10 图表14:总结能力对比(GPT-4)10 图表15:思维链提示在模型解决数学问题上的应用11 图表16:卖方策略团队行业配置文本实例12 图表17:GPT-3.5输出结果不符合预期13 图表18:GPT-4可以满足使用要求13 图表19:GPT-4不清楚中信一级行业的定义15 图表20:GPT-4不清楚“新半军”含义15 图表21:GPT-4对“信创”行业的映射修正15 图表22:GPT-4对报告中的消极字眼较敏感16 图表23:GPT-4打分理由不全16 图表24:GPT-4打分在输入信息量较少时不稳定(1)17 图表25:GPT-4打分在输入信息量较少时不稳定(2)17 图表26:中信行业打分数据统计18 图表27:得分数量统计18 图表28:无打分数据行业个数18 图表29:GPT策略研报配置因子-IC19 图表30:GPT策略研报配置因子-分位数组合年化超额收益19 图表31:GPT精选配置因子-IC20 图表32:GPT精选配置因子-IC序列表现20 图表33:GPT精选配置因子-分组年化超额收益率20 图表34:GPT精选配置因子-多空组合表现20 图表35:GPT精选配置因子-多空组合净值20 图表36:GPT因子Top组合净值对比21 图表37:GPT精选因子轮动策略构建方法21 图表38:GPT精选因子轮动策略净值22 图表39:GPT精选因子轮动策略指标22 一、GPT-4分析文本的原理解析 本文是国金金工Beta猎手系列的第四篇,同时也是ChatGPT量化研究的第二篇,我们将继续探讨一下新发布的GTP-4在行业轮动方向的一些应用。经过测试,我们发现模型经过一定的引导能够总结卖方策略团队的月度行业观点,并对中信一级行业进行打分,最终我们得到了GPT行业打分因子,将其应用于行业轮动策略上。 1.1GPT-4:文本分析领域的里程碑 2023年3月15日,OpenAI公司发布了GPT-4(GenerativePre-trainedTransformer-4)模型,引发了社会各界的广泛关注。迄今为止,已经发布了5个GPT版本:GPT-1、GPT-2、GPT-3、GPT-3.5(ChatGPT)和GPT-4,经过前几代模型的迭代演化,GPT-4通过深度学习并利用更多数据和计算方法,不仅可以处理图像、文本并生成文本输出,而且可处理更复杂、更细微的指令,比如进行高级推理和编辑生成具有创意性或技术性的文章。 具体到文本分析领域,GPT-4具备广泛且强大的能力,包括:语言理解、信息提取、文本分类、情感分析、文本摘要、语义关系识别、文本生成、问答系统、机器翻译、自然语言推理,因此能够在搜索引擎、智能助手、内容推荐系统、社交媒体分析等场景中得到应用。 然而,目前GPT-4可能无法直接应用于专业性较高的量化研究领域,还需要专业人士提供指导和审查。下面我们将从文本分析的角度切入,为读者介绍GPT-4的底层逻辑和在投资分析领域的辅助应用。 图表1:GPT系列模型的迭代演化 模型名称发布时间参数数量数据集数据量训练方法目前局限性 GPT-12018.61.17BGPT-22019.215B BooksCorpus和英文维基百科 WedText(即社交媒体平台Reddit上高赞文 5GB 40GB 基于Transformer模型;采用自回归方式预训练 基于深层Transformer模型;采用自回归方式预训练; 能够输出流畅文本 GPT-3.5 2022.11 未公布 未公布(包括文本代码混合体) 未公布(可能超过50TB)未公布(可 GPT-4 2023.3 未公布 未公布 能超过100TB) 基于深层Transformer模型;采用自回归方式预训练; 能够接受文本输入;可进行流畅对话 基于深层Transformer模型;采用自回归方式预训练; 能够接受文本和图像输入;可进行流畅对话 规模和能力相对较小;处理复杂任务表现不佳; 可能输出存在偏见或错误的内容 只能处理单语言文本; 章) CommonCrawl等 基于深层Transformer模型; GPT-3 2020.5 1750B 多个数据源(包括WedText) 45TB 采用自回归方式预训练;能够完成多种NLP任务 可能输出存在偏见或错误的内容 对问题的理解不够深入; 可能输出存在偏见或不真实的内容;需要大量的计算资源和能源进行训练和部署 需要大量计算资源训练; 可能会产生伪造或具有偏见的内容;无法联网,时效性受限 需要大量计算资源,可能导致环境和成本问题; 可能会产生伪造或具有偏见的内容; 仍旧无法联网,数据集截止到2021 年9月 来源:《GPT-4TechnicalReport》,国金证券研究所 通过OpenAI公司发布的技术报告《GPT-4TechnicalReport》,我们可以一窥GPT-4高效理解和生成自然语言文本的能力:在各种专业和学术测试中,它都表现出人类水平的表现,比如统一律师考试、SAT阅读与写作、生物奥林匹克中的分数都在应试者中排名前10%。除此之外,通过识别特定的字符和模式的方式,GPT-4能够实现处理不同格式的文本,比如:通过markdown表格中的分隔线、表头、单元格等结构特点解析表格中的信息,进而实现回答关于表格内容的问题、执行数据操作或者将表格转换成其他格式等处理。 在GPT-4实际分析文本的过程中,主要包含以下几个步骤: 1.接收输入:当用户提问或发出请求后,接收一段文本输入。 2.转化词向量:将接收到的文本输入分解成词汇单元,然后使用编码器编码成向量形式。 3.理解上下文:根据训练数据和知识库,理解输入文本的上下文,并进行相关信息匹配。 4.生成回应:通过输出层生成可能的回应文本,选择最佳回应。 5.评估与优化:评估生成的回应是否满足用户需求,否则通过迭代优化生成更好的回应。 6.输出:将最终选定的回应文本发送给用户。 其中,上下文理解是GPT-4强大自然语言处理能力的核心所在,主要得益于它在预训练所用的海量参数规模和数据量产生的涌现(Emergence)现象,通过量变产生质变,以及在微调阶段引入的基于人类反馈的强化学习(RLHF)技术。 InstructGPT模型(GPT-3.5实验版本)最先引入RLHF,由GPT-4继续沿用,目标是通过人类反馈来改善强化学习模型的性能,分为以下三个阶段:首先,人类标注员(labeler)从指示库(promptdatabase)中采样作答,通过有监督学习微调模型;之后,标注员向模型发出指示(prompt),对模型生成的回答根据偏好程度进行排序,用来训练奖励模型 (rewardmodel);最后,奖励模型从指示库中采样,运用近端策略优化(PPO)再次微调模型,即在已有模型基础上继续进行更新,同时使用截断函数限制每次更新的改变量大小,保证强化学习的稳定性,得到最终的InstructGPT模型。 Ouyangetal(2022)发现:“尽管参数少了100倍,但1.3B参数的InstructG