金融工程专题 证券分析师肖承志 投资要点: 资格编号:S0120521080003 邮箱:xiaocz@tebon.com.cn 证券研究报告|金融工程专题 文献精译 训练语言模型以遵循带有人类反馈的指令 ——德邦金工文献精译第八期 2022年03月16日 研究助理 相关研究 1.《股价是否充分反映了业绩中应计和现金流部分所蕴含的未来盈利信息?——德邦金工文献精译第七期》2022.07.13 2《.资产配置:管理风格和绩效衡量— —德邦金工文献精译第六期》 2022.07.11 这篇报告介绍了ChatGPT语言模型使用的技术。论文标题是《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,于2022年3月4日预发布于ArXiv,论文介绍了OpenAI的InstructGPT模型。ChatGPT模型并未公开发表 姓名 资格编号:S11305XXXXXX 邮箱:xxxxx@tebon.com.cn 具体实现方式,但ChatGPT模型是基于InstructGPT模型进化而来的版本,它们同属于OpenAI的GPT3.5系列模型。 构建InstructGPT模型需要一个预训练模型、一个“提示”集合以及若干标注员:1)InstructGPT模型是基于OpenAI先前发布的GPT-3系列模型基础上一系列微调改进的模型;2)“提示”集合是部分用户请求OpenAIAPI生成的以及标注员 生成的数据集合,这部分数据使得模型更好的读懂用户的意图;3)40个数据标注员对该论文模型的输出进行人类反馈,得到了强化学习训练所需要的奖励模型。 3《. 规模很重要,如果控制了绩差股— 训练InstructGPT模型的步骤如下:1)收集演示数据,训练监督策略。使用标注 —德邦金工文献精译第五期》 2022.05.28 4.《中国股市的规模和价值因子模型 ——德邦金工文献精译第四期》 2022.04.22 5.《机器学习驱动下的金融对不确定性的吸收和加剧——德邦金工文献精译第三期》2022.02.11 6.《不可知的基本面分析是可行的— —德邦金工文献精译第二期》 2022.01.14 7.《机器学习因子:在线性因子模型中捕获非线性——德邦金工文献精译第一期》2021.09.17 员团队提供的演示数据、使用监督学习方法对预训练GPT-3模型进行微调;2)收集比较数据,训练奖励模型。给定“提示”,让模型产生多个输出,标注人员对其好坏进行排序,训练一个奖励模型来预测人类的偏好;3)使用PPO算法根据奖励模型优化策略。用奖励模型的输出作为标量奖励,使用强化学习PPO算法来进一步微调第一步的监督模型。第二步和第三步可以连续迭代:更新后的策略可以训练出新的奖励模型,转而又优化新的策略。 InstructGPT(最小13亿参数量)的效果显著优于GPT-3(1750亿参数量)。论文结果表明,使用人类反馈进行微调是使语言模型符合人类意图的一个有前途的 方向。InstructGPT模型的泛化能力、真实性、降低不良信息输出方面均有提高。此外,存在一定局限性:1)雇佣的标注员只能代表用户群体的一小部分,存在偏置;2)模型容易被误用,产生令人信服的错误信息、仇恨或辱骂内容等。这样的大型语言模型的部署应该非常小心。 有许多开放性问题需要进一步探索。如在减少模型有偏见或其他有害输出的倾向方面,可用过滤预训练数据等方法;在模型可控性方面,可以将基于人类反馈的强化学习方法与其他可控性方法相结合。此外,对于大型语言模型,如何更好的综合 各群体的价值观、达成广泛共识将是未来最需要解决的问题。 风险提示:数据不完备和滥用风险,信息安全风险,算法伦理风险 请务必阅读正文之后的信息披露和法律声明 内容目录 1.摘要4 2.简介4 3.相关工作7 4.方法与实验细节9 4.1.高级方法9 4.2.数据集10 4.3.任务10 4.4.人工数据收集11 4.5.模型11 4.6.评价13 5.结果14 5.1.API分布上的结果14 5.2.公开NLP数据集合上的结果16 5.3.定性结果19 6.讨论20 6.1.对齐研究的影响20 6.2.在向谁对齐21 6.3.局限性22 6.3.1.方法论22 6.3.2.模型22 6.4.开放性问题23 6.5.更广泛的影响24 7.风险提示24 8.参考文献24 信息披露30 图表目录 图1:人工评估各模型5 图2:构建InstructGPT的三个步骤5 图3:数据集数据类别分布和数据集说明性“提示”9 图4:API分布上的标签器收集的元数据12 图5:模型的偏好结果15 图6:API分布的元数据结果15 图7:模型的对比结果16 图8:TruthfulQA数据集的结果17 图9:比较RealToxicityPrompts上的人工评估和自动评估17 图10:1750亿PPO-ptx模型(1750亿的InstructGPT)与没有附加前缀的1750亿的 GPT-3相比的泛化示例18 图11:1750亿的PPO-ptx模型(1750亿的InstructGPT)中的简单错误19 1.摘要 这篇报告是德邦金工文献精译的第八期,我们介绍ChatGPT语言模型技术。ChatGPT模型并未公开发表具体实现方式,但ChatGPT模型是基于InstructGPT模型进化而来的版本,它们同属于OpenAI的GPT3.5系列模型。 论文的标题是《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,于2022年3月4日预发布于Arxiv,作者是LongOuyang等。该论文展示一种方法,通过对人类反馈进行微调,使InstructGPT语言模型在多项广泛的任务中匹配用户意图。从一组标签标注器的输入指令和通过OpenAIAPI提交的输入指令开始,收集了所需模型行为的标签演示数据集,使用监督学习对GPT-3进行微调。然后,该论文收集了模型排名数据,使用人类反馈的强化学习技术来进一步微调这个监督模型。该论文将得到的模型称为InstructGPT。评估结果显示,13亿个参数InstructGPT模型的输出优于1750亿GPT-3的输出。模型参数量下降的一百多倍。 此外,InstructGPT模型在公开的NLP数据集上提高真实性、减少毒性,比其他模型具有最少的性能衰退。尽管InstructGPT仍然会犯一些简单的错误,但论文结果表明,使用人类反馈进行微调是使语言模型符合人类意图的一个有前途的方向。 2.简介 给定自然语言处理(NLP,NaturalLanguageProcessing)任务的一些示例作为输入,大型语言模型LMs(LargeLanguageModels)可以被“prompt”执行一系列自然语言处理任务。(“prompt”方法:给模型一个任务提示,例如在情感分析任务中,输入“Ilovethismovie.”后,提前给定一个提示“Thismovieisxxx”,预训练模型看到提示后,明白自己要输出“great/nice”等夸赞的形容词) 然而,这些模型经常表达出意想不到的行为,如编造事实、生成有偏见或有害的文本,以及根本不遵循用户指示(Bender等人,2021;Bommasani,2021;Tamkin等人,2021;Gehman等人,2020)。这是因为最近许多的大型语言模型中语言建模的目标——在互联网上预测网页的下一个分词——与“有效和安全地遵循用户的指示”的目标不同(Radford等人,2019;布朗等人,2020;Fedus等人,2021;Rae等人,2021;Thoppilan等人,2022)。语言建模目标是不一致的,避免这些意外对于要在数以百计的应用中部署使用的语言模型来说尤其重要。 按照用户的意图去训练语言模型,该论文在对齐语言模型方面取得了进展 (Leike等人,2018)。这既包括明确的意图,如遵循指示;也包括隐含的意图,如保持诚实、无偏和无害。用Askell等人(2021)的话说,该论文希望语言模型是有帮助的(它们应该帮助用户解决他们的任务)、诚实的(它们不应该编造信息或误导用户)、无害的(它们不应该对人或环境造成身体、心理或社会上的伤害)。该论文在第4.6节详细说明这些评估标准。 图1:人工评估各模型 资料来源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,德邦研究所 注:在该论文的API提示分布上对各种模型的人工评估,根据每个模型的输出优于175BSFT模型的输出的频率进行评估。该论文的InstructGPT模型(PPO-ptx)及其未经预训练混合训练的变体(PPO)显着优于GPT-3基准(GPT和GPTprompted);13亿参数量的PPO-ptx模型优于1750亿参数量的GPT-3。论文误差条为95%置信区间。 该论文重点是调整语言模型的微调方法。具体来说,该论文使用基于人类反馈的强化学习方法(RLHF,ReinforcementLearningfromHumanFeedback)对GPT-3进行微调(Christiano等人,2017;Stiennon等人,2020),以遵循广泛的书面指令,如图2。RLHF技术将人类偏好作为奖励信号来微调论文模型。 图2:构建InstructGPT的三个步骤 资料来源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,德邦研究所 注:说明构建InstructGPT方法的三个步骤:(1)监督微调(supervisedfine-tuning,以下简称SFT),(2)奖励模型(RM)训练,(3)在该奖励模型上使用强化学习近端策略优化算法(PPO,proximalpolicyoptimization)。蓝色箭头表示该数据用于训练该论文模型其中一个模型。在第2步中,框A-D是模型输出样本由标注员人工排名。有关该方法的更多细节,请参阅第3节。 该论文团队雇佣了一个由40人的承包商团队,根据他们在筛选测试中的表现来标记论文数据(详情见3.4)。然后,收集用户提交给OpenAIAPI的提示(主要是英语)和标注员编写的提示的集合,并使用它来训练监督学习基线。接下来,在更大的API提示集上收集来自模型的输出之间的人工标记比较数据集。然后,在这个数据集上训练一个奖励模型(RM,RewardModel)来预测标注员更喜欢哪个模型输出。最后,该论文使用这个RM作为奖励函数,并对监督学习基线模型进行微调,用PPO算法(Schulman等人,2017)来最大化这个奖励。该程序将GPT-3的行为变得与特定人群(主要是该论文标注员和研究人员)的偏好更贴合,而不是任何更广泛的“人类价值观”概念,将在6.2节中进一步讨论。最终的模型被称为InstructGPT。 该论文评估模型的方式主要是让标注员对测试集上的模型输出质量打分,包括来自固定用户的提示(他们的数据没有在训练数据中)。该论文还对一系列公开NLP数据集进行自动评估。该论文训练了三个规模(13亿,60亿和1750亿个参数)的模型,并且所有的模型都使用GPT-3架构。主要发现如下: 与GPT-3的输出相比,标注员明显更喜欢InstructGPT输出。测试集中,来自13亿参数InstructGPT模型的输出比来自1750亿GPT-3的输出更好,尽管它的参数少了100多倍。这些模型具有相同的体系结构,唯一的不同之处在于 InstructGPT对人工数据进行了微调。即使该论文在GPT-3中添加少样本提示,以使其更好地遵循指令,模型表现仍不如InstructGPT。该论文的1750亿InstructGPT输出在85±3%的情况下,优于1750亿GPT-3输出,在71±4%的情况下优于少样本学习的1750亿GPT-3输出。Inst