您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:“安卓版”大模型助推,算力和应用的黄金时代 - 发现报告
当前位置:首页/行业研究/报告详情/

“安卓版”大模型助推,算力和应用的黄金时代

信息技术2023-08-13缪欣君天风证券刘***
AI智能总结
查看更多
“安卓版”大模型助推,算力和应用的黄金时代

计算机 证券研究报告 2023年08月13日 投资评级 “安卓版”大模型助推,算力和应用的黄金时代 开源生态与技术的发展不断降低大模型强化学习的数据与工程门槛 人类反馈的强化学习(RLHF)是ChatGPT类模型的重要步骤,随着开源生态的发展,这一步骤的门槛逐渐降低。4月12日,微软开源了基于此优化库的DeepSpeedChat,此优化库拥有强化推理、RLHF模块、RLHF系统三大核心功能,使得RLHF的训练大幅加快(比现有系统快15倍)、成本降低且易于大规模推广(仅单GPU就可支持超130亿参数的模型);Self-instruct 行业评级强于大市(维持评级) 上次评级强于大市 作者缪欣君分析师 SAC执业证书编号:S1110517080003 miaoxinjun@tfzq.com 刘鉴联系人 liujianb@tfzq.com 方法通过低成本生成指令微调数据集,可以解决大语言模型人工标注成本高 的问题,同时效果较为显著,包括Alpaca等开源模型已经使用self-instruct 方法通过openAIAPI获取模型微调数据集。 行业走势图 计算机沪深300 开源模型生态方兴未艾,性能优异且参数量较小的大模型不断涌现,企业拥有自己的大模型指日可待 以LLaMA系列和Dolly2.0为代表的开源模型体系降低了打造大模型的门槛。Databricks开源了可用于商用的大语言模型Dolly2.0,同时开源了人工产生指令微调的数据集,象征着大模型开源生态的进一步演进。LLaMA系列是Meta在2023年发布并逐步开源的大语言模型,此模型经过较大的数据集训练,LLaMA1在模型参数70亿-650亿的范围内表现出了较为优越的性能, 39% 31% 23% 15% 7% -1% -9% -17% 2022-082022-122023-04 资料来源:聚源数据 运行成本相对较低,近期基于LLaMA打造的开源模型族不断涌现,Alpaca 和Vicuna等模型在LLaMA+微调后表现出了接近chatGPT的性能,且训练成本低廉;新推出的LLaMA2模型相较于一代在性能、安全性上进一步提升,且Meta开放了权限使其可用于商用。 我们看好开源生态对国内大模型产业的促进作用,开源基础模型+强化学习 +行业垂直数据打造大模型或将成为重要手段,加速应用层与算力层的爆发 随着高性能的开源大模型与强化学习工具不断公开,我们认为基于开源模型打造行业应用的方式有望成为众多企业的选择,终端企业尤其是2B的企业在部署大模型时需要解决成本、安全和内容可信三大问题,需要在L0大模型基础上叠加企业自身优质数据的能力,基于开源模型打造行业垂直模型可以较好的满足这些需求;此外随着模型应用层生态的繁荣,我们同样看好算力层的爆发,企业在训练端与推理端的算力需求热潮有望持续。 风险提示:开源生态与开源技术发展速度不及预期、垂直行业大模型打造速度不及预期、终端应用场景拓展速度不及预期 相关报告 1《计算机-行业点评:操作系统政府采购标准发布,信创投资进入2.0阶段》2023-08-07 2《计算机-行业专题研究:新一代证券IT核心方向:分布式+信创》2023-08-06 3《计算机-行业点评:产业见闻系列二:信创,还在发生哪些新变化?》2023-08-05 请务必阅读正文之后的信息披露和免责申明1 内容目录 1.新训练框架与训练数据获取手段不断涌现,开源生态助力RLHF训练门槛降低3 1.1.人类反馈的强化学习(RLHF)是ChatGPT类模型的重要步骤3 1.2.Deepspeed-Chat开源,RLHF训练工程难度迅速降低4 1.3.Self-Instruct方法大幅降低指令微调数据集的成本5 2.开源模型生态蓬勃发展,未来有望对抗闭源模型生态6 2.1.Dolly2.0:真正开放且可商用的大语言模型6 2.2.LLaMA及相关微调模型性能出众,Self-instruct等技术加速模型6 2.2.1.LLaMA在开源L0级模型中性能优越且运行成本低6 2.2.2.基于LLaMA构建的模型不断涌现,性能不俗8 2.3.LLaMA2模型问世,性能提升且可用于商用,进一步加快“安卓”时刻到来9 3.大模型应用百花齐放局面或将加速到来,应用层与算力层爆发有望超预期11 4.投资建议12 5.风险提示12 图表目录 图1:InstructGPT论文中基于人类反馈的强化学习的步骤3 图2:DeepspeedChat为RLHF的训练降低了门槛和成本4 图3:Self-instruct框架的数据集生成过程5 图4:Self-instruct方法产生的数据集在微调时产生了较好的效果6 图5:训练损失随着tokens增大后持续下降7 图6:预训练数据集的来源7 图7:LLaMA在NaturalQuestions测试集表现优异,表明了其较强的基础问题解决能力7 图8:LLaMA在阅读理解上表现优异,得分超过GPT-3,接近PaLM540B版7 图9:LLaMA在常识推理任务下的0-shot表现优异8 图10:LLaMA在MassiveMultitaskLanguageUnderstanding(MMLU)上表现优异,130亿参数版本性能超过GPT-38 图11:LLaMA2与LLaMA1对比,参数规模有所提升,训练Tokens提升超过40%9 图12:LLaMA2-Chat由LLaMA2微调得到,模型训练过程采用了SFT和RLHF9 图13:LLaMA2-Chat模型与主流闭源大模型安全性对比,LLaMA2-Chat70亿、130亿、 700亿参数模型安全性均高于ChatGPT-3.5-030110 图14:LLaMA2总体性能力压主流开源大模型10 图15:LLaMA2与主流闭源大模型性能对比,多项能力接近GPT-3.510 图16:LLaMA2与其他闭源开源大模型对比,70亿参数模型胜率高于GPT-3.5-030111 图17:LLaMA270亿参数模型有用性、安全性胜率均高于ChatGPT-3.5-030111 图18:华为在人工智能大模型高峰论坛上提出L0-L1-L2的大模型分级体系12 表1:基于LLaMA构建的部分大语言模型情况一览8 1.新训练框架与训练数据获取手段不断涌现,开源生态助力 RLHF训练门槛降低 1.1.人类反馈的强化学习(RLHF)是ChatGPT类模型的重要步骤 带有人类反馈的强化学习(RLHF)是一种训练大型语言模型(LLM)的新技术,对OpenAI的ChatGPT模型、DeepMind的Sparrow、Anthropic的Claude等都至关重要。一味地让语言模型变大并不意味着它们能更好地遵循用户的意图,大语言模型可能会产生虚假有害的,或是对用户毫无帮助的输出。作为一种有效的对齐技术,RLHF能够一定程度上帮助减轻大型语言模型(LLM)产生的有害内容并提高信息完整性。 作为ChatGPT的姊妹模型,InstructGPT的核心技术和ChatGPT有很多相通之处,而InstructGPT的核心技术就包含基于人类反馈的强化学习(RLHF),以此使得模型模仿人类的偏好,减少模型可能会产生虚假有害的,或是对用户毫无帮助的输出的概率。 RLHF是强化学习(RL)的一个扩展,它将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程,其步骤可以分为三个部分: (1)根据采集的SFT数据集对GPT-3进行有监督的微调(SupervisedFineTune,SFT);微调数据一部分来自使用OpenAI的PlayGround的用户,另一部分来自OpenAI雇佣的40名标注工(labeler),数据集编写的提示要满足一些特点。InstructGPT在这一步使用了约 1.3万条训练数据和1653条测试数据 (2)收集人工标注的对比数据,训练奖励模型(RewordModel,RM),InstructGPT/ChatGPT的做法是先让模型生成一批候选文本,让后通过labeler根据生成数据的质量对这些生成内容进行排序,这一步使用了约3.3万条训练数据和1.8万条测试数据 (3)使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型。InstructGPT的PPO数据没有进行标注,均来自GPT-3的API的用户,占比最高的包括生成任务(45.6%),QA(12.4%),头脑风暴(11.2%),对话(8.4%)等,这一部分使用了约3.1万条训练数 据和1.6万条测试数据。 图1:InstructGPT论文中基于人类反馈的强化学习的步骤 资料来源:数据派THU公众号,天风证券研究所 1.2.Deepspeed-Chat开源,RLHF训练工程难度迅速降低 根据微软DeepSpeed开源项目组和开源社,ChatGPT模型的训练是基于InstructGPT论文中的RLHF方式,这与常见的大语言模型的预训练和微调截然不同,这使得现有深度学习系统在训练类ChatGPT模型时存在种种局限。而目前行业内缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类ChatGPT模型十分困难。 微软开源的DeepSpeed-Chat正是为了使RLHF的训练更加普及,DeepSpeed-Chat具有以下三大核心功能: (1)简化ChatGPT类型模型的训练和强化推理体验:只需一个脚本即可实现多个训练步骤,包括使用Huggingface预训练的模型、使用DeepSpeed-RLHF系统运行InstructGPT训练的所有三个步骤、甚至生成你自己的类ChatGPT模型等。此外还提供了一个易于使用的推理API,用于用户在模型训练后测试对话式交互。 (2)DeepSpeed-RLHF模块:复刻了InstructGPT论文中的训练模式,并确保包括a)监督微调(SFT),b)奖励模型微调和c)基于人类反馈的强化学习(RLHF)在内的三个步骤与其相对应。此外,还提供了数据抽象和混合功能,以支持用户使用多个不同来源的数据源进行训练 (3)DeepSpeed-RLHF系统:将DeepSpeed的训练(trainingengine)和推理能力(inferenceengine)整合到一个统一的混合引擎(DeepSpeed-HE)中用于RLHF训练。DeepSpeed-HE能够在RLHF中无缝地在推理和训练模式之间切换,使其能够利用来自DeepSpeed-Inference的各种优化,如张量并行计算和高性能CUDA算子进行语言生成,同时对训练部分还能从ZeRO-和LoRA-based内存优化策略中受益。DeepSpeed-HE还能够自动在RLHF的不同阶段进行智能的内存管理和数据缓存。 图2:DeepspeedChat为RLHF的训练降低了门槛和成本 资料来源:CSDN公众号,天风证券研究所 DeepSpeed-RLHF系统在大规模训练中具有无与伦比的效率,使复杂的RLHF训练变得快速、经济并且易于大规模推广,主要的提升包括以下两点。 (1)训练高效且成本下降 DeepSpeed-HE比现有系统快15倍以上,使RLHF训练快速且经济实惠; (2)卓越的扩展性 DeepSpeed-HE能够支持训练拥有数千亿参数的模型,并在多节点多GPU系统上展现出卓越的扩展性。训练一个130亿参数的模型只需1.25小时。 1.3.Self-Instruct方法大幅降低指令微调数据集的成本 指令微调被证实能够提升对于新任务的zero-shot能力,但这依赖于人工产生的指令数据。对大规模指令数据进行注释是具有挑战性的工作,因为它需要1)提出新颖任务的创造力和2)为每个任务编写标记实例的专业知识。 2022年12月,华盛顿大学等机构近期联合发表了一篇论文《SELF-INSTRUCT:AligningLanguageModelwithSelfGeneratedInstructions》,提出SELF-INSTRUCT这一框架,可以通过