《大型语言模型入门指南》 第一部分 贡献者: AnnmalaiChockalingamAnkurPatelShashankVermaTiffanyYeung 目录 序言 3术语表 5大型语言模型(LLMs)简介 8什么是大型语言模型(LLMs)? 8基础语言模型与微调语言模型 11大型语言模型的演变 11神经网络1 2Transformer 14企业如何从使用大型语言模型中受益20大型语言 模型的挑战21构建LLMs的方法 21如何评估LL Ms22LLM领域的 知名公司23由初创公司开发的 流行LLM应用23 序言 语言数千年来一直是人类社会的重要组成部分。 长期盛行的理论,喉部下降理论或LDT,认为语音以及语言可能在大约20万或30万年前演化,而最新的研究表明,这可能已经发生。甚至更早 无论其首次出现的时间如何,语言始终是人类交流的基石。在当今这个数字时代,语言的作用更加重要,因为前所未有的庞大人口群体可以通过文本和语音在全球范围内进行交流。 这由以下事实所证实:3473亿电子邮件信息每天都有全球范围内的发送和接收,并且有50亿人或者说超过全世界总人口的63进行发送和接收。 短信 语言因此成为了一个巨大的信息宝库,可以帮助企业提取有价值的见解,识别趋势,并作出明智的决策。例如,企业可以分析如客户评价等文本,以识别其产品的热销特征,并对其未来产品开发进行微调。 同样,语言产出与语言使用相对分析也正日益成为企业的重要工具。例如,撰写博客文章可以帮助企业将品牌知名度提升至前所未有的高度,而撰写电子邮件则能以无与伦比的速度帮助企业吸引新的利益相关者或合作伙伴。 然而,语言分析和生产都是耗时的工作流程,可能会使员工和决策者从更重要的事务中分心 。例如,领导者通常需要筛选大量文本以便做出明智的决策,而不是基于提取的关键信息做出决策。 企业可以通过采用以下方法来最小化这些问题以及其他问题,例如人为错误的风险: 大型语言模型(LLMs)对于与语言相关的任务,大型语言模型可以帮助企业加速并大大提高效率。自动化他们与语言生产和分析相关的努力,节省了宝贵的时间和资源,同时提高了准确性和效率。 与先前基于规则的系统等解决方案不同,LLMs(大型语言模型)具有极大的通用性,可以轻松适应各种与语言相关的任务,如生成内容或总结法律文件。 本书的目的是帮助企业理解与先前解决方案相比,大型语言模型(LLMs)为何具有革命性 ,以及他们如何通过采用或开发这些模型来获益。同时,本书还旨在帮助企业通过概述LLM开发、培训和部署的最关键步骤,以获得先发优势。 为实现这些目标,本书分为三个部分: 第一部分定义了大型语言模型(LLMs),并概述了多年来推动其成为可能的技术和方法论上的进步。它还探讨了更实用的主题,例如企业如何开发自己的LLMs以及LLM领域中最引人注目的公司。这应有助于企业理解采用LLMs如何解锁尖端可能性并彻底改变他们的运营。 第二部分探讨企业内部大型语言模型(LLMs)的五个主要应用案例,包括内容生成、摘要和聊天机器人支持。每个案例都通过实际应用和案例研究进行例证,以展示LLMs如何解决实际问题并帮助企业实现特定目标。 第三部分这是一本针对希望构建、培训和部署自己LLMs的企业实用的指南。它概述了必要的先决条件和采用不同开发和部署方法可能出现的权衡。ML工程师和数据科学家可以在他们的LLM开发过程中将其用作参考。 希望这能激励那些尚未采用或开发自己LLMs的企业尽快这样做,以获得竞争优势并提供新的SOTA服务或产品。通常,最大利益将保留给早期采用者或真正有远见的创新者。 术语表 术语描述 深度学习系统系统依赖于具有许多隐藏层的神经网络学习复杂模式。 生成式人工智能AI程序可以生成新的内容,如文本、图像、并且音频,而不仅仅是分析它。 大型语言模型(LLMs)语言模型能够识别、总结、翻译、预测、生成文本和其他内容。它们被称为大型 因为它们是在大量数据上训练出来的并且有许多参数,其中流行的LLMs达到数百 数十亿个参数。 自然语言处理(NLP)计算机程序理解并生成的能力文本以自然语言呈现。 长短期记忆神经网络(LSTM)一种具有更复杂细胞块的特定类型循环神经网络(RNNs),允许 它以保留更多过往输入。 自然语言生成(NLG)NLP的一部分,指的是计算机程序具有的能力生成类似人类的文本。 自然语言理解(NLU)NLP的一部分,指的是计算机程序具有的能力理解类似人类的文本。 神经网络(NN)一种机器学习算法,其参数是 组织成连续层。神经网络的学习过程是 受人类大脑启发。与人类类似,神经网络“学习”通过表征学习实现的重要功能,且需要更少的人类参与度高于大多数其他机器方法的参与度。学习 感知人工智能AI程序能够处理和分析数据,但不能生成数据。主要在2020年之前开发。 循环神经网络(RNN)神经网络能够按顺序处理数据并记住过去的输入。 术语描述 基于规则的系统一个依赖于人工制定的规则来处理数据系统。 传统机器学习传统机器学习采用统计方法,通过以下方式绘制:基于词语或其他标记的概率分布 大型标注语料库。它较少依赖规则,而更多依赖数据。 变压器一种设计的神经网络架构,用于处理 非连续序列数据。 结构化数据数据具有量化性质,例如电话号码,以及可以轻松标准化并调整到预定义的格式机器学习算法可以快速处理。 非结构化数据数据具有定性性质,例如客户评价,以及难以标准化。此类数据以原生格式存储,如PDF文件,使用前。 微调一种用于提高模型性能的迁移学习方法 在选定下游任务或数据集上使用。当目标任务与预训练任务相似,涉及复制 PLM权重的确定及其在所需任务或数据上的调整。 定制一种通过仅修改来提高模型性能的方法 一个或几个PLM选定的参数,而不是更新整个模型。它涉及使用参数高效 技术(PEFT)。 参数高效技术(PEFT)技术如即时学习、LoRa和适配器调整 这使得研究人员能够为下游应用定制PLM。任务或数据集,同时保留和利用现有的 关于PLM的知识。这些技术在模型中使用。定制化以及允许更快培训和通常更多 精确的预测。 即时学习一个包括两种PEFT技术的总称,prompttuning和ptuning,通过插入虚拟令牌来帮助定制模型 在离散或实数值标记嵌入之间的嵌入。 适配器调整一种涉及添加轻量级前馈的网络增强PEFT技术层,称为适配器,位于现有的PLM层之间 仅在对齐过程中更新它们的权重,同时保持原PLM权重冻结。 开放领域问答回答来自不同领域的各种问题,如: 法律、医学和金融领域,而非仅限于一个领域。 提取式问答通过从现有内容中提取答案来回答问题文本或数据库。 术语描述 吞吐量一个衡量模型效率和速度的度量。它指的是模型可以处理的数据量或预测数量 在预定义的时间范围内处理或生成。 延迟模型处理输入所需的时间 生成输出。 数据准备数据用于训练的适用性,基于以下因素:数据量、结构和质量。 引言:大型语言模型(LLMs) 大型语言模型是一种人工智能(AI)系统,能够根据从大量数据中学习到的模式和关系生成类似于人类的文本。大型语言模型 使用一种称为深度学习的机器学习技术来分析和处理大量数据,例如书籍、文章和网页。 大型语言模型在自然语言处理(NLP)和人工智能(AI)领域解锁了许多前所未有的可能性。这一点在2020年OpenAI发布的GPT3中表现得尤为明显,它是当时开发出的最大的语言模型 。 这些模型旨在理解文本的上下文和意义,并能够生成语法正确且语义相关的文本。它们可以在包括语言翻译、摘要、问答和文本补全在内的广泛任务上进行训练。 GPT3表明大型模型可以精确地执行广泛且先前未曾听闻的各种自然语言处理任务,从文本摘要到文本生成。它还显示,大型语言模型可以生成与人类创作的文本几乎无法区分的输出,同时它们在最小的人类干预下自行学习。 这从早期的、主要基于规则的模型中产生了巨大的改进,这些模型既不能自主学习,也不能成功解决未接受过训练的任务。因此,许多其他企业和初创公司很快开开发自己的大型语言模型(LLMs)或采用现有的LLMs,以加速他们的运营、降低成本和简化工作流程,这并不令人惊讶。 第一部分旨在为任何考虑构建或采用自己LLM的企业提供一个稳固的介绍和基础。 什么是大型语言模型(LLMs)? 大型语言模型(LLMs)是深度学习算法,能够在对非常大规模的数据集进行训练期间,根据获取的知识识别、提取、总结、预测和生成文本。 他们也是更一般性技术语言模型的一个子集。所有语言模型都有一个共同点:它们可以处理和生成听起来像自然语言文本。这被称为执行与以下相关的任务:自然语言处理(NLP) 尽管所有语言模型都能够执行自然语言处理任务,但它们在其他特性上有所区别,例如它们的大小。与其他模型不同,大型语言模型(LLM)被认为是大型由于两个原因而规模扩大 : 1他们的训练是使用大量数据进行。 它们包含大量的可学习参数(即,训练数据潜在结构的表示,有助于模型在新或从未见过的数据上执行任务)。 表1展示了两个大型语言模型,MTNLG和GPT3Davinci,以帮助阐明什么是被认为大型按照当代标准。 表1比较MTNLG和GPT3 大型语言模型 数量参数 token数量在训练数据 NVIDIA模型:梅格顿图灵自然语言生成模型(MTNLG) 530亿 2700亿 OpenAIModelGPT3达芬奇模型 一千七百五十亿 49900000000 模型的质量高度依赖于模型大小和训练数据的大小,因此,较大的语言模型通常比它们的小型对应物产生更准确和复杂化的响应。 图1生成的答案由GPT3生成。 然而,大型语言模型的性能并不仅仅取决于模型大小或数据量。数据质量也同样重要。 例如,在同行评审的研究论文或已发表的小说上训练的LLM通常比在社交媒体帖子、博客评论或其他未经审查的内容上训练的LLM表现更好。低质量数据,如用户生成的内容,可能导致各种问题,例如模型学习到俚语、学习到单词的错误拼写等。 此外,模型为了执行各种自然语言处理任务,需要非常多样化的数据。然而,如果模型旨在特别擅长解决特定的一系列任务,那么微调通过使用更加相关和范围更窄的数据集,这样做可以将基础语言模型从擅长在广泛领域执行多种自然语言处理(NLP)任务的模型,转变为专门在狭窄范围内执行任务的微调模型。 《大型语言模型入门指南》10 本报告来源于三个皮匠报告站(wwwsgpjbgcom),由用户Id879887下载,文档Id620744,下载日期20250 基础语言模型与微调语言模型对比 基础语言模型例如,上述提到的MTNLG和GPT3,通常在讨论大型语言模型(LLMs)时被提及。它们是在大量数据上进行训练的,可以执行广泛的自然语言处理(NLP)任务,从回答问题、生成图书摘要到完成句子和翻译句子。 由于它们的规模,基础模型甚至在拥有很少特定领域数据时也能表现出色。它们在各项任务上均有良好的通用性能,但可能并不擅长执行任何特定的一项任务。 精细调整的语言模型,另一方面,是从基础LLM派生的大语言模型。它们针对特定的用例或领域进行了定制,因此,在执行更专业化的任务方面变得更好。 除了精细调整的模型在执行特定任务方面优于基础模型之外,它们最大的优势在于它们更轻量且通常更容易训练。但是,如何真正地对基础模型进行微调以实现特定目标呢? 当前,最流行的做法是使用参数高效的定制技术对模型进行定制,例如ptuning、prompttuning、adapters等等。与微调整个模型相比,定制方法耗费的时间和成本远远更低,尽管其性能可能略低于其他方法。定制方法将在以下内容中进行进一步讨论。第三部分。 大型语言模型的发展 AI系统传统上关于数据处理和分析,而非生成数据。它们更倾向于感知和理解我们所处的世界,而不是生成新的信息。这种区