AI智能总结
第一部分 贡献者:Annmalai ChockalingamAnkur Patel Shashank Verma Tiffany Yeung 目录 序言.......................................................................................................................................................3 术语表......................................................................................................................................................5 大型语言模型(LLMs)简介..................................................................................................................................8 什么是大型语言模型(LLMs)?..........................................................................................8 基础语言模型与微调语言模型 ......................................................11 大型语言模型的演变 .................................................................................................11 神经网络.............................................................................................................................12 Transformer ..................................................................................................................................14 企业如何从使用大型语言模型中受益.........................................................20 大型语言模型的挑战 ...............................................................................................21 构建LLMs的方法.............................................................................................................................21 如何评估LLMs........................................................................................................................22 LLM领域的知名公司..................................................................................................23 由初创公司开发的流行LLM应用................................................................................................23 序言 语言数千年来一直是人类社会的重要组成部分。 长期盛行的理论,喉部下降理论或LDT,认为语音以及语言可能在大约20万或30万年前演化,而最新的研究表明,这可能已经发生。甚至更早. 无论其首次出现的时间如何,语言始终是人类交流的基石。在当今这个数字时代,语言的作用更加重要,因为前所未有的庞大人口群体可以通过文本和语音在全球范围内进行交流。 这由以下事实所证实:347.3亿电子邮件信息每天都有全球范围内的发送和接收,并且有50亿人——或者说超过全世界总人口的63%——进行发送和接收。短信. 语言因此成为了一个巨大的信息宝库,可以帮助企业提取有价值的见解,识别趋势,并作出明智的决策。例如,企业可以分析如客户评价等文本,以识别其产品的热销特征,并对其未来产品开发进行微调。 同样,语言产出——与语言使用相对——分析– 也正日益成为企业的重要工具。例如,撰写博客文章可以帮助企业将品牌知名度提升至前所未有的高度,而撰写电子邮件则能以无与伦比的速度帮助企业吸引新的利益相关者或合作伙伴。 然而,语言分析和生产都是耗时的工作流程,可能会使员工和决策者从更重要的事务中分心。例如,领导者通常需要筛选大量文本以便做出明智的决策,而不是基于提取的关键信息做出决策。 企业可以通过采用以下方法来最小化这些问题以及其他问题,例如人为错误的风险:大型语言模型(LLMs)对于与语言相关的任务,大型语言模型可以帮助企业加速并大大提高效率。自动化他们与语言生产和分析相关的努力,节省了宝贵的时间和资源,同时提高了准确性和效率。 与先前基于规则的系统等解决方案不同,LLMs(大型语言模型)具有极大的通用性,可以轻松适应各种与语言相关的任务,如生成内容或总结法律文件。 本书的目的是帮助企业理解与先前解决方案相比,大型语言模型(LLMs)为何具有革命性,以及他们如何通过采用或开发这些模型来获益。同时,本书还旨在帮助企业通过概述LLM开发、培训和部署的最关键步骤,以获得先发优势。 为实现这些目标,本书分为三个部分: 第一部分定义了大型语言模型(LLMs),并概述了多年来推动其成为可能的技术和方法论上的进步。它还探讨了更实用的主题,例如企业如何开发自己的LLMs以及LLM领域中最引人注目的公司。这应有助于企业理解采用LLMs如何解锁尖端可能性并彻底改变他们的运营。 >第二部分探讨企业内部大型语言模型(LLMs)的五个主要应用案例,包括内容生成、摘要和聊天机器人支持。每个案例都通过实际应用和案例研究进行例证,以展示LLMs如何解决实际问题并帮助企业实现特定目标。 >第三部分这是一本针对希望构建、培训和部署自己LLMs的企业实用的指南。它概述了必要的先决条件和采用不同开发和部署方法可能出现的权衡。ML工程师和数据科学家可以在他们的LLM开发过程中将其用作参考。 希望这能激励那些尚未采用或开发自己LLMs的企业尽快这样做,以获得竞争优势并提供新的SOTA服务或产品。通常,最大利益将保留给早期采用者或真正有远见的创新者。 术语表 引言:大型语言模型(LLMs) 大型语言模型是一种人工智能(AI)系统,能够根据从大量数据中学习到的模式和关系生成类似于人类的文本。大型语言模型 使用一种称为深度学习的机器学习技术来分析和处理大量数据,例如书籍、文章和网页。 大型语言模型在自然语言处理(NLP)和人工智能(AI)领域解锁了许多前所未有的可能性。这一点在2020年OpenAI发布的GPT-3中表现得尤为明显,它是当时开发出的最大的语言模型。 这些模型旨在理解文本的上下文和意义,并能够生成语法正确且语义相关的文本。它们可以在包括语言翻译、摘要、问答和文本补全在内的广泛任务上进行训练。 GPT-3 表明大型模型可以精确地执行广泛且先前未曾听闻的各种自然语言处理任务,从文本摘要到文本生成。它还显示,大型语言模型可以生成与人类创作的文本几乎无法区分的输出,同时它们在最小的人类干预下自行学习。 这从早期的、主要基于规则的模型中产生了巨大的改进,这些模型既不能自主学习,也不能成功解决未接受过训练的任务。因此,许多其他企业和初创公司很快开始开发自己的大型语言模型(LLMs)或采用现有的LLMs,以加速他们的运营、降低成本和简化工作流程,这并不令人惊讶。 第一部分旨在为任何考虑构建或采用自己LLM的企业提供一个稳固的介绍和基础。 什么是大型语言模型(LLMs)? 大型语言模型(LLMs)是深度学习算法,能够在对非常大规模的数据集进行训练期间,根据获取的知识识别、提取、总结、预测和生成文本。 他们也是更一般性技术语言模型的一个子集。所有语言模型都有一个共同点:它们可以处理和生成听起来像自然语言文本。这被称为执行与以下相关的任务:自然语言处理(NLP). 尽管所有语言模型都能够执行自然语言处理任务,但它们在其他特性上有所区别,例如它们的大小。与其他模型不同,大型语言模型(LLM)被认为是大型由于两个原因而规模扩大: 1. 他们的训练是使用大量数据进行。 它们包含大量的可学习参数(即,训练数据潜在结构的表示,有助于模型在新或从未见过的数据上执行任务)。 表1展示了两个大型语言模型,MT-NLG和GPT-3 Davinci,以帮助阐明什么是被认为大型按照当代标准。 模型的质量高度依赖于模型大小和训练数据的大小,因此,较大的语言模型通常比它们的小型对应物产生更准确和复杂化的响应。 然而,大型语言模型的性能并不仅仅取决于模型大小或数据量。数据质量也同样重要。 例如,在同行评审的研究论文或已发表的小说上训练的LLM通常比在社交媒体帖子、博客评论或其他未经审查的内容上训练的LLM表现更好。低质量数据,如用户生成的内容,可能导致各种问题,例如模型学习到俚语、学习到单词的错误拼写等。 此外,模型为了执行各种自然语言处理任务,需要非常多样化的数据。然而,如果模型旨在特别擅长解决特定的一系列任务,那么微调通过使用更加相关和范围更窄的数据集,这样做可以将基础语言模型从擅长在广泛领域执行多种自然语言处理(NLP)任务的模型,转变为专门在狭窄范围内执行任务的微调模型。 基础语言模型与微调语言模型对比 基础语言模型例如,上述提到的MT-NLG和GPT-3,通常在讨论大型语言模型(LLMs)时被提及。它们是在大量数据上进行训练的,可以执行广泛的自然语言处理(NLP)任务,从回答问题、生成图书摘要到完成句子和翻译句子。 由于它们的规模,基础模型甚至在拥有很少特定领域数据时也能表现出色。它们在各项任务上均有良好的通用性能,但可能并不擅长执行任何特定的一项任务。 精细调整的语言模型,另一方面,是从基础LLM派生的大语言模型。它们针对特定的用例或领域进行了定制,因此,在执行更专业化的任务方面变得更好。 除了精细调整的模型在执行特定任务方面优于基础模型之外,它们最大的优势在于它们更轻量且通常更容易训练。但是,如何真正地对基础模型进行微调以实现特定目标呢? 当前,最流行的做法是使用参数高效的定制技术对模型进行定制,例如 p-tuning、prompt tuning、adapters 等等。与微调整个模型相比,定制方法耗费的时间和成本远远更低,尽管其性能可能略低于其他方法。定制方法将在以下内容中进行进一步讨论。第三部分。 大型语言模型的发展 AI系统传统上关于数据处理和分析,而非生成数据。它们更倾向于感知和理解我们所处的世界,而不是生成新的信息。这种区别标志着AI系统之间主要的差异在于敏锐的并且生成式人工智能自大约2020年开始,或在公司开始采用Transformer模型并大规模开发越来越强大的LLMs之后,后者变得越来越普遍。 大型语言模型的诞生进一步推动了自然语言