您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:大型语言模型综述(英) - 发现报告
当前位置:首页/其他报告/报告详情/

大型语言模型综述(英)

2023-06-29-未知机构劫***
大型语言模型综述(英)

大型语言模型综述 赵韦恩·欣、周坤*、李俊毅*、唐天一、王晓磊、侯玉鹏、敏英钱、张北辰、张俊杰、董子、杜一凡、陈阳、陈玉硕、陈志鹏、姜金浩、任瑞阳、李一凡、唐新宇、刘子康、刘培宇、聂建云、温吉荣 Abstract自从1950年代提出图灵测试以来,人类就开始探索机器对语言智能的掌握。语言本质上是一个复杂而复杂的人类表达系统,受语法规则的支配。开发有能力的人工智能(AI)算法来理解和掌握语言提出了重大挑战。在过去的二十年中,语言建模作为一种主要方法已被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上对Trasformer模型进行预训练,提出了预训练语言模型(PLM),显示出解决各种自然语言处理(NLP)任务的强大能力。由于研究人员发现模型缩放可以提高模型容量,因此他们通过将参数缩放增加到更大的尺寸来进一步研究缩放效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显着的性能提高,而且还表现出一些特殊的能力(e。Procedre,上下文学习),在小规模语言模型中不存在(例如Procedre,BERT)。为了区分不同参数范围内的语言模型,研究界为大型PLM创造了大型语言模型(LLM )一词(例如Procedre,包含数百亿或数千亿个参数)。近年来,学术界和工业界对LLM的研究取得了很大的进展,其中一个显著的进展是基于LLM开发的强大AI聊天机器人ChatGPT的推出,引起了社会的广泛关注。LLM的技术发展对整个AI社区产生了重要影响,这将彻底改变我们开发和使用AI算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景,关键发现和主流技术来回顾LLM的最新进展。特别是,我们专注于LLM的四个主要方面,即培训前,适应性调整,利用率和容量评估。此外,我们还总结了开发LLM的可用资源,并讨论了未来方向的剩余问题。这项调查提供了有关LLM的最新文献综述,这对于研究人员和工程师来说都是有用的资源。 索引术语-大型语言模型;新兴能力;适应性调整;利用;对齐;能力评估 ✦ 1I介绍 “我的语言的极限意味着我的世界的极限。 ——路德维希·维特根斯坦 velopedbasedonstatisticallearningmethodsthatroseinthe1990.ThebasicideaistobuildthewordpredictionmodelbasedontheMarkovassumption,e.e.,predictingthenextwordbasedonthemostrecentcontext.TheSLMwithafixedcontextlengthn也被称为n-gram arXiv:2303.18223v11[cs.CL]2023年6月29日 L ANGUAGE是人类表达和交流的突出能力,它在儿童早期发展并在一生中进化[1,2]。然而,机器不能自然地掌握以人类语言形式理解和交流的能力,除非配备了强大的人工智能(AI)算法。这是一个长期的研究挑战,以实现这一目标,使机器能够读,写,和。 像人类一样交流[3]。 从技术上讲,语言建模(LM)是提高机器语言智能的主要方法之一。通常,LM旨在对单词序列的生成可能性进行建模,从而预测未来 (或缺失)标记的概率。LM的研究在文献中受到了广泛的关注,可以分为四个主要发展阶段: •统计语言模型(SLM)。SLM[4-7] •版本:v11(主要更新于2023年6月29日)。 •GitHub链接:https://github.com/RUCAIBox/LLMSurvey •*K.Zhou和J.Li对这项工作做出了同样的贡献。 •作者主要是在中国北京中国人民大学高陵人工智能学院和信息学院工作;Nie Jian-YunNie在加拿大蒙特利尔大学DIRO工作。 联系电子邮件:batmanfly@gmail.com 语言模型,e。Procedre、二元语法和三元语言模型。SLM已广泛应用于提高信息检索(IR)[8,9]和自然语言处理(NLP)中的任务性能[10-12]。但是,它们经常遭受维数的诅咒:由于需要估计指数数量的转移概率,因此很难准确估计高阶语言模型。Ths,speciallydesigedsmoothigstrategiesschasbacoffestimatio[13]adGood-Trigestimatio[14]havebeeitrodcedtoelimatethedatasparsityproblem. •神经语言模型(NLM)NLM[15-17]通过神经网络表征词序列的概率,e。Procedre,递归神经网络(RNN)。作为一个显著的贡献,[15]中的工作引入了单词分布式表示的概念,并建立了基于聚合上下文特征的单词预测功能(i。Procedres.,分布式单词向量)。通过扩展学习单词或句子的有效特征的思想,开发了一种通用的神经网络方法来为各种NLP任务构建统一的解决方案[18]。此外,word2vec[19,20]被提议构建一个简化的浅神经网络,用于学习分布式单词表示,这被证明是非常有效的。 10000 8000 6000 4000 2000 1750 GPT-LLaMA ChatGPT InstructG PT Codex GPT-1GP T5 T-2 GPT-3 BERT GPT -4 LLaM C atGPT Instr ctGPT T5 GPT-3 鳕 ex 1500 1250 1000 750 500 250 0 201820192020202120222023 时间 0 2020 2021 时间 2022 2023 (a)查询="语言型号“(b)查询=“大型语言模型” Fig.1:分别包含关键短语“语言模型”(自2018年6月以来)和“大型语言模型”(自2019年10月以来)的arXiv论文的累积数量趋势。通过按月份查询标题或摘要中的关键短语,使用完全匹配来计算统计信息。我们为两个关键短语设置了不同的x轴范围,因为“语言模型”已经在较早的时间进行了探索。在LLM的研究进展中,我们标记了与重要地标相对应的点。ChatGPT发布后出现了急剧的增加:在标题或摘要中包含“大型语言模型”的arXiv论文的平均数量从每天0.40增加到每天8.58(图1(b))。 这些研究已经开始使用语言模型进行表征学习(超越单词序列建模) ,对NLP领域产生了重要影响。 •预训练语言模型(PLM)。作为早期的尝试,ELMo[21]被提议通过首先预训练双向LSTM(biLSTM)网络(而不是学习固定的单词表示),然后根据特定的下游任务微调biLSTM网络来捕获上下文感知的单词表示。此外,基于具有自注意机制的高度可并行化的Trasformer架构[22],BERT[23]是通过在大规模无标签语料库上使用专门设计的预训练任务对双向语言模型进行预训练而提出的。这些预先训练的上下文感知单词表示作为通用语义特征非常有效,这在很大程度上提高了NLP任务的性能。本研究启发了大量的后续工作,树立了“预训练和微调”的学习范式。遵循这种范式,已经开发了大量关于PLM的研究,引入了不同的体系结构[24,25](例如Procedre,GPT-2[26]和BART[24])或改进的训练前策略[27-29] 。在此范例中,它通常需要微调PLM以适应不同的下游任务。 •大型语言模型(LLM)研究人员发现,缩放PLM(例如Procedre,缩放模型大小或数据大小)通常会导致下游任务上的模型容量提高(i 。Procedres.,遵循缩放定律[30])。许多研究通过训练更大的PLM来探索性能极限(例如。Procedre,175B参数GPT-3和540B参数PaLM) 。尽管缩放主要是在模型大小(具有类似的体系结构和预训练任务)中进行的,但这些大型PLM显示出与较小PLM不同的行为(e。Procedre,330M参数BERT和1.5B参数GPT-2),并在解决一系列复杂任务时表现出令人惊讶的能力(称为紧急能力[31])。例如,GPT-3可以通过上下文解决少量任务。 学习,而GPT-2做得不好。因此,研究界将术语“大型语言模型(LLM )”1用于这些大型PLM[32-35],这引起了越来越多的研究关注(见图1)。LLM的一个显着应用是ChatGPT2,它将GPT系列中的LLM改编为对话,这与人类具有惊人的对话能力。在图1中ChatGPT发布后,我们可以观察到与LLM相关的arXiv论文的急剧增加。 在现有的文献中,PLMs已经被广泛地讨论和调查[36-39],而LLM很少以系统的方式被审查。为了激励我们的调查,我们首先强调LLM和PLM之间的三个主要差异。首先,LLM显示出一些令人惊讶的新兴能力,这在以前较小的PLM中可能无法观察到。这些能力是语言模型在复杂任务上表现的关键,使AI算法空前强大和有效。其次,LLM将彻底改变人类开发和使用AI算法的方式。与小型PLM不同,访问LLM的主要方法是通过提示界面(例如Procedre,GPT -4API)。人类必须了解LLM是如何工作的,并以LLM可以遵循的方式格式化他们的任务。第三,LLM的发展不再明确区分研究和工程。LLM的培训需要在大规模数据处理和分布式并行培训方面具有丰富的实践经验。为了开发有能力的LLM,研究人员必须解决复杂的工程问题,与工程师合作或成为工程师。 如今,LLM对AI社区产生了重大影响,ChatGPT和GPT-4的出现导致人们对人工智能通用智能(AGI)的可能性进行了重新思考。OpenAI发表了一篇名为“为AGI及其他领域规划”的技术文章,讨论了采用AGI的短期和长期计划[40], 1.请注意,LLM不一定比小型PLM更有能力,并且在某些LLM中可能不会出现紧急能力。 2.https://openai.com/blog/chatgpt/ 最近的一篇论文认为GPT-4可能被认为是AGI系统的早期版本[41] 。人工智能的研究领域正在因LLM的快速发展而发生革命性的变化 。在NLP领域,LLM可以作为通用语言任务求解器(在某种程度上 ),并且研究范式已经转向使用LLM。在IR领域,传统搜索引擎受到通过AI聊天机器人(i。Procedres.,ChatGPT)和NewBig3提出了基于LLM增强搜索结果的初始尝试。在CV领域,研究人员尝试开发类似ChatGPT的视觉语言模型,可以更好地服务于多模式对话[42-45],GPT-4[46]通过整合视觉信息支持多模式输入。这种新的技术浪潮可能会导致基于LLM的现实世界应用程序的繁荣生态系统。例如,Microsoft365由LLM授权(i。Procedres.,Copilot)来自动化办公室工作,并且OpeAI支持在ChatGPT中使用插件来实现特殊功能。 尽管取得了进展和影响,但LLM的潜在原则仍未得到很好的探索。首先,为什么新兴能力出现在LLM中而不是较小的PLM中是神秘的。作为一个更普遍的问题,缺乏对有助于LLM卓越能力的关键因素的深入,详细的调查。重要的是研究LLM何时以及如何获得这种能力[47]。虽然有一些关于这个问题的有意义的讨论[31,47],需要更多的原则性调查来揭示LLM的“秘密”。其次,研究界很难培训有能力的LLM。由于计算资源的巨大需求,进行重复的,消融研究以调查各种策略对训练LLM的影响是非常昂贵的。事实上,法学硕士主要是由行业培训的,其中许多重要的培训细节(例如。Procedre 、数据采集和清理)不对外公开。第三,使LLM与人类价值观或偏好保持一致是具有挑战性的。尽管有能力,LLM也可能产生有毒,虚构或有害的内容。它需要有效和高效的控制方法来消除使用LLM的潜在风险[46]。 面对机遇和挑战,LLM的研究和开发需要更多的关注。为了提供对LLM的基本理解,本调查从四个主要方面对LLM的最新进展进行了文献综述,包括预培训(如何预培训有能力的LLM),适应(