您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[斯坦福大学(Stanford)]:大语言模型(LMM)简介(2024) - 发现报告

大语言模型(LMM)简介(2024)

大语言模型(LMM)简介(2024)

大型语言模型 大型语言模型简介 语言模型 记住简单的ngram语言模型 将概率分配给单词序列 通过采样可能的下一个单词生成文本 大基型于语大言量模文型本既计相算似出的又计不数同进:行训练。将概率分配给单词序列 通过采样可能的下一个单词生成文本 经过学习guess(猜测)下一个单词而被训练。 大型语言模型 即使只预训练来预测单词 学习大量的实用语言知识。 自训练于以下内容: Sincetrainingona许多文本 预编码先器训 练三解种调类器和型编的码架器的构好部分编?码器 三种大型语言解码模器型的架构最好的预训练方式是什么? 神经架构影响了预训练的类型及自然应用场景。 编码器 语言模型!我们迄今获为取止双所向看上到下 解码器 编码器解码器 很高兴产生于;不能我基们于如未何来训词练 解码器 编码器 编码器解码器 GPT、Clau de、Llama BERT家族 ,HuBERT 编码蛋器 糕T5解W调h器解is和码p编器er码 Mixtral 解码器最好的预训练 神经架构影响了预训练的类型及 编码器 多种多样! 编码器 受欢迎:戴口罩的语言模型(MLMs) BERT系列 解码器 通过从两侧的文字预测单词进行训练 编码器 通常而言微调基于监督数据进行分类任务的训练。 解码器 编码器解码器 训练用于从一个序列映射到另一个序列 非常受欢迎的: 机器翻译(从一种语言映射到另一种语言) 语音识别(从声学到单词的映射) 32 大型语言模型 大型语言模型简介 大型语言模型 大型语言模型:它们能执行哪些任务? 重大理念 许多任务都可以转化为预测词语的任务 ! 本次讲座:仅解码器模型 也称为:解码器 因果语言模型 自回归语言模型 从左到右的语言模型 预测词语从左到右 本报告来源于三个皮匠报告站(wwwsgpjbgcom),由用户Id879887下载,文档Id620742,下载日期:2025 生成文本 有条件的生成: 基于先前文本条件! 完成文本 所有 the 语言建模 标题 softmax 解码层 logits U U i E i E i E i E i E i E i E 因此 长时间 并且 谢谢 对于 所有 the 变压器 区块 编码器 前缀文本 许iiiii多ii 编码器 实际的NLP任务都可以被表述为词预测! EEEEEEE 情并且感谢谢分对于析所有:the“我喜欢成龙”因此长时间 们给语言模型这个字符串: 成龙”是: (也称为自回归)文本补全,基于基于大型语言模型的变换器。随着每个标记的生成,它被添加到上下一个前缀,用于生成下一个标记。你:句子“I”的情感表达前缀文本 单2词 “n并ega且tive查”用于看查它看哪认一项为更接高:下来出现的单词: Ppositive P负面句“我喜欢成龙”的情感是句子“我喜欢成龙”的情感是: 如果“积极”这个词更可能,我们说句子的情感是积极的。 正面,否则我们说情绪是负面的。 正正面面正,面,否,否则否则我则我们我们说们说情说情绪情绪是绪是负是负面负面的面的。的。。 回答,其中系统被提供一个问题(例如一个带有一个或多个答案选项的问题)。我们也可在以回将答更简复单杂问的题任方务面视的为任单务词,预我测们。将考在虑第以14下章任回务到:这一回答议,题其。中在系这统个被任提供务一中个,问系们可统以被也提将供更一复些杂问任务题视,为并词必预须测给任出务。一考个虑文以本下答问案题。我我们们可以可也以将将更任复务杂表任达务视如为下词:预一 、事实性的答案,并且必须提供文本答案;我们引入这个任务是为了 个任将务简问。单题考的回虑、答以事作下实为问性题单的答词案预,测并,且通必过须向提供语文言本模答型案提;出我一们个引入问这题个来任预务测是单为词了。一个通简过单向的语 第15章详细内容。我们可以将问答任务视为词预测问题。第15章详细内容。我们可以将问 言模型提供一个问题和像“”这样的标记通过向语言模型提供一个问题和像“”这样的标记AA表 明一个答案表明一个答案 答一任种务类视Q似为于谁词的写预代测了问币《题应物。该种Q接起A下源来“》谁是这:写本应了书该《?接下物A来Q种是谁:起1写源了我》《们物?种给”起语源》言这模本型书?这A个字 QA谁写建了议《下物一种个起回源》答这应本该书出?现A: 符如果串我:们要求一个语言模型进行计算如果您要求一个语言模型计算对可能概率分布的计算,将如下: 如果您要求一个语言模型计算对可能概率分布的计算,将如下: IfweasPkawlaQng谁ua写ge了m《od物e种lto起c源om》p这ute本t书he?prAob 给定这个Q前谁缀写:了ne《xt物wo种rd起s源giv》e这nt本his书p?reAx aPbilitydistributionoverpossible 你:根并据且这查个Q看前哪谁缀些写给单出了词的《下物一种个起词w源:高》概这率本事书件?,A我们 可能预计会看到这种情况。 并给定且并这且查3查个P尔查看前w斯看并哪缀哪非:些且些n常单e单迭x可t词词w能代o,rd:然sg后ivwe如wn果高t高h我i概s概p们率r率e选事x事择件 件,,我查们我尔可们斯能可预并能且计预继会计续看询会到问这看种到情这况种。情况。 题(例如一个带有一个或多个答案选项的问题)。将大量任务视为条件生成我 查你:尔查根尔斯据斯这非个非常前常可缀可给能能出,,的然然下后后一如个如果词果:我我们2们选并选择且择查查看尔查它斯尔认斯并为且并接继且下续继询来续问出询现问的单词 :Pw问题:谁写了《物种起源》这本书?答案:查尔斯达尔文(Charles) PwP问:谁写了《物种起源》这本书?答:查尔斯达尔文。 总结原文文章 包括CNN文和本《与每广日泛镜使用报的》摘的要新语闻料文库中章人。工生成的摘要 包括CNN和《每日镜报》的新闻文章。 比一个在雪封的麻省打雪仗的家伙更疯狂的事情只有一件 原文文章 并且在网上进行销售?人们实际上在购买它。售价89美元,自称企业家比一个在雪封的麻省打雪仗的家伙更疯狂的事情只有一件 KyleWaring将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪足够并且在网上进行销售?人们实际上在购买它。售价89美元,自称企业家 对于10到15个雪球,他说。KyleWaring将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪足够 但在原文是东如北果!你”瓦住林在网新站英S格hip兰S或no周wY边o州co。m我说们道不。会“我将们雪的运业往务任是何消州除。对于但10是到如15果个你雪住球在,新他英说格。兰或周边州的话就不是这样了。“我们不会将雪运送到美国东北部的任何州!”Waring的网站ShipSnowYocom上写道。“我们 雪的业花务!是消除雪!” 他他的的网网站站和和社社交交媒体媒账体户账声户称声已称接收已到接超收过到13超3个过订13雪3订个单订。雪订单。 仅周二就超过30人,这是他最忙的一天。总降水量超过45英寸,波士顿已经创下了记录。仅周二就超过30人,这是他最忙的一天。总降水量超过45英寸,波士顿已经创下了记录。 记录下这个冬天为史上最雪月份。大多数居民看到巨大的雪堆记录下这个冬天为史上最雪月份。大多数居民看到巨大的雪堆 根他据们B堵o塞st了on庭co院m和报人道行,道一,切造始成于不几便周,前但,W当a时rinWg看ari到ng了和一他个的机妻会子。正他在们铲堵雪塞了庭院根和据人Bo行st道on,c造om成报不道 ,便一,切但始Wa于ri几ng周看前到,了当一时个W机a会rin。g和他的妻子正在铲雪 清理曼彻斯特比大海郊区的深雪,这是一个位于波士顿北部的沿海郊区。他从曼彻斯特海滩的院子里铲除厚厚的积雪,曼彻斯特海滩是位于波士顿北部的沿海郊区。他开玩笑说要把这些雪运给住在更温暖州的朋 摘要友和家人,于是一个想法诞生了。 开玩笑说要K把y这le些W东ari西ng寄将给会住用在绝更热温泡暖沫州箱的给摘朋你要友邮寄和6家磅人波,士一顿个地想区法的就雪这样产足生够了。摘要 KyleWaring将会用绝热泡沫箱给你邮寄6磅波士顿地区的雪足够对于10到15个雪球,他说。但如果您住在新英格兰或周边各州,则不适用。 对于10到15个雪球,他说。但如果您住在新英格兰或周边各州,则不适用。摘自CNNDailyMail摘要语料摘库自中的CN一N篇D样a本ily文M章a及il摘其摘要要语。料库中的一篇样本文章及其摘要。 LLMsforsummarization(使用tldr) 生成的摘要 凯尔 警告 将会 LM头部 U U U E E E E E E E E The 仅有 理念 曾是 出生。 太长;不读凯尔 警告 将会 原文故事分隔符 大型语言模型 大型语言模型:它们能执行哪些任务? 大型语言模型 采样用于LLM生成 解码与采样 这个词基于模型概率选择一个单词的任务被称作解码 LLMs中解码的最常用方法是采样。从模型对单词的分布中进行采样: 根据模型分配的概率随机选择单词。 在每次标记之后,我们将根据其概率采样单词以生成。基于我们之前的选项 变压器语言模型将给出概率 我们可以将生成单词序列直到遇到序列结束标记的算法正式化 。随机抽样 未提p供未任(提何)供文表任 plingfromthedistributionp未提供任何文本进行翻译。 i1 w 同时i(未提供具体内容,无法进行翻译)w wi1iEOSi wi(未提供具体内 上述算法被容称,为无法进行翻译 随机抽样,结果证 )wiwi pling不够好用。问题在于尽管随机抽样 部分将产生合理、高概率的词,有很多异常、低概率 随机抽样效果不佳 尽管随机抽样大多生成合理、高概率的词语, 在分布的尾部存在许多奇特、低概率的词汇。 每个人都是低概率事件,但累积起来,它们构成了分布的大部分。 所以他们被挑选得足够多,以至于产生了奇怪的句子。 单词采样因素:质量并且多样性 强调高概率单词质量更准确、连贯和事实性的, 多样性枯燥,重复。 强调中概率单词加号多样性更加富有创意,多样化,质量不太客观,内容不连贯 顶级k采样: 1选择单词数量k 2对于词汇表中的每个单词V使用语言模型来计算该词在给定上下文中的可能性pwtw t 3按可能性对单词进行排序,仅保留最上面(或最重要的)的。k最可能出现的词汇。 4重新规范化分数的得分k词语构成一个合法的概率分布。 5随机从这些剩余词汇中抽取一个单词k根据其概率的最可能词汇 是保持领先k但顶尖p百分比的概率质量。目标相同;截 除非常不可能的单词。顶级采样(核采样) 量概率而不是单词数量,希望这种测量方Holt法zma在neta非l2常020不同的 稳健,动态地增加和减少单词候选池。问题在于顶级kk固定不同情况下覆盖非常不同的概率质量量。 想法:相反,保留概率质量的前p百分比。 个分布给定一个分布PwtwPtw,顶级w排名首位 汇p词汇表VVpp是包含最少单词的最小集合,满足是包含最 的 XPww 2t wVp文档结束符号 (Pageendsymbol 温度采样 重新塑造而非截断分布直觉来自热力学, 高温下的系统具有灵活性,可以探索许多可能的状态。 一个在较低温度下的系统可能会探索一组较低能量(更优)的状态。 在低温采样中,(1)我们平稳地 提高最可能词汇的几率。 ax进行归一化之前。在低温 将lo因gi此t除,以而温不度是参数计来算实在现这的种概直率觉分,布在通过soft一数化(之重前复。自在(低温情况下温度采样 对数几率中计算词汇的概率分布,如以下所示( 函数之前,将logit除以y温度参数so。ftmaxu 代替y softmaxu 除法运算。 t计算概率向量 t 除法运算。我y们t计算概率向量 softmaxut ysoftm