ACL2023教程 你需要知道的关于多语言LLM的一切: 为世界语言建立公平,高效和可靠的模型 BarunPatraVishravChaudharyKabirAhuja KalikaBaliMonojitChoudhurySunayanaSitaram 微软公司 Introduction BarunPatraMicrosoftTuring SunayanaSitaram 微软印度研究院 教程演示者 VishravChaudhary Microsoft图灵 MonojitChoudhury Microsoft图灵 KabirAhuja微软研究院印度 KalikaBaliMicrosoftResearch印度 物流教程 •日期和地点:2023年7月9日,西部大都会 •时间:当地时间9AM-12:30PM •上半年:9AM-10:30AM •休息:10:30AM-11AM •下半场:11AM-12:30PM •我们希望每个人都熟悉LLM的英文版本 •因此,我们不会进入LLM的基本原理 •虽然全面,但这里没有涉及其他相关的额外主题/论文 •超出本教程的范围 •多语言模型的适配器和参数有效微调(请参见EMNLP2022教程由Ruder等人提供 ,以了解这方面的内容) 介绍(10分钟) 数据收集和培训(40分钟)提示策略 (20分钟) 评估、可解释性、分析(20分钟)问答(10 分钟以上) 负责任的AI(30分钟)休息(20分钟) 语言社区(15分钟)开放研究问题 (10分钟)结论(10分钟)Q&A(20分钟) •幻灯片和参考 •幻灯片和参考发布在教程网站上 https://aka.ms/ACL2023教程 •Q&A •每节后2-4个问题(时间允许) •在会谈中可以提出快速澄清的问题 •Zoom上的与会者可以键入聊天,其中一名教师将进行审核 •更长的问答将在休息的开始(可选)和结束 1 语言技术如何为地球上的 6000多种语言服务? 根据用于培训NLP系统的可用资源,语言层次结构 Joshi等人ACL2020 9 88%世界上的语言,由1.2B人民 不受语言技术的好处影响。 2 我们的技术是否正在逐渐变得更具语言包容性和多样性? 多年来ACL论文中语言提及的分布熵 Joshi等人ACL2020 直到2015年,会议的声望一直与语言D&I成反比。最近情况越来越好。 Doddapaneni等人2021。预训练多语言语言模型入门2107.00676.pdf(arxiv.org) 多语言语言模型 仅编码器模型 XY-LENT XLM-R XLM mBERT 仅解码器模型 GPT-4 GPT-3.5 布卢姆 GPT-3 布卢姆 棕榈 XGLM 编码器-解码器模型 mT0 mBART mT5 Liu等人2021年的数据 没有微调 特定于任务的微调多任务/指令微调 13 不同模型的语言覆盖 •不同模型的训练前数据主要是英语! •However,evensmallpercentsofnonEnglishdatacanfacilitatecrosslanguagetransfer.Blevinsetal.2022[2204.08110]语言污染有助于解释英语预训练模型的跨语言能力(arxiv.org) 14 多语言LLM的数据收集和训练 BarunPatra和VishravChaudhary Data是在多语言领域中训练性能更好 的语言模型的关键组件。 •多语言LLM可以一次为多种语言启用甚至彻底改变多个下游场景 •还有助于弥合社会之间的差距,推动技术进步的前沿 16 Data是在多语言领域中训练性能更好 的语言模型的关键组件。 •多语言LLM可以一次为多种语言启用甚至彻底改变多个下游场景 •还有助于弥合社会之间的差距,推动技术进步的前沿 挑战: •数量 •质量 •采购 •Governance 17 •在数量上存在巨大差距 •语言(commoncrawl.org) Commoncrawl中的语言分布 57种语言 <0.001% •在数量上存在巨大差距 •语言(commoncrawl.org) Commoncrawl中的语言分布 •在数量上存在巨大差距 •语言(commoncrawl.org) •域名(Gao等人,2020年) ArXiv 会话 Law 医疗 Educational …... •Kreutzer等人,2022年进行了一项全面调查,涵盖了不同数据集的质量问题 •Q1:有多少百分比的语言拥有高质量的数据? •Kreutzer等人,2022年进行了一项全面调查,涵盖了不同数据集的质量问题 •Q2:资源低的语言总是质量差的数据吗? •原因包括 •语言识别不正确(质量差+语言相似) •机器生成的数据 •有限的识别工具可用于有毒/成人内容 •政府机构的倡议 •定义参与者:数据保管人,权利持有人和其他各方,以适当地管理共享数据 •旨在以优先考虑本地知识和指导价值表达的方式考虑数据和算法主题的隐私,知识产权和用户权利 尺 Responsible 质量 基础 Sharable 多域 版本化 Continual •下载 •文本提取 •简单重复数据删除(基于 URL) 集合 初始清洁 •语言识别 •基于阈值的过滤 •多语言文档 •基于精确子串(mC4,OSCARv*,CC100) •基于模糊Minhash(GPT-3 ,ThePILE) •两者(精制Web) 重复数据删除 过滤 •基于启发式(改进的Web) •基于模型(CC-Net,CC100) •基于NSFWURL,PII •行基、单据基 •具有回退到字节的令牌化算法(因此产生很少/没有UNK令牌) •最受欢迎的句子,BPE和文字 •更大的词汇量通常与更好的表现相关 •以训练速度、推理速度和增加的参数为代价) •跨不同语言分配vocab容量可提高性能 •例如:遵循Zheng等人2021年提出的VoCAP方法 •另一种选择似乎是利用基于字节的模型 •但似乎需要更深的(编码器)模型/具有额外的容量(字节-T5) •此外,需要可以覆盖更大上下文窗口的模型 •对拼写错误更健壮 模型 Wordpiece •mBERT 句号 •XLM-Roberta,mBART,XGLM,mT5 VoCAP •XLM-E,XY-LENT BPE •GPT*,Bloom 字节级 •字节-T5,感知 单语CorporaBitextCorpora 机器学习正在通过研究改变当今世界以极快的速度发生。 我喜欢猫 以英语为中心X-Y方向 J'aimeles聊天。 मशीनलरन िआजदरनयाकोबदलरहीहऔरअनसधान 我喜欢猫मझबबलललयाापसनदह। 我喜欢猫 बहततेजगर्तसेहोरहाहै। 我的学徒自动改变了世界的aujourd'hui avecdes 引渡rapide. 模型 기계학습은매우빠른속도로진행되는연구로오늘날세상을변화시키고있습니다. •mBERT,XLM-Roberta •mT5、AlexaTM、字节mT5 J'aimeles聊天。 म 나는고양이를좋아합니다. 我喜欢猫 나는고양이를좋아합니다. 模型 •XLM、XLM-E、DeberTav3、Info-XLM •mBART •PaLM-2 模型 •M2M100* •XY-LENT 性能提升的一般趋势(在模型类类型中)28 单语CorporaBitextCorpora 以英语为中心X-Y方向 温度采样 � •P(j)=,��其中 是的样本数量 温度采样 •在这里,归一化结束了 温度采样 •P(i,j)= 𝑖�,𝑗,where是 σ𝑛�� � 非英语语言 σ�,��, � � j语言 •向上采样低资源语言,向下采样低资源语言 Unimax •尽可能统一地分配预算 •从最低的资源语言开始,并不断增加,分配统一的预算 •与温度采样相比,性能更好 第i个语言对的样本数 近似以英语为中心的边际分布 •P(i,j)这样∀𝑗P(j)=σ𝑖𝑃(𝑖,类似于英语中心分布 研究 Learning 变压器 <s 机器 [面具] is 改变 the 世界 今天 与 [面具] 发生 在 an 爱 聊天 变压器 <s I [面具] 猫 </s <s J aime les [面具] </s • • BERT风格模型 X%的令牌被屏蔽,并且模型使用左右上下文来预测中间令牌 模型 •可以使用单语言和bitext数据 • • • mBERT XLM XLM-罗伯塔 1 1 0 1 1 鉴别器 <s I 喜 猫 </s 发电机 <s I [面具] 猫 </s 模型 • • • XLM-E XY-LENT DEBERTAv3 •伊莱克特拉风格的训练范式 •预测哪些令牌来自生成器,哪些令牌来自数据 •但与GAN不同,发电机接受过MLM任务的训练 •更有效的样品 •在一般更好的性能 •停止发生器和鉴别器嵌入之间的梯度流的变体 •与MLM相比,逐层行为不同 •更高层在语义检索任务上更好 31 *数字取自Chi等人2022 编码器模型:辅助损失 •对比损失利用bitext数据提高语义相似性 •提高了性能,尤其是对于语义检索任务 •可以与以前的方法结合使用 编码器 动量 编码器 ����� 对比损失 𝑥𝑇(𝑠𝑒𝑛𝑡),𝑥𝑠𝑒𝑛𝑡,𝑥𝑠𝑒𝑛𝑡… •不同形式之间没有实质性差异对比12 损失(SimCLRvsMoCo) •性能在某种程度上取决于选择哪一层动量对比 •与MLM模型相比,Electra风格的模型更不容易受到这种影响 模型 •Info-XLM *T表示翻译 32 •标准变压器体系结构 •两个变压器一个用于编码器,一个用于解码器 •可以将前缀LM的解码器重新用于类似的目的 解码器也有完整的编码器信息 “编码器”前缀出席所有前缀令牌 “解码器”前缀出现在前缀带着因果面具 解码器 <s 输入 序列 <s 输出 序列 前缀LM结构 编码器 解码器 模型 <s 输入 序列 <s 输出 序列 •mT5,byteT5 •mBART •AlexaTM 编码器层具有双向信息解码器层具有因果注意33 传统编码器解码器 •令牌屏蔽:屏蔽某些部分的令牌(类似于BERT),但让模型生成令牌 机器学习是当今的<X><Y> <S><X>改变<Y>世界</s> mT6,byteT5:使用哨兵令牌来指示要屏蔽和获取解码器生成的令牌/字节 <S>机器学习正在改变当今世界</s> 机器学习是[MASK]今天的[MASK] mBART:重建整个句子,AlexaTM:不使用MASK令牌,仍然重建整个序列 •句子掩蔽/去噪:屏蔽文档的延续,让模型生成延续 改变世界许远节 [S]L'学徒自动化<X> UL2、UL2R、AlexaTM:获取模型以完成生成。请注意使用前缀令牌来表示噪声类型 [X]Elaprendizaje<X>está<X>el<Y> <B>自动<S>cambiando<S>mundo<E> •极端腐败:掩盖文档的大部分,让模型生成它们 UL2,UL2R:尝试使用多个哨兵恢复严重噪音的文档 <S><X>改变<Y>世界</s> •组合:将不同的加噪策略组合在一起(使用前哨令牌表示不同的掩蔽策略) [R]机器学习是当今的<X><Y> [S]L'学徒自动化<X> [X]Elaprendizaje<X>está<X>el<Y> UL2/UL2R/PaLM2: <B>自动<S>cambiando<S>mundo<E> 改变世界许远节 也可以作为后训练步骤,以提高通用解码器的能力 请注意不同的前缀令牌,以告知模型要在中生成什么模式 •标准自回归解码 •显示在(Wang等人2022)中,具有直接零拍适应的最佳性能 •相比之下