您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌]:Gemma:基于Gemini的开放模型研究与技术 - 发现报告

Gemma:基于Gemini的开放模型研究与技术

信息技术2024-02-21-谷歌喵***
AI智能总结
查看更多
Gemma:基于Gemini的开放模型研究与技术

1完整的作者列表请参阅贡献和致谢部分。请将信件发送至gemma‑1‑report@google.com。Gemma团队,谷歌DeepMind1 以及用于创建Gemini模型的技术。Gemma模型在各个方面都表现出强大的性能在18个基于文本的任务中,有11个的性能优于类似大小的开放模型,并且我们提出了全面的语言理解、推理和安全的学术基准。我们推出了两种尺寸的型号这项工作介绍了Gemma,这是一个根据研究构建的轻量级、最先进的开放模型系列模型,并实现下一波法学硕士创新浪潮。发展。我们相信,负责任地释放法学硕士对于提高边境安全至关重要对模型的安全和责任方面的评估以及模型的详细描述(20亿和70亿个参数),并提供预训练和微调的检查点。芽 介绍 方法论。 广泛的领域,包括自动化基准和人工评估。示例领域包括问答(Clark等人,等,2023;Touvron等人,2023a,b)开放模型(Almazrouei等人,2023;Jiang相对于可比规模(和一些更大的),Gemma提升最先进的性能 我们推出Gemma,一个开放模型系列2023)。基于Google的Gemini模型(GeminiTeam, 我们使用类似的架构、数据、最多6T的文本标记来训练Gemma模型与Gemini一样,这些模型在文本领域实现了强大的通才能力,同时还具备最先进的理解和推理能力。以及双子座模范家庭的培训食谱。 2021年;Hendrycks等人,2020)和编码(奥斯汀等,2021;陈等人,2021)。请参阅评估部分的完整详细信息。2022),数学和科学(Cobbe等人,推理(Sakaguchi等人,2019;Suzgun等人,2019;Kwiatkowski等人,2019),常识 规模。通过这项工作,我们发布了预训练的和微调的检查点,以及用于推理和服务的开源代码库。 Gemma有两种尺寸:用于在GPU和TPU上高效部署和开发的70亿参数模型,以及用于CPU和设备上应用程序的20亿参数模型。 等人,2015),以及分布式系统大规模培训技术(Barham等人,2022;2017)、BERT(Devlin等人,2018)和T5(Raffel还建立在Google悠久的开放模型和生态系统历史之上,包括Word2Vec(Mikolov序列模型(Sutskeveretal.,2014)和等人,2013),变压器(Vaswani等人,和Gemini一样,Gemma也以最近的工作为基础变压器(Vaswanietal.,2017),基于神经网络的深度学习方法(LeCun等人,2019)和T5X(罗伯茨等人,2022)。迪恩等人,2012;罗伯茨等人,2023)。芽 每种尺寸都旨在解决不同的计算约束、应用程序和开发人员 要求。在每个尺度上,我们都会发布原始的、预先训练的检查点,以及针对对话、遵循指令、帮助和安全性进行微调的检查点。我们彻底评估 我们的模型在一系列定量和定性基准上的缺点。我们相信 预训练和微调检查点的发布将有助于深入研究和调查当前指令调整机制的影响,以及开发 对于提高前沿模型的安全性至关重要,确保公平地获得这一突破我们认为负责任地释放法学硕士是技术,以实现严格的评估和分析当前技术,并实现 日益安全和负责任的模型开发 按能力进行评估并计算各自的平均分;详细分类见表6表现。 下一波创新的发展。 用过的。考虑到这一点,所有Gemma用户都应该责任部署。有关我们的安全方法的信息,请参阅部分部署或使用之前的用例。更多细节进行后,测试无法涵盖Gemma可能出现的所有应用程序和场景针对其具体情况进行严格的安全测试虽然对所有Gemma型号进行了彻底测试 在这份技术报告中,我们提供了详细的模型架构、训练基础设施以及预训练和微调的概述 Gemma的食谱,然后对各种检查点进行彻底评估 以及标准学术基准和定量和定性基准,如 人类偏好评估。然后我们讨论详细介绍我们安全、负责任的部署方法。最后,我们概述了Gemma的更广泛含义、其局限性和优点, 和结论。 如表1所示。模型在上下文中进行训练8192个令牌的长度。 模型架构 列出所包含的改进:我们还利用了提出的几项改进在原始变压器纸之后。下面,我们 该架构的核心参数总结为Gemma模型架构基于Transformer解码器(Vaswani等人,2017)。这 多查询注意力(Shazeer,2019)。不‑ Gemma:基于Gemini研究和技术的开放模型 碳足迹 研究揭示了各自的注意力变异2019)。__而2B检查点使用基于消融的多查询注意力(with=1)显然,7B模型使用多头注意力提高每个规模的性能(Shazeer、 我们估计Gemma模型预训练的碳排放量约为1312 。这该值是根据我们的TPU数据中心直接报告的每小时能源使用量计算得出的;我们还缩放该值以考虑创建和维护所消耗的额外能量 RoPE嵌入(Su等人,2021)。而不是使用绝对位置嵌入,我们在每一层中使用旋转位置嵌入;我们也 每小时的能源使用情况与我们的数据中心报告的每小时每个电池的碳排放数据进行比较。加入我们的能源使用与碳排放用于我们的训练实验。我们转换总计数据中心,为我们提供总能源使用情况 在我们的输入和输出之间共享嵌入以减小模型尺寸。 激活函数。GeGLU激活(Shazeer,2020)。标准ReLU非线性被GeGLU取代 此外,谷歌数据中心是碳中性,通过能源效率、可再生能源购买和 标准化器位置。我们对每个变压器子层的输入和输出进行归一化,(Zhang和Sennrich,2019)作为我们的标准化层。偏离了标准做法使其中之一正常化。我们使用RMSNorm 碳抵消。这种碳中和也适用我们的实验和用于运行的机器他们。 预训练 训练数据 网络文档、数学和代码。不像Gemini,这些模型不是多式联运的,也不是主要英语数据的标记分别来自多语言任务。Gemma2B和7B接受2T和6T训练他们接受了最先进的表演训练 培训基础设施 使用类似于ZeRO‑3的技术进一步对状态进行分片。除了Pod之外,我们还使用(Barham等人,2022)的Pathways方法在数据中心网络上执行数据副本缩减。7B模型,我们在16个pod中训练模型,总共4096个TPUv5e。我们预训练2B模型跨2个Pod,总共512个TPUv5e。在一个吊舱内,7B模型的复制。对于2B,我们只使用256路数据复制。优化器我们使用16路模型分片和16路数据TPUv5e部署在256个芯片的集群中,配置为16x16芯片的2D环面。为了我们使用TPUv5e训练Gemma模型; 团队,2023)。词汇量大小为256k个标记。空白,并依赖于字节级编码我们使用SentencePiece分词器的子集未知的令牌,遵循所使用的技术对于(Chowdhery等人,2022)和(Gemini(Kudo和Richardson,2018)双子座的兼容性。它分割数字,不删除多余的 过滤 和基于模型的分类器,以消除有害或有针对性的污染分析来检查低质量的内容。此外,我们从预训练数据混合物中过滤所有评估集,运行泄露某些个人信息和其他敏感数据。这包括使用两种启发式方法评估集泄漏,降低风险我们过滤预训练数据集以减少不需要或不安全言论的风险,并过滤 与Gemini一样,我们利用“单一控制器”(XLA,2019)。Jax的编程范例(Roberts等人,训练跑;我们还利用GSPMD分区器(Xuetal.,2021)进行训练步骤2023)和途径( Barham等人,2022)计算和MegaScaleXLA编译器单个Python进程来编排整个通过启用简化开发过程 Gemma:基于Gemini研究和技术的开放模型 发现包括鼓励更好的上下文归因、对冲和或重复的例子。跟随双子座,我们模型输出,错误的自我识别数据, 输出。通过最大限度地减少敏感的扩散来背诵 最终的数据混合物通过以下方式确定2B和7B型号上进行了一系列消融。类似于(Gemini 拒绝减少幻觉可以改善几个事实指标的性能,而不降低其他指标的模型性能。 Team,2023),我们分阶段训练来改变整个训练过程中的语料库混合,以增加训练结束。相关的、高质量的数据对 最终的数据混合和监督微调配方(包括调整的超参数)是在提高有用性的基础上选择的,同时最大限度地减少与以下方面相关的模型危害: 指令调优 安全和幻觉。 对纯文本、纯英语合成和人类生成的提示响应对的混合进行微调(SFT),并进行强化学习我们通过监督对Gemma2B和7B进行微调 格式化 指令调整模型使用特定的格式化程序进行训练,该格式化程序使用额外信息注释所有指令调整示例,均位于 使用带标签的纯英语偏好数据进行训练提示。我们发现这两个阶段都很重要以及基于一套高质量的政策人类反馈(RLHF)与奖励模型提高下游自动评估和模型输出的人类偏好评估的性能。 用户角色,以及2)描述对话中的轮次,尤其是在多轮对话中。1)表明对话中的角色,例如训练和推理时间。它有两个目的: 为此目的,在tok‑enizer中保留了特殊的控制令牌。虽然有可能无需格式化程序即可获得连贯的生成,对于模型来说它将是不分布的,并且很可能会产生更糟糕的一代。 监督微调 我们选择数据混合物进行基于LM的并行评估的监督微调(Zhengetal.,2023)。给定一组保留的提示,我们从测试中生成响应 相关的格式化控制令牌如表3所示,对话示例如表4所示。 模型,根据相同的提示生成响应两个响应之间的偏好。不同的从基线模型中随机洗牌,提示集的构造是为了突出显示特定的并要求一个更大的、高性能的模型来表达能力,例如遵循指令、真实性、创造力和安全性。不同的自动 等人,2022)以及标题和章程的使用我们使用的基于LM的法官采用了多种技术,例如思维链提示(Wei引用。(Bai等人,2022),与人类偏好保持一致 表3|使用的相关格式控制标记 对于Gemma模型的SFT和RLHF。 从人类反馈中强化学习 过滤 对其进行过滤,删除显示的示例某些不安全或有毒的个人信息使用合成数据时,我们运行几个阶段 欧阳等人,2022)。我们收集了对预置我们进一步微调了监督微调使用RLHF的模型(Christiano等人,2017; Gemma:基于Gemini研究和技术的开放模型 表5|Gemma模型与Mistral7Bv0.2Instruct的胜率,置信区间为95%。我们报告胜利、平局的详细情况,以及 控制令牌。表4|与用户和模型的对话示例 最终的胜率。损失,我们在报告时平分关系 对最初调整的模型使用Kullback‑Leibler正则化项。类似于和特里,1952),与双子座类似。该策略经过训练以优化该奖励函数使用REINFORCE的变体(Williams,1992)Bradley‑Terry模型下的函数(Bradley来自人类评分者的参考并训练奖励 自动化基准测试 我们测量Gemma模型在物理推理等领域的性能(Bisk等人,等人,2019),编码(Austin等人,2021;Chen等人,2021),数学(Cobbe等人,2021),语言建模(Papernoetal.,2016)、阅读理解(Joshietal.,2017)等等。常识推理(Sakaguchietal.,2019),2019)、社会推理(Sap等人,2019)、问答(Clark等人,2019;Kwiatkowski) SFT阶段,为了调整超参数并另外减轻奖励黑客攻击 作为自动评估者的高容量模型(Amodei等人,2016;Skalse等人,2022)我们依赖基线模型。并计算并排比较 评估 对于大多数自动化基准测试,我们使用 与Gemini相同的评估方法。无法对LLaMA‑2进行任何评估并且(Talmor等人,2019),BigBenchHard(Suzgun特别是对于那些我们报告与Mistral相比的性能的情况,