2024‑02‑21 Gemma:基于Gemini的开放模型 研究与技术 Gemma团队,谷歌DeepMind1 1完整的作者列表请参阅贡献和致谢部分。请将信件发送至gemma‑1‑report@google.com。 这项工作介绍了Gemma,这是一个根据研究构建的轻量级、最先进的开放模型系列以及用于创建Gemini模型的技术。Gemma模型在各个方面都表现出强大的性能语言理解、推理和安全的学术基准。我们推出了两种尺寸的型号 (20亿和70亿个参数),并提供预训练和微调的检查点。芽 在18个基于文本的任务中,有11个的性能优于类似大小的开放模型,并且我们提出了全面的 对模型的安全和责任方面的评估以及模型的详细描述 发展。我们相信,负责任地释放法学硕士对于提高边境安全至关重要模型,并实现下一波法学硕士创新浪潮。 介绍 我们推出Gemma,一个开放模型系列 基于Google的Gemini模型(GeminiTeam, 2023)。 我们使用类似的架构、数据、最多6T的文本标记来训练Gemma模型 以及双子座模范家庭的培训食谱。 与Gemini一样,这些模型在文本领域实现了强大的通才能力,同时还具备最先进的理解和推理能力。 规模。通过这项工作,我们发布了预训练的 和微调的检查点,以及用于推理和服务的开源代码库。 Gemma有两种尺寸:用于在GPU和TPU上高效部署和开发的70亿参数模型,以及用于CPU和设备上应用程序的20亿参数模型。 每种尺寸都旨在解决不同的计算约束、应用程序和开发人员 要求。在每个尺度上,我们都会发布原始的、预先训练的检查点,以及针对对话、遵循指令、帮助和安全性进行微调的检查点。我们彻底评估 我们的模型在一系列定量和定性基准上的缺点。我们相信 预训练和微调检查点的发布将有助于深入研究和调查当前指令调整机制的影响,以及开发 日益安全和负责任的模型开发 方法论。 Gemma提升最先进的性能 相对于可比规模(和一些更大的), 开放模型(Almazrouei等人,2023;Jiang 等,2023;Touvron等人,2023a,b) 广泛的领域,包括自动化 基准和人工评估。示例领域包括问答(Clark等人, 2019;Kwiatkowski等人,2019),常识 推理(Sakaguchi等人,2019;Suzgun等人, 2022),数学和科学(Cobbe等人, 2021年;Hendrycks等人,2020)和编码(奥斯汀 等,2021;陈等人,2021)。请参阅评估部分的完整详细信息。 和Gemini一样,Gemma也以最近的工作为基础 序列模型(Sutskeveretal.,2014)和 变压器(Vaswanietal.,2017),基于神经网络的深度学习方法(LeCun 等人,2015),以及分布式系统大规模培训技术(Barham等人,2022; 迪恩等人,2012;罗伯茨等人,2023)。芽 还建立在Google悠久的开放模型和生态系统历史之上,包括Word2Vec(Mikolov 等人,2013),变压器(Vaswani等人, 2017)、BERT(Devlin等人,2018)和T5(Raffel 等人,2019)和T5X(罗伯茨等人,2022)。 我们认为负责任地释放法学硕士是对于提高前沿模型的安全性至关重要,确保公Ʈ地获得这一突破 技术,以实现严格的评估和分析当前技术,并实现 ©2024谷歌DeepMind。版权所有 Gemma:基于Gemini研究和技术的开放模型 美洲驼2(7B) 80 美洲驼2(13B) 米斯特拉尔(7B) 杰玛(7B) 60 40 20 0 问答推理 数学/科学编码 图1|与类似大小的开放模型相比,Gemma7B在不同功能上的语言理解和生成性能。我们将标准学术基准归为一类 按能力进行评估并计算各自的Ʈ均分;详细分类见表6 表现。 下一波创新的发展。 虽然对所有Gemma型号进行了彻底测试 进行后,测试无法涵盖Gemma可能出现的所有应用程序和场景 用过的。考虑到这一点,所有Gemma用户都应该 针对其具体情况进行严格的安全测试 部署或使用之前的用例。更多细节 有关我们的安全方法的信息,请参阅部分 责任部署。 在这份技术报告中,我们提供了详细的 模型架构、训练基础设施以及预训练和微调的概述 参数 d_模型 层数1828 2B 2048 7B 3072 前馈隐藏暗淡3276849152头数16 8 KV头数16 头号256 1256 词汇大小256128256128 表1|关键模型参数。 Gemma的食谱,然后对各种检查点进行彻底评估 模型嵌入参数 非嵌入 参数 定量和定性基准,如 以及标准学术基准和 人类偏好评估。然后我们讨论 2B524,550,1441,981,884,416 7B786,825,2167,751,248,896 详细介绍我们安全、负责任的部署方法。最后,我们概述了Gemma的更广泛含义、其局限性和优点, 表2|两种尺寸的参数计数 杰玛模特。 和结论。 模型架构 Gemma模型架构基于 Transformer解码器(Vaswani等人,2017)。这 该架构的核心参数总结为 如表1所示。模型在上下文中进行训练 8192个令牌的长度。 我们还利用了提出的几项改进 在原始变压器纸之后。下面,我们 列出所包含的改进: 多查询注意力(Shazeer,2019)。不‑ Gemma:基于Gemini研究和技术的开放模型 显然,7B模型使用多头注意力 而2B检查点使用基于消融的多查询注意力(with =1)__ 研究揭示了各自的注意力变异 提高每个规模的性能(Shazeer、 2019)。 RoPE嵌入(Su等人,2021)。而不是 使用绝对位置嵌入,我们在每一层中使用旋转位置嵌入;我们也 在我们的输入和输出之间共享嵌入 以减小模型尺寸。 GeGLU激活(Shazeer,2020)。标准ReLU非线性被GeGLU取代 激活函数。 标准化器位置。我们对每个变压器子层的输入和输出进行归一化, 偏离了标准做法 使其中之一正常化。我们使用RMSNorm (Zhang和Sennrich,2019)作为我们的标准化 层。 培训基础设施 我们使用TPUv5e训练Gemma模型; TPUv5e部署在256个芯片的集群中,配置为16x16芯片的2D环面。为了 7B模型,我们在16个pod中训练模型,总共4096个TPUv5e。我们预训练2B模型 跨2个Pod,总共512个TPUv5e。在一个吊舱内, 我们使用16路模型分片和16路数据 7B模型的复制。对于2B,我们只使用256路数据复制。优化器 使用类似于ZeRO‑3的技术进一步对状态进行分片。除了 Pod之外,我们还使用(Barham等人,2022)的Pathways方法在数据中心网络上执行数据副本缩减。 碳足迹 我们估计Gemma模型预训练的碳排放量约为1312。这 该值是根据我们的TPU数据中心直接报告的每小时能源使用量 计算得出的; 我们还缩放该值以考虑创建和维护所消耗的额外能量 数据中心,为我们提供总能源使用情况 用于我们的训练实验。我们转换总计 加入我们的能源使用与碳排放 每小时的能源使用情况与我们的数据中心报告的每小时每个电池的碳排放数据进行比较。 此外,谷歌数据中心是碳 中性,通过能源效率、可再生能源购买和 碳抵消。这种碳中和也适用 我们的实验和用于运行的机器 他们。 预训练 训练数据 Gemma2B和7B接受2T和6T训练 主要英语数据的标记分别来自 网络文档、数学和代码。不像 Gemini,这些模型不是多式联运的,也不是 他们接受了最先进的表演训练多语言任务。 我们使用SentencePiece分词器的子集 (Kudo和Richardson,2018)双子座的兼容性。它分割数字,不删除多余的 空白,并依赖于字节级编码 未知的令牌,遵循所使用的技术 对于(Chowdhery等人,2022)和(Gemini 团队,2023)。词汇量大小为256k个标记。 过滤 与Gemini一样,我们利用“单一控制器” Jax的编程范例(Roberts等人, 2023)和途径(Barham等人,2022) 通过启用简化开发过程 单个Python进程来编排整个 训练跑;我们还利用GSPMD分区器(Xuetal.,2021)进行训练步骤 计算和MegaScaleXLA编译器 (XLA,2019)。 我们过滤预训练数据集以减少 不需要或不安全言论的风险,并过滤 泄露某些个人信息和其他敏感数据。这包括使用两种启发式方法 和基于模型的分类器,以消除有害或 低质量的内容。此外,我们从预训练数据混合物中过滤所有评估集,运行 有针对性的污染分析来检查 评估集泄漏,降低风险 Gemma:基于Gemini研究和技术的开放模型 通过最大限度地减少敏感的扩散来背诵 输出。 最终的数据混合物通过以下方式确定 2B和7B型号上进行了一系列消融。类似于(Gemini Team,2023),我们分阶段训练来改变整个训练过程中的语料库混合,以增加 相关的、高质量的数据对 训练结束。 指令调优 我们通过监督对Gemma2B和7B进行微调 对纯文本、纯英语合成和人类生成的提示响应对的混合进行微调(SFT),并进行强化学习 人类反馈(RLHF)与奖励模型 使用带标签的纯英语偏好数据进行训练 以及基于一套高质量的政策 提示。我们发现这两个阶段都很重要 提高下游自动评估和模型输出的人类偏好评估的性能。 模型输出,错误的自我识别数据, 或重复的例子。跟随双子座,我们 发现包括鼓励更好的上下文归因、对冲和 拒绝减少幻觉可以改善 几个事实指标的性能,而不降低其他指标的模型性能。 最终的数据混合和监督微调配方(包括调整的超参数)是在提高有用性的基础上选择的,同时最大限度地减少与以下方面相关的模型危害: 安全和幻觉。 格式化 指令调整模型使用特定的格式化程序进行训练,该格式化程序使用额外信息注释所有指令调整示例,均位于 训练和推理时间。它有两个目的: 1)表明对话中的角色,例如 用户角色,以及2)描述对话中的轮次,尤其是在多轮对话中。 监督微调 我们选择数据混合物进行基于LM的并行评估的监督微调 (Zhengetal.,2023)。给定一组保留的提示,我们从测试中生成响应 为此目的,在tok‑enizer中保留了特殊的控制令牌。虽然有可能 无需格式化程序即可获得连贯的生成,对于模型来说它将是不分布的,并且 很可能会产生更糟糕的一代。 相关的格式化控制令牌如表3所示,对话示例如表4所示。 模型,根据相同的提示生成响应 从基线模型中随机洗牌, 并要求一个更大的、高性能的模型来表达 两个响应之间的偏好。不同的 提示集的构造是为了突出显示特定的 能力,例如遵循指令、真实性、创造力和安全性。不同的自动 我们使用的基于LM的法官采用了多种技术,例如思维链提示(Wei 语境 用户轮流 模型转 对话回合开始<start_of_turn>对话结束回合 表3|使用的相关格式控制标记 相关代币 用户 模型 <回合结束> 等人,2022)以及标题和章程的使用 (Bai等人,2022),与人类偏好保持一致 引用。 对于Gemma模型的SFT和RLHF。 从人类反馈中强化学习 过滤 使用合成数据时,我们运行几个阶段对其进行过滤,删除显示的示例某些不安全或有毒的个人信息 我们进一步微调了监督微调 使用RLHF的模型(Christiano等人,2017; 欧阳等人,2022)。我们收集了对预置 Gemma:基于Gemini研究和技术的开放模型 用户:<start_of_turn>用户 敲敲门。<end_of_turn> <start_of_turn>模型模型:谁在那里?<end_of_turn>模型 用户:<start_of_turn>用户 杰玛。<回合结