2024-02-21 Gemma:基于双子座研究和技术的开放模型 Gemma团队,GoogleDeepMind1 1有关完整的作者列表,请参阅贡献和致谢部分。请发送信函至gemma-1-report@google.com。 这项工作介绍了Gemma,这是一个轻量级的,最先进的开放式模型家族,该模型是根据用于创建Gemii模型的研究和技术构建的。Gemma模型在语言理解,推理和安全性方面的学术基准表现出强劲的表现。我们发布了两种大小的模型(20亿和70亿参数),并提供预训练和微调检查点。Gemma在18项基于文本的任务中的11项优于类似大小的开放式模型,我们对模型的安全性和责任方面进行了全面评估,并详细描述了模型开发。我们认为,负责任地发布LLM对于提高前沿模型的安全性以及实现下一波LLM创新至关重要。 Introduction 我们介绍了Gemma,这是一个基于GoogleGemini 模型的开放模型系列(GeminiTeam,2023年) 。 我们使用与双子座模型系列相似的架构,数据和训练食谱,对多达6T的文本进行了Gemma模型的训练。像双子座一样,这些模型在文本领域实现了强大的通才能力,以及大规模的最新理解和推理技能。通过这项工作,我们发布了预训练和微调检查点,以及用于推理和服务的开源代码库。 Gemma有两种尺寸:70亿参数模型,用于在GPU和TPU上进行高效部署和开发,以及20亿参数模型,用于CPU和设备应用。每个大小都被设计为解决不同的计算约束、应用和开发者需求。在每个规模上,我们都会发布未经培训的检查点,以及针对对话,指导,帮助和安全性进行微调的检查点。我们在一套定量和定性基准上彻底评估了我们模型的缺点 。我们相信,预培训和微调检查点的发布将使彻底的研究和调查能够影响当前的指导调整制度,以及日益安全和负责任的模型开发的发展。 方法论。 Gemma相对于可比规模(和一些更大的)开放式模型(Almazroei等人。,2023年;姜等人。,2023年;Tovro等人。,2023a,b)涉及广泛的领域,包括自动基准测试和人工评估。示例包括问答(Clar等人。,2019;Kwiatowsi等人。,2019),常识推理(Saagchi等人。,2019;Szg等人。,2022),数学与科学(Cobbe等人,2021年;Hedrycs等人。,2020)和编码(奥斯汀等人。,2021年;陈等人。,2021年)。请参阅“评估”部分中的完整解尾。 像双子座一样,杰玛建立在序列模型的最新工作基础上(Stsever等人。,2014)和变压器(Vaswai等人。,2017),基于神经网络的深度学习方法(LeC等人。,2015),以及分布式系统大规模培训的技术(Barham等人。,2022;迪恩等人。,2012;罗伯茨等人。,2023年)。Gemma还建立在Google在开放模型和生态系统方面的悠久历史上,包括Word2Vec(Miolov等人 o,2013),变压器(Vaswai等人。,2017),BERT(Devli等人。,2018)和T5(Raffel等人。 ,2019年)和T5X(罗伯茨等人。,2022年)。 我们认为,负责任地发布LLM对于提高前沿模型的安全性,确保公平获得这一突破性技术,对当前技术进行严格的评估和分析以及使 ©2024GoogleDeepMind.版权所有 LLaMA2(7B)LLaMA2(13B)Mistral(7B)Gemma(7B) 80 60 按分数划分的性能 40 20 0 数学/科学编码问答推理 Figure1La|nguageunderstandingandgenerationperformanceofGemma7Bacrossdifferentcapa-bilitiescomparedtosimilarsizedopenmodels.Wegrouptogetherstandardsaccapabilityandaveragetherespectivescore;seeTable6 foradetaildemper 下一波创新的发展。虽然已经对所有Gemma模型进行了全面测试,但测试不能涵盖可能使用Gemma的所有应用和场景。考虑到这一点,所有Gemma用户都应在部署或使用之前针对其用例进行严格的安全测试。有关我们的安全方法的更多详细信息,请参见“负责任的部署”一节。 在这份技术报告中,我们详细概述了模型架构 、培训- frastructure,andpretrainingandfine-tuningrecipesforGemma,followedbythroughevaluationsofallcheckpointsacross-variety 定量和定性基准,以及标准的学术基准和人类偏好评估。然后,我们详细讨论了我们对安全和负责任的就业的方法。最后,我们概述了Gemma 参数2B7B d_型号20483072 层1828 前馈隐藏调光3276849152 数字头816 Kv头116 头部大小256256 Vocab尺寸256128256128 表1|关键模型参数。 嵌入参数非嵌入参数 模型 2B524,550,1441,981,884,416 7B786,825,2167,751,248,896 的更广泛含义,其局限性和优势以及结论。 表2两种尺| 寸的Gemma模型的参数计数。 模型体系结构 Gemma模型架构基于变压器解码器(Vaswanietal.,2017)。该架构的核心参数是summa- 在表1中列出。模型在8192个令牌的上下文长度上进行训练。 Wealsouseseveralimprovementsproposedaftertheoriginaltransformerpaper.Below,welisttheincludedimprovements: 多查询注意(Shazeer,2019年)。不- 可以看出,7B模型使用多头注意力,而2B检查点使用多查询注意力(具有𝑛𝑢𝑚_𝑘𝑣_ℎ𝑒𝑎𝑑�=1),基于消融研究,这些研究揭示了各自的注意力变异在每个尺度上都提高了性能(Shazeer,2019年)。 RoPE嵌入(Su等人,2021年)。我们在每个图层中使用随机位置嵌入,而不是使用绝对位置嵌入;我们还在输入和输出之间共享嵌入,以减少模型大小。 GeGLU激活(Shazeer,2020)。Stan-dardReLU非线性由GeGLU激活函数代替。 Normalizer位置。我们对每个变压器子层的输入和输出进行归一化,这与仅对一个或另一个进行归一化的标准实践有所不同。我们使用RMSNorm(Zhang和 Sennrich,2019)作为我们的归一化层。 培训基础设施 我们使用TPUv5e训练Gemma模型;TPUv5e部署在256个芯片的吊舱中,配置为16x16芯片的2D圆环。对于7B模型,我们在16个吊舱中训练我们的模型,达到4096个TPUv5e。我们在2个pod上对2B模型进行预训练,总共512个TPUv5e 。在pod中,我们对7B模型使用16向模型分片和16向数据复制。对于2B,我们简单地使用256路数据复制。使用类似于ZeRO-3的技术进一步分片优化器状态。除了Pod之外,我们在数据中心网络上执行数据副本缩减,使用路径方法(Barham等人。,2022年)。 与双子座一样,我们利用Jax(Roberts等人,2023年)和Pathways(Barham等人,2022年)的“单控制器”编程范式,通过启用单个Python进程来协调整个训练运行来简化开发过程;我们还利用GSPMD标准程序(Xu等人,2021年)进行训练步骤计算和MegaScaleXLA编译器(XLA,2019年)。 碳足迹 我们估计预热Gemma模型的碳排放量为131 2该值是基于从我们的T∼PU数据中心直接报告的每小时能量使用量计算的;我们还缩放该值以考 虑创建和维护数据中心所消耗的附加能量,从而为我们提供训练实验的总能量使用量。我们通过将我们的每小时能源使用量与我们的数据中心报告的每小时每电池碳排放数据相结合,将总能源使用量转换为碳排放量。 Inaddition,Googledatacentersarecarbonneutral,achievedthroughacombinationofenergyefficiency,renewableenergypurchases,andcarbonoffset.Thiscarbonneutrityalsoappliestoourexperimentsandthemachinesusedtorunthem. 预培训 训练数据 Gemma2B和7B分别对来自Web文档,数学和代码的主要英语数据的2T和6T令牌进行训练。与Gemini不同,这些模型不是多模式的,也没有针对多语言任务的最新性能进行训练。 我们使用双子座的SentencePiece令牌器(Kudo和Richardson,2018)的子集来实现兼容性。它拆分数字,不删除额外的空格,并依赖于未知令牌的字节级编码,遵循用于(Chowdhery等人,2022 )和(GeminiTeam,2023)的技术。词汇量为 256k令牌。 过滤 我们过滤预训练数据集,以减少不必要或不安全话语的风险,并过滤掉某些个人信息和其他感性数据 。这包括使用启发式和基于模型的分类器来删除有害或低质量的内容。此外,我们从我们的预训练数据混合物中过滤所有评估集,运行有针对性的污染分析以检查评估集泄漏,并降低风险。 通过最小化敏感输出的扩散来背诵。 最终的数据混合是通过对2B和7B模型的一系列消融来确定的。类似于(双子座团队,2023年)中提倡的方法,我们在整个训练中进行阶段训练以改变身体混合,从而在训练结束时增加相关的高质量数据的权重。 指令调整 我们对Gemma2B和7B进行了有监督的微调(SFT ),其中混合了纯文本,纯英语的合成和人为生成的提示对,以及来自人类反馈(RLHF)的强化学习 ,并使用奖励模型对标记的仅英语偏好数据和基于一组高质量提示的策略进行了训练。我们发现这两个阶段对于改善下游自动评估和人类偏好评估模型输出的性能都很重要。 监督微调 我们选择了我们的数据混合物,用于基于LM的并排评估的监督微调(Zheg等人。,2023年)。给定一组隐藏提示,我们从测试模型中生成响应,从基线模型中生成相同提示的响应,随机洗牌,并要求一个更大的,高性能的模型来表达两个响应之间的偏好。构造不同的提示集以突出特定功能,例如指令遵循,真实性,创造力和安全性。我们使用的不同的自动基于LM的法官采用了许多技术,例如思想链提示(Wei等人。,2022)和规则和宪法的使用(Bai等人。,2022),与人类偏好保持一致。 模型输出,错误的自我识别数据,或重复的例子。在双子座之后,我们发现,包括鼓励更好的上下文归因、对冲和拒绝的数据子集,以最小化幻觉,可以提高几个事实性指标的性能,而不会降低其他结构的模型性能。 最终的数据混合和监督微调配方,其中包括调整的超参数,是在提高帮助性的基础上选择的,同时最小化与安全和幻觉相关的模型危害。 格式化 Instructiontunnedmodelaretrainedwithaspe-cificformatterthatannotatesallinstructiontuningexampleswithextrainformation,bothattrainingandinferencetime.Ithastwopurposes: 1)在会话中指示角色,例如用户角色,以及2 )在转换中描绘转弯,尤其是在多转弯会话中。为此目的,在令牌生成器中保留了特殊的控制令牌。尽管可以在没有格式化程序的情况下获得连贯的世代,但对于模型而言,它将是分布外的,并且很