您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌]:原生多模态大模型Gemini(有道翻译版) - 发现报告

原生多模态大模型Gemini(有道翻译版)

2023-12-06-谷歌曾***
原生多模态大模型Gemini(有道翻译版)

Gemini:一 个 非 常 有 能 力 的 多 模 式 模 式的 家 庭 Gem in i小 组 , 我 是Google1 本 报 告 介 绍 了 一 个 新 的 多 模 式 模 型 家 族 ,Ge mini, 它 在 图 像 、 音 频 、 视 频 和 文 本 理 解 方 面 表 现 出 卓 越 的 能 力 。Ge mini系 列 包 括U ltr a、Pro和N a no尺 寸 , 适 用 于 从 复 杂 推 理 任 务 到 设 备 上 内 存 受 限 用 例 的 应 用 。对 广 泛 基准 测 试 的 评 估 表 明 , 我 们 最 强 大 的Ge miniU ltr a模 型 在3 2个 基 准 测 试 中 的3 0个 中 都 达 到 了 最 先 进 的 水 平— —值 得 注 意 的 是 , 它 是 第 一 个 在 经 过 充 分 研 究 的 考 试 基 准M ML U上 达 到 人 类 专 家 性 能 的 模 型 , 并 且 在 我 们 测 试的20个 多 模 式 基 准 测 试 中 都 提 高 了 最 先 进 的 水 平 。 我 们 相 信 ,Ge mini模 型 在 跨 模 态 推 理 和 语 言 理 解 方 面 的 新功 能 将 支 持 各 种 各 样 的 用 例 , 我 们 将 讨 论 如 何 负 责 任 地 向 用 户 部 署 它 们 。 1.介 绍 我们现在展示Gemini,一个由谷歌开发的高性能多模式模型家族。我们通过图像、音频、视频和文本数据对Gemini进行联合训练,目的是建立一个模型,该模型既具有跨模式的强大通才能力,又具有在每个各自领域的尖端理解和推理性能。 Gemini 1.0是我们的第一个版本,有三种尺寸:Ultra用于高度复杂的任务,Pro用于增强性能和大规模部署能力,Nano用于设备上的应用。每个尺寸都是专门定制的,以解决不同的计算限制和应用需求。我们在一套全面的内部和外部基准上评估Gemini模型的性能,这些基准涵盖了广泛的语言、编码、推理和多模态任务。 Gemini在大规模语言建模方面取得了最新进展(Anil等人,2023;Brown等人,2020;Chowdhery等,2023;霍夫 曼等,2022年;OpenAI,2023;Radford等人,2019;Rae等人,2021),图 像理 解(Alayrac等人,2022;Chen等人,2022;Dosovitskiy等,2020;OpenAI,2023 b;里德等,2022;Yu等人,2022a), 音 频 处 理(Radford等 人,2023;Zhang等 人,2023), 以 及 视频 理 解(Alayrac等 人,2022;Chen等,2023)。它还建立在序列模型(Sutskever et al.,2014)、基于神经网络的深度学习的长期工作历史(LeCun et al.,2015)和机器学习分布式系统(Barham et al.,2022;Bradbury等人,2018年;Dean et al.,2012),使大规模训练成为可能。 我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果,包括12个流行文本和推理基准测试中的10个,9个图像理解基准测试中的9个,6个视频理解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。Gemini Ultra是第一个在MMLU上实现人类专家性能的模型(hendricks等人,2021a)——一个通过一系列考试测试知识和推理的著名基准——得分超过90%。除了文本,GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如,在最近的MMMU基准测试(Yue et al.,2023)中,它包含了关于需要大学水平学科的多学科任务中的图像的问题 知识和深思熟虑的推理,GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性能提升。 定性评估展示了令人印象深刻的跨模态推理能力,使模型能够对输入的音频、图像和文本序列进行原生的理解和推理(见图5和表13)。考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题,一个学生解决了这个问题。利用Gemini的多模态推理能力,该模型能够理解杂乱的笔迹,正确理解问题的表述,将问题和解决方案转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性,我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。 图1 |验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上,它需要理解问题设置并正确遵循指令来生成LATEX。 大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AlphaCode团队构建了AlphaCode 2 (Leblond等人,2023年),这是一个新的双子座驱动的代理,它将Gemini的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上,AlphaCode 2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进(Li et al.,2022)。 与此同时,我们通过Gemini Nano推进了效率的前沿,这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并相对于其规模,在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。 在接下来的章节中,我们首先提供了模型架构、训练基础设施和训练数据集的概述。然后,我们对Gemini模型家族进行了详细的评估,涵盖了经过充分研究的基准和人类偏好评估,包括文本、代码、图像、音频和视频——包括英语表现和多语言能力。我们还讨论了负责任部署的方法,2包括在部署决定之前进行影响评估、制定模型政策、评估和减轻危害的过程。最后,我们讨论了Gemini更广泛的影响,它的局限性以及它的潜在应用——为人工智能研究和创新的新时代铺平了道路。 2.模 型 架 构 Gemini模型建立在Transformer解码器(Vaswani等人,2017)之上,通过架构和模型优化的改进得到增强,以实现大规模的稳定训练,并在Google的张量处理单元上优化推理。它们经过训练以支持32k上下文长度,采用高效的注意力机制(例如,多查询注意力(Shazeer,2019))。我们的第一个版本,Gemini 1.0,包括三种主要尺寸,以支持广泛的应用程序,如表1所示。 Gemini模型经过训练,可以适应文本输入与各种各样的音频和视觉输入交织在一起,比如自然图像、图表、截图、pdf和视频,它们可以产生文本和图像输出(见图2)。Gemini模型的视觉编码灵感来自我们自己在Flamingo (Alayrac等人,2022)、CoCa (Yu等人,2022a)和PaLI (Chen等人,2022)上的基础工作。有一个重要的区别,即模型从一开始就是多模态的,并且可以使用离散的图像标记原生输出图像(Ramesh et al.,2021;Yu et al.,2022b)。 视频理解是通过将视频编码为大上下文窗口中的一系列帧来完成的。视频帧或图像可以与文本或音频自然交错,作为模型输入的一部分。模型可以处理可变的输入分辨率,以便花费更多的计算 需要细粒度理解的任务。此外,Gemini可以直接从通用语音模型(USM) (Zhang et al.,2023)特征中摄取16kHz的音频信号。这使得模型能够捕捉音频被天真地映射到文本输入时通常会丢失的细微差别(例如,请参阅网站上的音频理解演示)。 训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型,我们的基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练,利用Ultra的一小部分资源。Nano系列模型利用蒸馏和训练算法的额外进步,为各种任务(如摘要和阅读理解)生产一流的小型语言模型,为我们的下一代设备体验提供动力。 3.培 训 基 础 设 施 我们使用TPUv5e和TPUv4 (Jouppi等人,2023)来训练Gemini模型,具体取决于它们的大小和配置。GeminiUltra训练中心在多个数据中心使用了大量的TPUv4加速器。这代表了我们之前的旗舰型号PaLM-2的规模显着增加,这带来了新的基础设施挑战。加速器数量的增加会导致整个系统中硬件的平均故障时间成比例地减少。我们最小化了计划重调度和抢占的比率,但由于宇宙射线等外部因素,在如此大规模的所有硬件加速器中,真正的机器故障是司空见惯的(Michalaket al.,2012)。 T PUv4加速 器部 署在40 96个芯 片的“Sup erPod s”中,每 个芯 片连 接到 一个专 用的 光开 关, 它可以在大 约10秒内动 态地将4 x4x4芯片立 方体 重新 配置 为任意3 D环 面拓扑(Jou pp i等人,20 23)。对于Gemin iUltra, 我们 决定 在每 个超级 舱中 保留 少量 的立方 体, 以允 许热 备用和 滚动 维护 。 TPU加速器主要通过高速芯片间互连进行通信,但在GeminiUltra规模下,我们使用谷歌的集群内和集群间网络在多个数据中心中组合SuperPods (Poutievski等人,2022;Wetherall等人,2023;姚红等,2018)。谷歌的 网络延迟和带宽足以支持常用的同步训练范式,利用superpods内部的模型并行性和superpods之间的数据并行性。 Jax(Brad bu ry e t a l.,2 018)和Pa th way s (Ba rha m e t a l.,202 2)的“单 控 制器”编 程 模型 允许 单个Py tho n进程协调 整个 训练 运行 ,极大 地简 化了 开发 工作流 。XL A编译器 中的GSP M D分 区器(Xu e tal.,202 1)对训练 步长 计算 进行 分 区,Me ga Sca le XL A编译 器(XL A,2 019)通过 静态 调度 适当 的集 合,使它们在步长 时间 变化很 小的 情况 下最 大限度 地与 计算 重叠 。 使用对持久集群存储的权重定期检查点的传统方法,在这种规模上保持一个高的goodput3at是不可能的。对于Gemini,我们使用了模型状态的冗余内存副本,并且在任何计划外的硬件故障上,我们可以直接从完整的模型副本中快速恢复。与PaLM和PaLM-2相比(Anil et al.,2023),尽管使用了更大的训练资源,但这在恢复时间上提供了显着的加速。因此,最大规模训练工作的总体有效产出从85%增加到97%。 空前规模的训练总是会出现新的有趣的系统故障模式——在这种情况下,我们需要解决的问题之一是“无声数据损坏(SDC)”(Dixit等人,2021;Hochschild et al.,2021;Vishwanathan et al.,2015)。虽然这种情况非常罕见,但Gemini的规模意味着我们可以预期SDC事件每隔一两个星期就会影响训练。快速检测和移除故障硬件需要几种新技术,利用确定性重放来隔离不正确的计算,并结合空闲机器和热备用上的主动SDC扫描仪。我们完全确定的基础设施使我们能够在Ultra模型的开发过程中快速识别根本原因(包括硬件故障),这是稳定训练的关键因素。 4.训 练 数 据 集 Gemini模型是在一个多模态和多语言的数据集上训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。 我们使用SentencePiece tokenizer (Kudo和Richardson,2018),发现在整个训练语料库的大样本上训练tok