您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌]:原生多模态大模型Gemini(有道翻译版) - 发现报告
当前位置:首页/其他报告/报告详情/

原生多模态大模型Gemini(有道翻译版)

2023-12-06-谷歌曾***
原生多模态大模型Gemini(有道翻译版)

https://fanyi.youdao.com/download Gemini:一个非常有能力的多模式模式的家庭 Gemini小组,我是 Google1 本报告介绍了一个新的多模式模型家族,Gemini,它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini系列包括Ultra、Pro和Nano尺寸,适用于从复杂推理任务到设备上内存受限用例的应用。对广泛基准测试的评估表明,我们最强大的GeminiUltra模型在32个基准测试中的30个中都达到了最先进的水平——值得注意的是,它是第一个在经过充分研究的考试基准MMLU上达到人类专家性能的模型,并且在我们测试的20个多模式基准测试中都提高了最先进的水平。我们相信,Gemini模型在跨模态推理和语言理解方面的新功能将支持各种各样的用例,我们将讨论如何负责任地向用户部署它们。 1.介绍 我们现在展示Gemini,一个由谷歌开发的高性能多模式模型家族。我们通过图像、音频、视频和文本数据对Gemini进行联合训练,目的是建立一个模型,该模型既具有跨模式的强大通才能力,又具有在每个各自领域的尖端理解和推理性能。 Gemini1.0是我们的第一个版本,有三种尺寸:Ultra用于高度复杂的任务,Pro用于增强性能和大规模部署能力,Nano用于设备上的应用。每个尺寸都是专门定制的,以解决不同的计算限制和应用需求。我们在一套全面的内部和外部基准上评估Gemini模型的性能,这些基准涵盖了广泛的语言、编码、推理和多模态任务。 Gemini在大规模语言建模方面取得了最新进展(Anil等人,2023;Brown等人,2020;Chowdhery等,2023;霍夫曼等,2022年;OpenAI,2023;Radford等人,2019;Rae等人,2021),图像理解(Alayrac等人,2022;Chen等人,2022;Dosovitskiy等,2020;OpenAI,2023b;里德等,2022;Yu等人,2022a),音频处理(Radford等人,2023;Zhang等人,2023),以及视频理解(Alayrac等人, 2022;Chen等,2023)。它还建立在序列模型(Sutskeveretal.,2014)、基于神经网络的深度学习的长期工作历史(LeCunetal.,2015)和机器学习分布式系统(Barhametal.,2022;Bradbury等人,2018年;Deanetal.,2012),使大规模训练成为可能。 我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果,包括12个流行文本和推理基准测试中的10个,9个图像理解基准测试中的9个,6个视频理 解基准测试中的6个,以及5个语音识别和语音翻译基准测试中的5个。GeminiUltra是第一个在 MMLU上实现人类专家性能的模型(hendricks等人,2021a)——一个通过一系列考试测试知识和推理的著名基准——得分超过90%。除了文本,GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如,在最近的MMMU基准测试(Yueetal.,2023)中,它包含了关于需要大学水平学科的多学科任务中的图像的问题 1完整的作者列表见投稿和致谢部分。请发送信件到gemini-1-report@google.com ©2023谷歌版权所有 知识和深思熟虑的推理,GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性能提升。 定性评估展示了令人印象深刻的跨模态推理能力,使模型能够对输入的音频、图像和文本序列进行原生的理解和推理(见图5和表13)。考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题,一个学生解决了这个问题。利用Gemini的多模态推理能力,该模型能够理解杂乱的笔迹,正确理解问题的表述,将问题和解决方案转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性,我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。 图1|验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上,它需要理解问题设置并正确遵循指令来生成LATEX。 大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AlphaCode团队构建了AlphaCode2(Leblond等人,2023年),这是一个新的双子座驱动的代理,它将Gemini的推理能力与搜索和工具使用相结合,在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上,AlphaCode2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进(Lietal.,2022)。 2 与此同时,我们通过GeminiNano推进了效率的前沿,这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色,如摘要、阅读理解、文本补全任务,并相对于其规模,在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。 在接下来的章节中,我们首先提供了模型架构、训练基础设施和训练数据集的概述。然后,我们对Gemini模型家族进行了详细的评估,涵盖了经过充分研究的基准和人类偏好评估,包括文本、代码、图像、音频和视频——包括英语表现和多语言能力。我们还讨论了负责任部署的方法,2包括在部署决定之前进行影响评估、制定模型政策、评估和减轻危害的过程。最后,我们讨论了Gemini更广泛的影响,它的局限性以及它的潜在应用——为人工智能研究和创新的新时代铺平了道路。 2.模型架构 Gemini模型建立在Transformer解码器(Vaswani等人,2017)之上,通过架构和模型优化的改进得到增强,以实现大规模的稳定训练,并在Google的张量处理单元上优化推理。它们经过训练以支持32k上下文长度,采用高效的注意力机制(例如,多查询注意力(Shazeer,2019))。我们的第一个版本,Gemini1.0,包括三种主要尺寸,以支持广泛的应用程序,如表1所示。 表1|Gemini1.0模型家族概述 Gemini模型经过训练,可以适应文本输入与各种各样的音频和视觉输入交织在一起,比如自然图像、图表、截图、pdf和视频,它们可以产生文本和图像输出(见图2)。Gemini模型的视觉编码灵感来自我们自己在Flamingo(Alayrac等人,2022)、CoCa(Yu等人,2022a)和PaLI(Chen等人,2022)上的基础工作。有一个重要的区别,即模型从一开始就是多模态的,并且可以使用离散的图像标记原生输出图像(Rameshetal.,2021;Yuetal.,2022b)。 视频理解是通过将视频编码为大上下文窗口中的一系列帧来完成的。视频帧或图像可以与文本或音频自然交错,作为模型输入的一部分。模型可以处理可变的输入分辨率,以便花费更多的计算 我们计划在GeminiUltra模型全面上市之前更新这份报告,提供更多细节。 3 图2|Gemini支持文本、图像、音频和视频的交错序列作为输入(通过输入序列中不同颜色的标记来说明)。它可以用交错的图像和文本输出响应。 需要细粒度理解的任务。此外,Gemini可以直接从通用语音模型(USM)(Zhangetal.,2023)特征中摄取16kHz的音频信号。这使得模型能够捕捉音频被天真地映射到文本输入时通常会丢失的细微差别(例如,请参阅网站上的音频理解演示)。 训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型,我们的基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练,利用Ultra的一小部分资源。Nano系列模型利用蒸馏和训练算法的额外进步,为各种任务(如摘要和阅读理解)生产一流的小型语言模型,为我们的下一代设备体验提供动力。 3.培训基础设施 我们使用TPUv5e和TPUv4(Jouppi等人,2023)来训练Gemini模型,具体取决于它们的大小和配置。GeminiUltra训练中心在多个数据中心使用了大量的TPUv4加速器。这代表了我们之前的旗舰型号PaLM-2的规模显着增加,这带来了新的基础设施挑战。加速器数量的增加会导致整个系统中硬件的平均故障时间成比例地减少。我们最小化了计划重调度和抢占的比率,但由于宇宙射线等外部因素,在如此大规模的所有硬件加速器中,真正的机器故障是司空见惯的(Michalaketal.,2012)。 TPUv4加速器部署在4096个芯片的“SuperPods”中,每个芯片连接到一个专用的光开关,它可以在大约10秒内动态地将4x4x4芯片立方体重新配置为任意3D环面拓扑(Jouppi等人,2023)。对于GeminiUltra,我们决定在每个超级舱中保留少量的立方体,以允许热备用和滚动维护。 TPU加速器主要通过高速芯片间互连进行通信,但在GeminiUltra规模下,我们使用谷歌的集群内和集群间网络在多个数据中心中组合SuperPods(Poutievski等人,2022;Wetherall等人,2023;姚红等,2018)。谷歌的 4 网络延迟和带宽足以支持常用的同步训练范式,利用superpods内部的模型并行性和superpods之间的数据并行性。 Jax(Bradburyetal.,2018)和Pathways(Barhametal.,2022)的“单控制器”编程模型允许单个Python进程协调整个训练运行,极大地简化了开发工作流。XLA编译器中的GSPMD分区器(Xuetal.,2021)对训练步长计算进行分区,MegaScaleXLA编译器(XLA,2019)通过静态调度适当的集合,使它们在步长时间变化很小的情况下最大限度地与计算重叠。 使用对持久集群存储的权重定期检查点的传统方法,在这种规模上保持一个高的goodput3at是不可能的。对于Gemini,我们使用了模型状态的冗余内存副本,并且在任何计划外的硬件故障上,我们可以直接从完整的模型副本中快速恢复。与PaLM和PaLM-2相比(Aniletal.,2023),尽管使用了更大的训练资源,但这在恢复时间上提供了显着的加速。因此,最大规模训练工作的总体有效产出从85%增加到97%。 空前规模的训练总是会出现新的有趣的系统故障模式——在这种情况下,我们需要解决的问题之一是“无声数据损坏(SDC)”(Dixit等人,2021;Hochschildetal.,2021;Vishwanathanetal.,2015)。虽然这种情况非常罕见,但Gemini的规模意味着我们可以预期SDC事件每隔一两个星期就会影响训练。快速检测和移除故障硬件需要几种新技术,利用确定性重放来隔离不正确的计算,并结合空闲机器和热备用上的主动SDC扫描仪。我们完全确定的基础设施使我们能够在Ultra模型的开发过程中快速识别根本原因(包括硬件故障),这是稳定训练的关键因素。 4.训练数据集 Gemini模型是在一个多模态和多语言的数据集上训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。 我们使用SentencePiecetokenizer(Kudo和Richardson,2018),发现在整个训练语料库的大样本上训练tokenizer可以提高推断的词汇表,并随后提高模型性能。例如,我们发现Gemini模型可以有效地标记非拉丁文字,这反过来又有利于模型质量以及训练和推理速度。 用于训练最大模型的token数量是按照Hoffmann等人(2022)的方法确定的。较小的模型被训练为明显更多的token,以提高给定推理预算的性能,类似于Touvron等人(2023a)提倡的方法。 将高质量过滤器