热门搜索：

译生多模型大模型双子座（汉）

文化传媒2023-12-06-谷歌单***

AI智能总结

双子座多模态模型家族的全面概述

核心亮点

家族成员：双子座是一个高度可能力的多模态模型系列，旨在跨越图像、音频、视频和文本领域展现非凡的能力。
尺寸多样性：家族包括Ultra、Pro和纳米尺寸模型，分别针对复杂推理任务和内存受限应用案例进行了优化设计。
领先性能：双子座Ultra展示了卓越的性能，超越了现有模型，在多项基准测试中实现了最先进的结果，并首次达到了人类专家的性能水平。

模型构建与训练

基础架构：基于Transformer解码器，增强并优化以适应大规模训练和推理，支持长上下文长度和高效注意力机制。
尺寸分类：
- Ultra：最强大的模型，提供最先进的性能，适用于高度复杂的任务。
- Pro：优化成本和延迟，提供强大的推理能力和广泛多模态能力。
- Nano：专为设备上任务设计，提供最优性能，支持多种小至大任务，如总结、阅读理解和多语言任务。
训练细节：使用TPUv5e和TPUv4加速器，Pro模型利用固有的可扩展性和学习算法在多个数据中心完成预训练，而Nano系列模型则依赖额外的进步和训练算法，产生同类最佳的小型语言模型。

评价与应用

多模态推理与语言理解：双子座模型展现了出色的跨模态推理和语言理解能力，开启了教育和多个领域的创新可能性。
教育应用：通过模型的多模态能力，能够理解手写内容、验证推理过程，以及处理图像问题，展示出教育应用的潜力。
责任部署：讨论了模型部署的责任问题，包括影响评估、模型政策制定、伤害缓解措施和广泛的影响讨论。

技术创新与挑战

培训基础设施：创新的培训算法、数据集和基础设施，如TPUv5e和TPUv4的高效部署，以及JAX和Pathways的集成，确保了模型的大规模训练。
挑战与解决方案：面对大规模训练中的系统失败模式和“沉默”数据腐败（SDC）等问题，采取了快速检测和隔离不正确计算的技术解决方案。

评价与比较

文本领域：双子座模型在学术基准测试中展现出显著优势，特别是在MMLU基准测试中超越了人类专家的水平。
多模态能力：在多模态推理任务中，双子座Ultra表现出色，优于其他模型，特别是在复杂和具有挑战性的任务中。

结论

双子座多模态模型家族提供了前所未有的多模态理解和推理能力，适用于广泛的应用场景，尤其是教育领域。通过其创新的设计、优化的训练策略和负责任的部署策略，双子座模型不仅展示了在文本领域的卓越性能，还在多模态任务中实现了突破性进展，为人工智能领域开辟了新的可能性。

双子座:AFamilyof高度Capable 多式联运模型双子座团队,Google1 This报告介绍a新家庭of多模态模型，双子座,那个展览非凡能力跨越image,音频,视频,and文本理解。The双子座家庭组成ofUltra,Pro,and纳米尺寸,合适for应用程序测距从复杂推理任务to在设备上内存约束用例。评价上a广泛的范围of基准显示那个我们的最有能力的双子座Ultra模型预付款thestateofthe艺术在30of32of这些基准—值得注意的是beingtheﬁrst模型to实现人类专家性能上the经过充分研究考试基准MMLU,and改进thestateofthe 艺术在每一个一个ofthe20多模态基准我们已检查。我们相信那个the新能力of 双子座模型在交叉模态推理and语言理解将启用a宽品种of使用案例and我们讨论我们的方法朝向部署他们负责任的to用户。 1.Introduction 我们当前双子座,a家庭of高度有能力的多模态模型已开发在谷歌。我们训练有素双子座联合跨越image,音频,视频,and文本数据forthe目的of建筑a模型与两者坚强通才能力跨越模式旁边尖端理解and推理性能在每个各自域。双子座1.0,我们的ﬁrst版本,come在three尺寸:Ultrafor高度复杂任务,Profor增强性能and可部署性在scale,and纳米for在设备上应用。每个尺寸is特别是ﬁcally 量身定制to地址不同的计算限制andapplicationrequirement.我们评估 the性能of双子座模型上a综合套房of内部and外部基准覆盖a宽范围of语言,编码,推理,and多模态任务。双子座预付款最先进的在大规模语言建模(Aniletal.,2023棕色etal., 2020Chowdheryetal.,2023Ho夫曼etal.,2022OpenAI,2023a;拉德福德etal.,2019Raeetal.,2021图像理解(Alayracetal.,2022Chenetal.,2022Dosovitskiyetal.,2020 OpenAI,2023b;簧片etal.,2022Yuetal.,2022a),音频处理(拉德福德etal.,2023Zhangetal.,2023and视频理解(Alayracetal.,2022Chenetal.,2023It还builds上the 工作上序列模型（Sutskeveretal.,2014a长历史of工作在深学习基于上神经网络(LeCunetal.,2015and机器学习分布式系统(Barhametal.,2022布拉德伯里etal.,2018Deanetal.,2012那个启用大规模培训。我们的最多有能力的模型，双子座Ultra,实现新最先进的结果在30of32基准我们报告on,包括10of12受欢迎文本and推理基准,9of9图像理解基准,6of6视频理解基准,and5of5演讲识别and演讲翻译基准。双子座Ultraistheﬁrst模型to实现人类专家性能上 MMLU(Hendrycksetal.,2021a)—a突出基准测试知识and推理viaa 套房of考试—与a分数上面90%.超越文本,双子座Ultramakes值得注意的是预付款上具有挑战性多模态推理任务。For例如,上the最近MMMU基准(月etal., 2023那个comprises问题关于图像上多学科任务需要学院级别主题 1请参阅捐款andAcknowledgments节forfull作者list.Please发送对应关系to双子座-1-report@google.com ©2023谷歌。All权利保留知识and故意推理,双子座Ultra实现a新最先进的分数of62.4%, 表现优异the以前的最好的模型由更多than5百分比点。It提供a制服性能提升for视频question回答and音频理解基准。定性评价陈列柜令人印象深刻交叉模态推理能力,启用the模型 to理解and原因跨越an输入序列of音频,images,and文本本机(请参阅图5andTable13考虑the教育设置描绘在图1asanexample.A教师has 绘制a物理问题ofa滑雪者去向下a斜坡,anda学生has工作通过a解决方案 toit.使用双子座的多模态推理能力,the模型iscableto理解the凌乱手写,正确理解the问题配方，转换两者the问题and解决方案 to数学排版,identifytheﬁc步骤of推理wherethe学生去了错误在解决the问题,and然后给a工作通过正确解决方案tothe问题。This打开向上令人兴奋教育可能性，and我们相信the新多模态and推理能力of 双子座模型have戏剧性应用程序跨越许多ﬁ领域。图1验证a学生的解决方案toa物理问题。The模型iscableto正确承认 | allofthe手写内容and验证the推理。On顶部of理解the文本在the image,it需要to理解the问题设置and正确跟随说明to生成LTX.AE The推理能力of大语言模型显示promise朝向建筑通才代理商那个can铲球更多复杂多步骤问题。The字母码团队已建成字母码2（Leblondetal,2023a新双子座动力代理人,那个结合双子座的推理能力与搜索and工具使用toexcel在解决竞争性编程问题。字母码2 等级内the顶部15%of参赛者上theCodeforces竞争性编程平台,a大改进超过其最先进的前身在the顶部50%(Lietal.,2022 在串联,我们提前the边疆ofe-ciency与双子座纳米，a系列of小模型靶向在设备上部署。These模型excel在在设备上任务,suchas总结，阅读理解，文本完成任务,and展览令人印象深刻能力在推理,STEM, 编码,多模态,and多语言任务相对to他们的尺寸。在thefollowingsects,我们ﬁrst提供an概述ofthe模型architecture,培训以下- 结构,and培训数据集。我们然后当前详细评价ofthe双子座模型家庭,覆盖经过充分研究基准and人类偏好评价跨越文本,代码,image,音频 and视频—whichinclude两者English性能and多语言能力。我们还讨论我们的方法to负责任部署,2包括我们的过程for影响评估,正在开发模型政策,评估，and缓解措施of伤害之前部署decisions.最后,我们讨论the更广泛的implicationsof双子座,其限制旁边其电位应用程序—铺路the方式fora新时代of研究and创新在AI. 2.模型建筑双子座模型build上顶部of变压器解码器(Vaswanietal.,2017那个are增强与改进在建筑and模型优化to启用稳定培训在规模and优化推理上Google的张量处理单位。Theyare训练有素to支持32k上下文长度, employment有效注意机制(for例如多查询注意(沙泽尔,2019我们的ﬁrst 版本,双子座1.0,comprisesthree主要尺寸to支持a宽范围of应用程序as讨论在Table1 模型尺寸模型描述 Ultra我们的最多有能力的模型那个交付最先进的性能跨越a宽范围of高度复杂任务,包括推理and多模态任务。Itis 认真地提供服务在规模上TPU加速器到期tothe双子座架构。 ProA性能优化模型在术语of成本as良好的as延迟那个交付显著ﬁ不能性能跨越a宽范围of任务。This模型展品坚强推理性能and广泛的多模态能力。纳米我们的最多有效模型，designedto运行在设备上。我们训练有素两个版本of 纳米，与1.8B(Nano-1)and3.25B(Nano-2)参数,靶向低and高记忆设备分别。Itis训练有素由蒸馏从较大双子座模型。It is4位量化for部署and提供同类最佳性能。 Table1|An概述ofthe双子座1.0模型family. 双子座模型are训练有素to可容纳文本输入交错与a宽品种of音频 and视觉输入，suchas自然images,图表，截图,PDF,and视频,andtheycan产生文本and图像输出(请参阅图2The视觉编码of双子座模型is启发由我们的自己的基础工作上火烈鸟(Alayracetal.,2022CoCa(Yuetal.,2022a),andPaLI(Chenetal.,2022与the重要区别那个the模型are多模态从the开始andcan 本机输出图像使用离散图像令牌(Rameshetal.,2021Yuetal.,2022b)。视频理解is已完成由编码the视频asa序列of框架在the大上下文窗口。视频框架or图像canbe交错自然与文本or音频aspartofthe 模型输入。The模型can手柄变量输入分辨率在订单to花费更多计算上 2我们计划to更新这个报告与更多详细信息前方ofthe一般可用性ofthe双子座Ultra模型。图2|双子座支架交错序列of文本,image,音频,and视频as输入(插图由令牌of不同的颜色在the输入序列)。Itcan输出响应与交错图像and文本。任务那个需要ﬁne粒度理解。在addition,双子座can直接摄取音频信号在 16kHz从通用演讲稿模型(USM)(张etal.,2023功能。This启用the模型to 捕获细微差别那个are通常情况下丢失whenthe音频is天真映射toa文本输入(for例如,看到音频理解演示上the网站)。培训the双子座家庭of模型需要创新在培训算法，数据集,and 基础设施。ForthePro模型，the固有的可扩展性of我们的基础设施and学习算法启用我们to完成预培训在a物质of周，利用a分数oftheUltra的资源。 The纳米系列of模型杠杆额外进步在蒸馏and培训算法 to产生the同类最佳小语言模型fora宽品种of任务,suchas总结 and阅读理解，which功率我们的next代在设备上经验。 3.培训基础设施我们训练有素双子座模型使用TPUv5eandTPUv4(朱皮etal.,2023取决于上他们的尺寸 and配置ﬁ配置。培训双子座Ultrauseda大ﬁeetofTPUv4加速器跨越多个数据中心。This代表a显著ﬁ不能增加在规模超过我们的先前ﬁagship模型PaLM-2which已提交新基础设施挑战。缩放向上the编号of加速器结果在a 成比例减少在themeans时间between失败of硬件在the总体系统。我们最小化therateof计划重新安排and先发制人,但是正品机器失败are 司空见惯跨越all硬件加速器在such大scales,到期to外部因素suchas 宇宙射线(米哈拉克etal.,2012 TPUv4加速器are已部署在"SuperPods"of4096薯片,每个已连接toa专用光学开关,whichcan动态再ﬁgure4x4x4芯片立方体into任意3D圆环拓扑在周围10秒(朱皮etal.,2023For双子座Ultra,我们决定to保留a小编号of 立方体persuperpodto允许for热备用and滚压维护。 TPU加速器主要是沟通超过the高速度芯片间互连，但是在双子座Ultrascale,我们联合收割机SuperPods在多个数据中心使用Google的集群内and 集群间网络(波蒂耶夫斯基etal.,2022Wetheralletal.,2023yaoHongetal.,2018Google的网络延迟and带宽aresuúcientto支持the通常used同步培训范式，利用模型并行性内超足类and数据并行性跨越超足类。

点击免费查看完整报告

你可能感兴趣

译生多模型大模型双子座（汉）

双子座多模态模型家族的全面概述

核心亮点

模型构建与训练

评价与应用

技术创新与挑战

评价与比较

结论

你可能感兴趣

加推新致软件多款大模型深度合作AI应用拓展多行业与多款生

【财联社早知道】刷屏! OpenAI发布首个文生视频模型这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权

【电报解读】苹果入局生成式Al领域，多模态大模型新一轮浪潮有望开启，这家公司在腾讯优图实验室多模态大语言模型测评中，综合得分排名第一-20240321

【盘中宝】重大进展，谷歌发布新一代AI模型，多模态能力大幅增强，有望开启新一轮多模态大模型浪潮，这家企业多模态预训练大模型已完成数据收集和清理，目前进入实验性训练阶段-20240219

译生多模型大模型双子座 （ 汉 ）

你可能感兴趣

加推新致软件多款大模型深度合作AI应用拓展多行业与多款生

【财联社早知道】刷屏! OpenAI发布首个文生视频模型 这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游 元梦之星 IP授权

【电报解读】苹果入局生成式Al领域，多模态大模型新一轮浪潮有望开启，这家公司在腾讯优图实验室多模态大语言模型测评中，综合得分排名第一-20240321

【盘中宝】重大进展，谷歌发布新一代AI模型，多模态能力大幅增强，有望开启新一轮多模态大模型浪潮，这家企业多模态预训练大模型已完成数据收集和清理，目前进入实验性训练阶段-20240219

译生多模型大模型双子座（汉）

【财联社早知道】刷屏! OpenAI发布首个文生视频模型这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

【财联社早知道】华为申请AI模型处理专利，以提高AI模型在存储和传输方面的机密性，这家公司参股企业是业界领先的多模态AI行业大模型与算法服务提供商；这家公司已获得腾讯新“游元梦之星 IP授权