您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌]:译生多模型大模型双子座 ( 汉 ) - 发现报告
当前位置:首页/行业研究/报告详情/

译生多模型大模型双子座 ( 汉 )

文化传媒2023-12-06-谷歌单***
译生多模型大模型双子座 ( 汉 )

双子座:AFamilyof高度Capable 多式联运模型 双子座团队,Google1 This报告介绍a新家庭of多模态模型,双子座,那个展览非凡能力 跨越image,音频,视频,and文本理解。The双子座家庭组成ofUltra,Pro,and纳米尺寸,合适for应用程序测距从复杂推理任务to在设备上内存约束 用例。评价上a广泛的范围of基准显示那个我们的最有能力的双子座Ultra模型 预付款thestateofthe艺术在30of32of这些基准—值得注意的是beingthefirst模型to实现人类专家性能上the经过充分研究考试基准MMLU,and改进thestateofthe 艺术在每一个一个ofthe20多模态基准我们已检查。我们相信那个the新能力of 双子座模型在交叉模态推理and语言理解将启用a宽品种of使用案例and我们讨论我们的方法朝向部署他们负责任的to用户。 1.Introduction 我们当前双子座,a家庭of高度有能力的多模态模型已开发在谷歌。我们训练有素双子座联合跨越image,音频,视频,and文本数据forthe目的of建筑a模型与两者坚强通才能力跨越模式旁边尖端理解and推理 性能在每个各自域。 双子座1.0,我们的first版本,come在three尺寸:Ultrafor高度复杂任务,Profor增强性能and可部署性在scale,and纳米for在设备上应用。每个尺寸is特别是fically 量身定制to地址不同的计算限制andapplicationrequirement.我们评估 the性能of双子座模型上a综合套房of内部and外部基准覆盖a宽范围of语言,编码,推理,and多模态任务。 双子座预付款最先进的在大规模语言建模(Aniletal.,2023棕色etal., 2020Chowdheryetal.,2023Ho夫曼etal.,2022OpenAI,2023a;拉德福德etal.,2019Raeetal.,2021图像理解(Alayracetal.,2022Chenetal.,2022Dosovitskiyetal.,2020 OpenAI,2023b;簧片etal.,2022Yuetal.,2022a),音频处理(拉德福德etal.,2023Zhangetal.,2023and视频理解(Alayracetal.,2022Chenetal.,2023It还builds上the 工作上序列模型(Sutskeveretal.,2014a长历史of工作在深学习基于上神经网络(LeCunetal.,2015and机器学习分布式系统(Barhametal.,2022布拉德伯里etal.,2018Deanetal.,2012那个启用大规模培训。 我们的最多有能力的模型,双子座Ultra,实现新最先进的结果在30of32基准我们报告on,包括10of12受欢迎文本and推理基准,9of9图像理解 基准,6of6视频理解基准,and5of5演讲识别and演讲 翻译基准。双子座Ultraisthefirst模型to实现人类专家性能上 MMLU(Hendrycksetal.,2021a)—a突出基准测试知识and推理viaa 套房of考试—与a分数上面90%.超越文本,双子座Ultramakes值得注意的是预付款上具有挑战性多模态推理任务。For例如,上the最近MMMU基准(月etal., 2023那个comprises问题关于图像上多学科任务需要学院级别主题 1请参阅捐款andAcknowledgments节forfull作者list.Please发送对应关系to双子座-1-report@google.com ©2023谷歌。All权利保留 知识and故意推理,双子座Ultra实现a新最先进的分数of62.4%, 表现优异the以前的最好的模型由更多than5百分比点。It提供a制服性能提升for视频question回答and音频理解基准。 定性评价陈列柜令人印象深刻交叉模态推理能力,启用the模型 to理解and原因跨越an输入序列of音频,images,and文本本机(请参阅图5andTable13考虑the教育设置描绘在图1asanexample.A教师has 绘制a物理问题ofa滑雪者去向下a斜坡,anda学生has工作通过a解决方案 toit.使用双子座的多模态推理能力,the模型iscableto理解the凌乱手写,正确理解the问题配方,转换两者the问题and解决方案 to数学排版,identifythefic步骤of推理wherethe学生去了错误在 解决the问题,and然后给a工作通过正确解决方案tothe问题。This打开向上令人兴奋教育可能性,and我们相信the新多模态and推理能力of 双子座模型have戏剧性应用程序跨越许多fi领域。 图1验证a学生的解决方案toa物理问题。The模型iscableto正确承认 | allofthe手写内容and验证the推理。On顶部of理解the文本在the image,it需要to理解the问题设置and正确跟随说明to生成LTX.AE The推理能力of大语言模型显示promise朝向建筑通才 代理商那个can铲球更多复杂多步骤问题。The字母码团队已建成字母码2(Leblondetal,2023a新双子座动力代理人,那个结合双子座的推理能力与搜索and工具使用toexcel在解决竞争性编程问题。字母码2 等级内the顶部15%of参赛者上theCodeforces竞争性编程平台,a大改进超过其最先进的前身在the顶部50%(Lietal.,2022 在串联,我们提前the边疆ofe-ciency与双子座纳米,a系列of小模型靶向在设备上部署。These模型excel在在设备上任务,suchas总结, 阅读理解,文本完成任务,and展览令人印象深刻能力在推理,STEM, 编码,多模态,and多语言任务相对to他们的尺寸。 在thefollowingsects,我们first提供an概述ofthe模型architecture,培训以下- 结构,and培训数据集。我们然后当前详细评价ofthe双子座模型家庭,覆盖经过充分研究基准and人类偏好评价跨越文本,代码,image,音频 and视频—whichinclude两者English性能and多语言能力。我们还讨论 我们的方法to负责任部署,2包括我们的过程for影响评估,正在开发 模型政策,评估,and缓解措施of伤害之前部署decisions.最后,我们讨论the更广泛的implicationsof双子座,其限制旁边其电位应用程序—铺路the方式fora新时代of研究and创新在AI. 2.模型建筑 双子座模型build上顶部of变压器解码器(Vaswanietal.,2017那个are增强与改进在建筑and模型优化to启用稳定培训在规模and优化 推理上Google的张量处理单位。Theyare训练有素to支持32k上下文长度, employment有效注意机制(for例如多查询注意(沙泽尔,2019我们的first 版本,双子座1.0,comprisesthree主要尺寸to支持a宽范围of应用程序as讨论在Table1 模型尺寸模型描述 Ultra我们的最多有能力的模型那个交付最先进的性能跨越a宽范围of高度复杂任务,包括推理and多模态任务。Itis 认真地提供服务在规模上TPU加速器到期tothe双子座架构。 ProA性能优化模型在术语of成本as良好的as延迟那个交付显著fi不能性能跨越a宽范围of任务。This模型展品坚强推理性能and广泛的多模态能力。 纳米我们的最多有效模型,designedto运行在设备上。我们训练有素两个版本of 纳米,与1.8B(Nano-1)and3.25B(Nano-2)参数,靶向低and高记忆设备分别。Itis训练有素由蒸馏从较大双子座模型。It is4位量化for部署and提供同类最佳性能。 Table1|An概述ofthe双子座1.0模型family. 双子座模型are训练有素to可容纳文本输入交错与a宽品种of音频 and视觉输入,suchas自然images,图表,截图,PDF,and视频,andtheycan产生 文本and图像输出(请参阅图2The视觉编码of双子座模型is启发由我们的自己的基础工作上火烈鸟(Alayracetal.,2022CoCa(Yuetal.,2022a),andPaLI(Chenetal.,2022与the重要区别那个the模型are多模态从the开始andcan 本机输出图像使用离散图像令牌(Rameshetal.,2021Yuetal.,2022b)。 视频理解is已完成由编码the视频asa序列of框架在the大 上下文窗口。视频框架or图像canbe交错自然与文本or音频aspartofthe 模型输入。The模型can手柄变量输入分辨率在订单to花费更多计算上 2我们计划to更新这个报告与更多详细信息前方ofthe一般可用性ofthe双子座Ultra模型。 图2|双子座支架交错序列of文本,image,音频,and视频as输入(插图由令牌of不同的颜色在the输入序列)。Itcan输出响应与交错图像and文本。 任务那个需要fine粒度理解。在addition,双子座can直接摄取音频信号在 16kHz从通用演讲稿模型(USM)(张etal.,2023功能。This启用the模型to 捕获细微差别那个are通常情况下丢失whenthe音频is天真映射toa文本输入(for例如,看到音频理解演示上the网站)。 培训the双子座家庭of模型需要创新在培训算法,数据集,and 基础设施。ForthePro模型,the固有的可扩展性of我们的基础设施and学习算法启用我们to完成预培训在a物质of周,利用a分数oftheUltra的资源。 The纳米系列of模型杠杆额外进步在蒸馏and培训算法 to产生the同类最佳小语言模型fora宽品种of任务,suchas总结 and阅读理解,which功率我们的next代在设备上经验。 3.培训基础设施 我们训练有素双子座模型使用TPUv5eandTPUv4(朱皮etal.,2023取决于上他们的尺寸 and配置fi配置。培训双子座Ultrauseda大fieetofTPUv4加速器跨越多个 数据中心。This代表a显著fi不能增加在规模超过我们的先前fiagship模型PaLM-2which已提交新基础设施挑战。缩放向上the编号of加速器结果在a 成比例减少在themeans时间between失败of硬件在the总体系统。我们最小化therateof计划重新安排and先发制人,但是正品机器失败are 司空见惯跨越all硬件加速器在such大scales,到期to外部因素suchas 宇宙射线(米哈拉克etal.,2012 TPUv4加速器are已部署在"SuperPods"of4096薯片,每个已连接toa专用光学开关,whichcan动态再figure4x4x4芯片立方体into任意3D圆环拓扑 在周围10秒(朱皮etal.,2023For双子座Ultra,我们决定to保留a小编号of 立方体persuperpodto允许for热备用and滚压维护。 TPU加速器主要是沟通超过the高速度芯片间互连,但是在 双子座Ultrascale,我们联合收割机SuperPods在多个数据中心使用Google的集群内and 集群间网络(波蒂耶夫斯基etal.,2022Wetheralletal.,2023yaoHongetal.,2018Google的 网络延迟and带宽aresuúcientto支持the通常used同步培训范式,利用模型并行性内超足类and数据并行性跨越超足类。