Gemini 1.0正式上线,谷歌大模型迈出重要一步。12月6日,谷歌正式发布Gemini 1.0,Gemini 1.0提供了三个不同的尺寸版本:1)Gemini Ultra:规模最大、能力最强,用于处理高度复杂的任务;2)Gemini Pro:在各种任务上扩展的最佳模型;3)Gemini Nano:用于端侧(on-device)任务的最高效模型。Gemini在设计时原生地支持多模态,从一开始便在不同模态上进行了预训练,然后利用额外的多模态数据进行微调以提升有效性。因此,Gemini能够无缝地理解和推理各种输入,这也是谷歌在大模型方面迈出的关键一步。 Gemini有望赋能现有业务,谷歌旗下产品有望全线升级。据机器之心消息,谷歌将在其旗下产品中添加Gemini,例如Bard将使用Gemini Pro的微调版本来执行更高级的推理、规划、理解等任务,这也是Bard自推出以来最大的升级。升级版Bard将在170多个国家/地区提供英语版本,并且在不久的将来扩展到更多模态,并支持更多种语言。此外,谷歌还将Gemini引入了Pixel,Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。在接下来的几个月中,Gemini将陆续出现在谷歌更多的产品和服务中,包括搜索、广告、Chrome、Duet AI等。 大厂技术竞赛加速全球AI发展,AI赛道有望持续受益。技术研发上,为了与OpenAI和微软展开竞争,谷歌从PaLM 2切换到了Gemini,甚至在今年4月直接把Google Brain和DeepMind合并在了一起,Gemini由新组成的Google DeepMind汇合两个实验室的力量进行攻关。产品应用上,此前微软在Ignite大会上已宣称Copilot将赋能自家产品,此次谷歌也宣布将通过旗下产品将Gemini推向数十亿用户。AI产业的头部公司竞相实现技术与产品迭代,有望持续催化AI产业繁荣发展。 建议关注:焦点科技、万兴科技、虹软科技、科大讯飞、金山办公、福昕软件、同花顺、高新发展、神州数码、广电运通、龙芯中科、海光信息。 后文附录为德邦计算机团队关于Gemini1.0的实测体验,测试产品为谷歌旗下已融入Gemini Pro功能的Bard,对照产品为OpenAI旗下ChatGPT4,实测过程均由团队成员自行把握。 Bard入口:https://bard.google.com/chat ChatGPT4入口:https://chat.openai.com/ 风险提示:AI技术落地不及预期、市场需求不及预期、全球供应链风险加剧Gemini使用实测及体验总结:【重点更新】 (1)Gemini多模态:支持文本、图像、视频、音频输入,支持文本和图像输出。 (2)Gemini三个版本:Ultra、Pro、Nano。 (3)AlphaCode2:Gemini加成,擅长编程、涵盖了复杂的数学和理论计算机科学等问题。 (4)视频理解方面:从官方的演示视频里我们可以看到,Gemini对于演示人员的动作可以进行分析和推理,并且实时性很高。从类人角度看,实现了听、说、看、互动等,甚至可以同时识别和理解文本、图像和视频。 (5)应用融合情况:Bard和Pixel 8 Pro智能手机已经应用了Gemini,未来Gemini会被整合到Google的搜索引擎、广告产品、Chrome浏览器等。 (6)硬件层面:用了谷歌的TPU集群。Gemini Ultra用了最新版本的v5p,如图v5p在互联带宽方面的提升更显著。 图1:谷歌不同TPU加速器参数对比 【Bard体验】 最新的美区Bard已经引入了Gemini Pro的部分能力,但目前只支持英文。 图2:Bard美区更新日志 根据Gemini论文数据,Gemini Ultra的性能在自然图像、音频、视频理解、数学推理等方面超过或接近GPT-4。 图3:Gemini与其他大模型参数对比 体验环节:当前根据Bard接收输入的数据类型,我们主要进行了图像识别、理解能力方面的体验。 让Bard分析指数走势,如图所示,Bard从日K、技术指标、基本面来进行了分析。并与GPT4对比。 图4:Bard关于证券走势的分析 图5:Bard关于证券基本面的分析 图6:Bard关于证券技术指标的分析 同样的prompt问GPT4,GPT4的回答是图中指标的解释,与走势不大相关。 (中文版) 图7:ChatGPT4关于证券走势的分析(中文版) (英文版)仍然是解释图中指标,并没有进行走势的分析。 图8:ChatGPT4关于证券走势的分析(英文版) 总体来看,从语义理解以及回答的相关度及逻辑来看,在该prompt的情景下,Bard更贴近用户需求,但是准确度仍需提升。 官网演示视频截图在Bard中体验: (1)一开始识别成了一条蛇。 (2)这次识别出来是一只鸟,并猜测是天鹅,因为Bard觉得天鹅更受欢迎。 (3)最后成功识别出了鸭子、水面、波浪,但是忽略了蓝色,有一些幻觉例如水面上的鸭子倒影。总体来看对于图片的描述较为符合。 图9:谷歌官网演示视频截图在Bard中的测试 在GPT4进行同样内容的测试: 我们可以看到GPT4一开始就识别出了小鸭子,并且在最后的识别中也注意到了蓝色,除此之外,GPT4还关注到了图片中的播放按钮以及桌子。在简单prompt场景下,GPT4的优势体现了识别要素的广度和准确度。 图10:谷歌官网演示视频截图在ChatGPT4中的测试