邮箱: chenliangdong@mszq.com 12月6日谷歌发布多模态大模型Gemini。Gemini原生地支持多模态,使用图像、音频、视频和文字等数据进行预训练,其能够无缝地理解和推理各种输入,远远优于现有多模态模型,在各种领域都具有强大的理解和推理能力。 Gemini支持32k上下文长度,先发版本包括Ultra、Pro和Nano三种规格 1)Ultra是最强大的规格,适用于高度复杂的任务;2)Pro具有增强性能和大规模部署能力,适用于多任务;3)Nano适用于特定任务及移动设备。 Gemini多模态理解推理能力极强,测试结果或超越GPT-4 Gemini具有强大的多模态信息理解推理能力,其可以同时识别和理解文本、图像、音频等,擅长解释数学和物理等复杂学科的推理。在MMLU上,Gemini Ultra是第一个在57个学科上实现超过90%的人类专家水平得分的模型。据官方文档案例,1)如图2所示,Gemini能够理解学生杂乱的笔迹,理解关于滑雪者滑下斜坡的物理问题,识别出学生在解决问题时出错的具体推理步骤,并给出解决问题的正确方法。2)如图4所示,Gemini能够识别图像中显示的特定植物,并提供相关信息。尽管有错别字,Gemini仍能理解用户的问题。3)如图5所示,Gemini能够识别图像中的形状,理解它们的属性,并推理它们之间的关系,从而预测下一个物体。 专用TPU训练,TPU v5e推理性能提升2.5倍,成本降低50% 谷歌使用大量的TPU资源对Gemini进行训练,包括TPUv4和TPUv5e。规模最小的Gemini Nano的参数分别为18亿(Nano-1)和32.5亿(Nano-2)。 TPUv5e是谷歌专为提升大中型模型的训练、推理性能以及成本效益所设计,并且其内部张量处理单元的最新版本。与TPUv4相比,TPUv5e的大型语言模型提供的训练性能提高了2倍、推理性能提高了2.5倍。而TPUv5e的成本却不到TPUv4一半,使企业能够以更低的成本,训练和部署更大、更复杂的AI模型。 投资建议:我们认为AI技术突破或超市场预期。Gemini原生支持多模态,具有强大的理解和推理能力,TPUv5e实现成本降低与更强的训练能力。模型能力的提升与多模态的发展有望推动AI应用端的使用场景与内容创新,建议重点关注:1)有相关多模态产品布局且产品有望近期上线的公司;2)核心业务的应用场景有望受益的公司。建议关注昆仑万维、易点天下、浙文互联、紫天科技、汤姆猫、盛天网络、中文在线、南方传媒、世纪天鸿、元隆雅图、视觉中国、奥飞娱乐、蓝色光标、掌趣科技、中国电影、北京文化、新媒股份。 风险提示:AI技术发展不及预期、行业竞争加剧等。 图1:谷歌Bard内置Gemini进行更高级的强化 图2:Gemini的多模态推理能力展示案例 图3:在各种文本、数学、编码和推理基准测试中,Gemini表现出色 图4:Gemini的多模态问题解答效果 图5:Gemini的几何推理效果