事件:美国东部时间2023年12月6日,谷歌发布了Gemini1.0大模型,性能对标GPT-3.5的GeminiPro已可在Bard中体验,12月13日开发人员和企业客户可通过GoogleAI Studio和VertexAI的GeminiAPI访问Gemini Pro,预计将于24年初推出由GeminiUltra提供支持的BardAdvanced。 Gemini实现多模态能力,是迄今为止谷歌推出的最通用、最灵活的大模型。 Gemini可以在数据中心、谷歌云、移动端等设备和平台高效运行,赋能Bard、Pixel等多款产品。Gemini1.0包含三种不同版本:1)Gemini Ultra:体量最大、性能最强的版本,可以完成高度复杂任务;2)Gemini Pro:适用于各种扩展任务的模型。3)Gemini Nano:适用于端侧设备的高效模型。 Gemini在性能测试中展现出全方位的性能升级。1)自然图像、音频、视频理解和数学推理性能测试:Gemini Ultra在MMLU(数学、物理、历史等57门学科知识和解决问题能力)中的得分为90.0%(GPT-4为86.4%),是第一个在MMLU方面优于人类专家的模型;2)编码能力和数学能力:Gemini Ultra在多个编码基准测试中表现出色,包括用于评估编码任务性能的行业标准HumanEval和谷歌内部数据集Natural2Code;同时在基础性和挑战性数学测试中获得了高分。3)GeminiUltra日常任务推理中得分明显低于GPT-4。 通过DuetAI工具集,Gemini等底层技术进步可以较快地传导至应用端。谷歌推出AIGC驱动的工具集DuetAI,包括代码助手、聊天机器人助手、AI搜索等功能,与谷歌旗下产品生态有机结合:1)DuetAIforGoogleCloud:通过VertexAI协助开发者更高效地开发应用。2)DuetAIforWorkspace:提供AI驱动的内容生成编辑、数据可视化等功能,赋能办公体验。3)除DuetAI外,Gemini可用于搜索引擎、广告、Chrome浏览器等产品中。根据谷歌官方测试,Gemini明显提升了AI驱动的搜索生成体验(SGE)的速度,用户在美国运用英语搜索的延迟减少了40%,同时提高了检索质量。 Gemini与谷歌在AI设备端和硬件的布局相辅相成。1) 23M10 推出的Pixel8新机内置GoogleAI基础模型。搭载专为GoogleAI定制的TensorG3芯片。 2)与Gemini同步发布CloudTPUv5p。Gemini基于谷歌自研TPUv4和v5e架构训练,定制设计的AI加速器更加高效。3)推出设备端专用的轻量级GeminiNano。GeminiNano-1和Nano-2的参数仅达到18亿和32.5亿,但在事实性任务、推理、多模态、多语种等任务上表现出了较优秀的性能。 投资建议:DALL·E 3与GPTs实现丰富的应用场景,Pika1.0在AI视频领域进步显著,多模态大模型技术发展有望进一步推动多媒体领域AIGC应用涌现。 短期来看,AI图文生成距离成熟的商业化产品仍有差距,建议关注以下机会: 1)广告营销、自媒体等对视频质量要求不高领域;2)数字人直播等定制化空间小的模式。关注万兴科技、科大讯飞、蓝色光标、遥望科技。 中长期来看,AI降低内容创作壁垒,版权资源、创作经验仍是AI多媒体领域的核心竞争力,建议关注:1)北京文化:公司是《流浪地球》系列电影出品方,而pika和郭帆合作了《流浪地球3》,为G!lab电影工业化实验室的战略合作伙伴;2)拥有影视版权库的公司:捷成股份、华策影视;3)动画电影公司:奥飞娱乐、上海电影、光线传媒、百纳千成;4)布局AI视频/图片产品的公司:万兴科技、易点天下、美图公司。 风险提示:AI技术研发和产品迭代不及预期;AI降低门槛后内容创作竞争加剧风险;多模态大模型商业化进展不及预期风险;AI内容生成版权政策风险。 图1:搭配GeminiNano的Pixel8 Pro设备中的AI功能 图2:Pixel8 Pro的GooglePhotoAI模型优化光影效果 图3:GeminiNano1、Nano2、Pro、Ultra性能对比 图4:GeminiUltra与GPT-4等大模型在MMLU等数据集上的测试结果对比