谷歌发布Gemini Ultra 1.0,并官宣下一代大模型Gemini1.5。谷歌将Bard更名为Gemini,同时发布Ultra 1.0大模型支持Gemini Advanced服务与移动端应用。谷歌系列应用将全面整合Gemini,构建Gemini生态,当前数十万开发人员和企业已经在使用Gemini模型,其中Workspace和Google Cloud已实现上新。2024年2月15日,谷歌宣布了下一代大模型Gemini 1.5,其中1.5Pro版本采用MoE模型构建高效架构,并提供1000ktokens的超长上下文窗口实现海量信息的复杂推理,实际性能可能已超越GPT-4,大模型工程能力涌现。 OpenAI发布文生视频模型Sora,并开启ChatGPT记忆存储功能。 2024年2月15日,OpenAI发布可视化数据的通用模型Sora,实现利用文字、图像、视频生成不同持续时间、宽高比和分辨率的视频,甚至可以生成长达一分钟的高清视频。Sora生成视频内容的物体一致性、动作连贯性、视觉空间感以及色彩、细节已经远超Gen-2、Pika、Runway等已有的文生视频模型,多模态领域实现飞跃式进展。技术方面,OpenAI找到了与文本模型的令牌“token”所对应的视觉模型统一表达形式——视觉块“patch”,并发现扩散Transformer与大语言模型一样可以有效规模化扩展,多模态大模型“涌现”时刻已至。我们认为,文生视频技术已步入工业级应用阶段,Sora或重塑影视传媒行业格局。 2024年2月14日凌晨,OpenAI宣布正在测试ChatGPT记住用户提问内容的能力,同时可以自由控制其内存,打造个性化AI助手,ChatGPT可实现对话记忆可控,用户可清除其部分记忆,或直接开启无记忆临时会话。 英伟达建立设计定制芯片新部门,发布Chat With RTX本地运行大模型。根据路透社2月10日报道,英伟达正在建立一个新的业务部门,专注于为云计算公司设计定制芯片,包括先进的人工智能处理器,以寻求300亿美元定制芯片市场机会,满足科技大厂定制化需求。英伟达官网发布Chat With RTX,一款可在PC端下载安装本地运行的大模型,依靠两款开源LLM能力(即Mistral和Llama 2),大幅缩减了生成时间并确保用户隐私安全,加速小模型个性化服务推广,拉开了AI PC时代的序幕。 投资建议:见正文。 风险提示:新技术应用落地不及预期;大模型终端部署不及预期;大国博弈风险 1谷歌 1.1谷歌发布Gemini Ultra 1.0,全面构建Gemini生态 谷歌将Bard更名为Gemini,同时发布Ultra 1.0大模型支持Gemini Advanced服务。2024年2月8日,谷歌发布Gemini Ultra 1.0版本,该模型是第一个在MMLU(大规模多任务语言理解)上优于人类专家的模型。Gemini系列包含三种不同尺寸的模型:Ultra是最大且能力最强的,用于处理高难度任务;Pro是最好的扩展模型,用于处理广泛任务;Nano系列是最高效的模型,可安装于终端设备。借助Ultra 1.0模型,谷歌推出Gemini Advanced服务,大幅提升了在编码、逻辑推理、执行细节指令和协作创意项目等高度复杂的任务的能力。Gemini Advanced不仅可以让用户进行更长、更详细的对话,还可以更好地理解提示的上下文:(1)Gemini Advanced可以成为私人导师,根据用户学习风格创建分步说明、示例测验或来回讨论;(2)可以帮助用户使用更高级的编码方案,并评估不同的编码方法;(3)可以帮助创意工作者通过生成个性内容、分析最新趋势、为改进方法提供建议。 图1.谷歌Gemini包含三种不同尺寸的模型 Gemini在移动端进行了应用更新。谷歌为Gemini和Gemini Advanced推出新的移动体验,在Android上推出一款新应用,并在iOS上推出一款Google应用。借助手机上的Gemini,可以在旅途中输入、通话或添加图像以获得各种帮助:用户可以拍摄漏气的轮胎并请求说明,为晚宴邀请生成自定义图像,或撰写寻求帮助的短信,致力于构建一个对话式、多模态和实用的助手。 图2.在手机端拍照询问Gemini 图3.在iOS系统访问Gemini Gemini Ultra的文本方面性能优异。MMLU用于测试大模型知识和解决问题的能力,使用57个科目包括数学、物理、历史、法律、医学和伦理,Ultra 1.0是第一个在MMLU优于人类专家的模型。总体上,Gemini Pro可与市面上几种功能最强大的模型相媲美,而Gemini Ultra在绝大多数指标上排名第一。 图4.Gemini系列与其他大模型在文本能力的对比 全面构建Gemini生态,开发人员与企业合作将持续加码。谷歌系列应用将全面整合Gemini,当前数十万开发人员和企业已经在使用Gemini模型进行构建,其中Workspace和Google Cloud已实现上新: Workspace:已经有超过100万人正在使用“帮助我写作”等功能,通过Duet AI提高他们的工作效率和创造力。Duet AI将成为Gemini for Workspace,很快拥有Google One AI Premium计划的消费者就可以在Gmail、文档、表格、幻灯片和Meet中使用Gemini。 Google Cloud:对于云客户来说,Duet AI也将在未来几周内成为Gemini。 Gemini将帮助公司提高生产力,提高开发人员编码速度,帮助组织保护自己免受网络攻击等。 1.2Gemini 1.5 Pro达到1000ktokens上下文,工程能力涌现 MoE模型构建Gemini 1.5 Pro高效架构,超长上下文窗口实现海量信息的复杂推理。2024年2月15日,谷歌宣布了下一代大模型Gemini 1.5。Gemini1.5系列建立在对Transformer和MoE架构的领先研究之上,传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络,能够选择性地仅激活其神经网络中最相关的专家通路,极大地提高了模型效率。而谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,已深入理解MoE技术,在Gemini系列的训练和部署上也变得更加高效。Gemini 1.5 Pro带有标准的128ktokens的上下文窗口,部分开发人员和企业客户可以通过AI Studio和Vertex AI中使用最多1000k tokens的上下文窗口进行试用。1000k tokens意味着1.5 Pro能够一次性处理1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词,在谷歌测试中曾经一度突破10,000k tokens极限。更大的上下文窗口可使模型处理更多信息,从而让输出结果更加精准可用。 图5.不同大模型上下文窗口长度对比 Gemini1.5 Pro长文本窗口带来海量信息精准检索能力。在“大海捞针”测试中,对于文本处理,Gemini 1.5 Pro在处理高达530k tokens的文本能够完全成功检索,在处理1000k tokens的文本时达到99.7%的检索完整性。甚至在处理高达10,000k tokens的文本时,检索准确性仍然高达99.2%;成功通过3小时视频(2 .8M tokens)与22小时音频( 2M tokens)检索测试,表明对一般长度的多模态数据具备精准信息检索能力,其性能未来可适应B端工业级应用。 图6.Gemini 1.5在视频、音频、文本数据的“大海捞针”测试结果 Gemini 1.5的诞生意味着大模型长文本限制问题或已解决,MoE模型可提供更高的效率,1.5Pro实际性能可能已超越GPT-4。在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5 Pro在87.1%的基准测试上超越了1.0 Pro,尤其文本方面1.5 Pro全面获胜;在54.8%的基准测试上超过1.0 Ultra,与其近乎达到相同的质量,但计算用时更少。考虑到Gemini1.0 Ultra性能与GPT-4相近,Gemini 1.5 Pro可能标志着谷歌在大模型研究和工程创新上,已超越GPT-4。 图7.Gemini1.5 Pro与Gemini 1.0系列对比 2OpenAI 2.1OpenAI发布文生视频模型Sora,多模态领域实现飞跃式进展 文生视频步入工业级应用阶段,Sora或重塑影视传媒行业格局。2024年2月15日,OpenAI发布可视化数据的通用模型Sora,实现利用文字、图像、视频生成不同持续时间、宽高比和分辨率的视频,甚至可以生成长达一分钟的高清视频。Sora生成视频内容的物体一致性、动作连贯性、视觉空间感以及色彩、细节已经远超Gen-2、Pika、Runway等已有的文生视频模型,多模态领域实现飞跃式进展。在OpenAI官网给出的“时尚女性走在东京街道”案例显示,Sora生成的人物主体动作自然流畅,服饰特征基本保持稳定,面部特写的真实度和清晰度高,其背景人群和广告标识牌也能保持正确的空间方位、显示内容与一致性,表明该文生视频技术已具备应用于电影工业的资质,AI将成为生产、编辑视频的重要组成,影视传媒行业格局或将发生巨变。 图8.Sora生成长达一分钟的视频仍具备清晰、一致、稳定的背景细节 OpenAI找到了与文本模型的令牌“token”所对应的视觉模型统一表达形式——视觉块“patch”。OpenAI从大型语言模型中获得灵感,训练模型使用的词元编码/令牌(token)巧妙地统一了文本的多种形式——代码、数学和各种自然语言。Sora使用视觉块嵌入编码(visual patches)表达视觉数据模型,将高维视频压缩到一个低维隐性空间,然后将其分解为一系列时空视觉块,从而将视频转换成编码块序列。基于视觉块,Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。 图9.OpenAI将可视数据转换成视觉块 OpenAI发现扩散Transformer与大语言模型一样可以有效规模化扩展,多模态大模型“涌现”时刻已至。扩散模型通过给定输入的噪声块,来预测原始的“干净”块。Sora是一个扩散Transformer,而Transformer在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性,意味着作为视频模型的扩散Transformer可以有效扩展。在下图所示的宠物狗视频生成的基础计算、4次计算、16次计算案例表明,随着训练计算量的增加,样本质量显著提高。 图10.Sora是可扩展的扩散Transformer 图11.随着计算量提升,视频模型能力呈现“涌现”状态 从DALL·E 3中引入的重新标注技术让生成效果更为生动细腻。由于训练文生视频模型需要大量带有相应文字标注的视频素材,OpenAI引入基于DALL·E 3的重新标注技术:首先训练一个高度描述性的标注模型,然后将训练视频生成文字标注,再进一步训练可以大幅提高视频质量。 Sora的生成能力为创作者提供了有力工具,“idea”将越来越重要。基于文字、图像、视频,都可以进行进一步的生成创作,Sora已具备将任意素材进行拼接、转换与扩展的能力。 扩展生成视频:能够在时间上向前或向后扩展视频,给出相同的视频片段作为结局,模型可向前、向后补充扩展不同的故事线。 Video-to-video编辑:Sora应用SDEdit方法,能够保持主体运动状态与规律不变,更改输入视频的风格和环境。 连接视频:可在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝衔接。 图12.连接视频可使两个完全不相关的视频无缝衔接 Sora对物理空间的建模上升到一个新的高度,视频当中的运动可以保持人、物与空间的客观物理关系。Sora文生视频可以保持3D的一致性、长距离一致