热门搜索：

计算机行业投资策略周报：假期最值得关注的科技动态

信息技术2024-02-18杨烨财通证券f***

AI智能总结

报告摘要

谷歌与OpenAI的创新进展

谷歌：

Gemini系列：谷歌推出Gemini Ultra 1.0，这是首个在MMLU（大规模多任务语言理解）测试中超越人类专家的模型。Gemini系列包括Ultra、Pro和Nano三个尺寸，分别针对不同应用场景。
Gemini生态：全面整合Gemini模型，谷歌系列应用已上线Gemini服务，数十万开发者和企业正利用Gemini进行创新。
Gemini 1.5：发布Gemini 1.5 Pro版本，采用MoE模型，提供1000ktokens的超长上下文窗口，可能在实际性能上超越GPT-4。

OpenAI：

Sora模型：发布Sora，实现高质量的文字、图像、视频生成，提升多模态领域的技术水平。
记忆功能：ChatGPT新增记忆存储功能，用户可控制对话记忆，提升个性化助手体验。
扩散模型：通过扩散模型扩展视频生成技术，提高生成视频的质量和多样性。

英伟达的策略调整

定制芯片部门：英伟达成立新部门，专注于为云计算公司设计定制芯片，应对市场竞争。
ChatWith RTX：推出ChatWith RTX，允许在本地运行，降低延迟，保护隐私，推动AI个性化服务。

投资建议

AI服务器与国产AI芯片：推荐关注海光信息、协创数据、神州数码、浪潮信息、中科曙光等。
C端应用：关注万兴科技、金山办公、美图公司、同花顺、科大讯飞、福昕软件、合合信息等。
教育应用：佳发教育、鸿合科技值得关注。
AI硬件与芯片：传音控股、漫步者、石头科技及与芯片厂商合作的公司如虹软科技、中科创达等。

风险提示

技术落地与更新：新技术应用可能面临落地速度低于预期的风险。
终端部署挑战：大模型在终端的部署可能因硬件更新缓慢而受限。
大国博弈风险：全球科技竞争可能影响技术的自由流通和算力供应。

谷歌发布Gemini Ultra 1.0，并官宣下一代大模型Gemini1.5。谷歌将Bard更名为Gemini，同时发布Ultra 1.0大模型支持Gemini Advanced服务与移动端应用。谷歌系列应用将全面整合Gemini，构建Gemini生态，当前数十万开发人员和企业已经在使用Gemini模型，其中Workspace和Google Cloud已实现上新。2024年2月15日，谷歌宣布了下一代大模型Gemini 1.5，其中1.5Pro版本采用MoE模型构建高效架构，并提供1000ktokens的超长上下文窗口实现海量信息的复杂推理，实际性能可能已超越GPT-4，大模型工程能力涌现。 OpenAI发布文生视频模型Sora，并开启ChatGPT记忆存储功能。 2024年2月15日，OpenAI发布可视化数据的通用模型Sora，实现利用文字、图像、视频生成不同持续时间、宽高比和分辨率的视频，甚至可以生成长达一分钟的高清视频。Sora生成视频内容的物体一致性、动作连贯性、视觉空间感以及色彩、细节已经远超Gen-2、Pika、Runway等已有的文生视频模型，多模态领域实现飞跃式进展。技术方面，OpenAI找到了与文本模型的令牌“token”所对应的视觉模型统一表达形式——视觉块“patch”，并发现扩散Transformer与大语言模型一样可以有效规模化扩展，多模态大模型“涌现”时刻已至。我们认为，文生视频技术已步入工业级应用阶段，Sora或重塑影视传媒行业格局。 2024年2月14日凌晨，OpenAI宣布正在测试ChatGPT记住用户提问内容的能力，同时可以自由控制其内存，打造个性化AI助手，ChatGPT可实现对话记忆可控，用户可清除其部分记忆，或直接开启无记忆临时会话。英伟达建立设计定制芯片新部门，发布Chat With RTX本地运行大模型。根据路透社2月10日报道，英伟达正在建立一个新的业务部门，专注于为云计算公司设计定制芯片，包括先进的人工智能处理器，以寻求300亿美元定制芯片市场机会，满足科技大厂定制化需求。英伟达官网发布Chat With RTX，一款可在PC端下载安装本地运行的大模型，依靠两款开源LLM能力（即Mistral和Llama 2），大幅缩减了生成时间并确保用户隐私安全，加速小模型个性化服务推广，拉开了AI PC时代的序幕。投资建议：见正文。风险提示：新技术应用落地不及预期；大模型终端部署不及预期；大国博弈风险 1谷歌 1.1谷歌发布Gemini Ultra 1.0，全面构建Gemini生态谷歌将Bard更名为Gemini，同时发布Ultra 1.0大模型支持Gemini Advanced服务。2024年2月8日，谷歌发布Gemini Ultra 1.0版本，该模型是第一个在MMLU（大规模多任务语言理解）上优于人类专家的模型。Gemini系列包含三种不同尺寸的模型：Ultra是最大且能力最强的，用于处理高难度任务；Pro是最好的扩展模型，用于处理广泛任务；Nano系列是最高效的模型，可安装于终端设备。借助Ultra 1.0模型，谷歌推出Gemini Advanced服务，大幅提升了在编码、逻辑推理、执行细节指令和协作创意项目等高度复杂的任务的能力。Gemini Advanced不仅可以让用户进行更长、更详细的对话，还可以更好地理解提示的上下文：（1）Gemini Advanced可以成为私人导师，根据用户学习风格创建分步说明、示例测验或来回讨论；（2）可以帮助用户使用更高级的编码方案，并评估不同的编码方法；（3）可以帮助创意工作者通过生成个性内容、分析最新趋势、为改进方法提供建议。图1.谷歌Gemini包含三种不同尺寸的模型 Gemini在移动端进行了应用更新。谷歌为Gemini和Gemini Advanced推出新的移动体验，在Android上推出一款新应用，并在iOS上推出一款Google应用。借助手机上的Gemini，可以在旅途中输入、通话或添加图像以获得各种帮助：用户可以拍摄漏气的轮胎并请求说明，为晚宴邀请生成自定义图像，或撰写寻求帮助的短信，致力于构建一个对话式、多模态和实用的助手。图2.在手机端拍照询问Gemini 图3.在iOS系统访问Gemini Gemini Ultra的文本方面性能优异。MMLU用于测试大模型知识和解决问题的能力，使用57个科目包括数学、物理、历史、法律、医学和伦理，Ultra 1.0是第一个在MMLU优于人类专家的模型。总体上，Gemini Pro可与市面上几种功能最强大的模型相媲美，而Gemini Ultra在绝大多数指标上排名第一。图4.Gemini系列与其他大模型在文本能力的对比全面构建Gemini生态，开发人员与企业合作将持续加码。谷歌系列应用将全面整合Gemini，当前数十万开发人员和企业已经在使用Gemini模型进行构建，其中Workspace和Google Cloud已实现上新： Workspace：已经有超过100万人正在使用“帮助我写作”等功能，通过Duet AI提高他们的工作效率和创造力。Duet AI将成为Gemini for Workspace，很快拥有Google One AI Premium计划的消费者就可以在Gmail、文档、表格、幻灯片和Meet中使用Gemini。 Google Cloud：对于云客户来说，Duet AI也将在未来几周内成为Gemini。 Gemini将帮助公司提高生产力，提高开发人员编码速度，帮助组织保护自己免受网络攻击等。 1.2Gemini 1.5 Pro达到1000ktokens上下文，工程能力涌现 MoE模型构建Gemini 1.5 Pro高效架构，超长上下文窗口实现海量信息的复杂推理。2024年2月15日，谷歌宣布了下一代大模型Gemini 1.5。Gemini1.5系列建立在对Transformer和MoE架构的领先研究之上，传统的Transformer是一个大型神经网络，而MoE模型则被划分为更小的“专家”神经网络，能够选择性地仅激活其神经网络中最相关的专家通路，极大地提高了模型效率。而谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究，已深入理解MoE技术，在Gemini系列的训练和部署上也变得更加高效。Gemini 1.5 Pro带有标准的128ktokens的上下文窗口，部分开发人员和企业客户可以通过AI Studio和Vertex AI中使用最多1000k tokens的上下文窗口进行试用。1000k tokens意味着1.5 Pro能够一次性处理1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词，在谷歌测试中曾经一度突破10,000k tokens极限。更大的上下文窗口可使模型处理更多信息，从而让输出结果更加精准可用。图5.不同大模型上下文窗口长度对比 Gemini1.5 Pro长文本窗口带来海量信息精准检索能力。在“大海捞针”测试中，对于文本处理，Gemini 1.5 Pro在处理高达530k tokens的文本能够完全成功检索，在处理1000k tokens的文本时达到99.7%的检索完整性。甚至在处理高达10,000k tokens的文本时，检索准确性仍然高达99.2%；成功通过3小时视频（2 .8M tokens）与22小时音频（ 2M tokens）检索测试，表明对一般长度的多模态数据具备精准信息检索能力，其性能未来可适应B端工业级应用。图6.Gemini 1.5在视频、音频、文本数据的“大海捞针”测试结果 Gemini 1.5的诞生意味着大模型长文本限制问题或已解决，MoE模型可提供更高的效率，1.5Pro实际性能可能已超越GPT-4。在涵盖文本、代码、图像、音频和视频的综合性测试中，1.5 Pro在87.1%的基准测试上超越了1.0 Pro，尤其文本方面1.5 Pro全面获胜；在54.8%的基准测试上超过1.0 Ultra，与其近乎达到相同的质量，但计算用时更少。考虑到Gemini1.0 Ultra性能与GPT-4相近，Gemini 1.5 Pro可能标志着谷歌在大模型研究和工程创新上，已超越GPT-4。图7.Gemini1.5 Pro与Gemini 1.0系列对比 2OpenAI 2.1OpenAI发布文生视频模型Sora，多模态领域实现飞跃式进展文生视频步入工业级应用阶段，Sora或重塑影视传媒行业格局。2024年2月15日，OpenAI发布可视化数据的通用模型Sora，实现利用文字、图像、视频生成不同持续时间、宽高比和分辨率的视频，甚至可以生成长达一分钟的高清视频。Sora生成视频内容的物体一致性、动作连贯性、视觉空间感以及色彩、细节已经远超Gen-2、Pika、Runway等已有的文生视频模型，多模态领域实现飞跃式进展。在OpenAI官网给出的“时尚女性走在东京街道”案例显示，Sora生成的人物主体动作自然流畅，服饰特征基本保持稳定，面部特写的真实度和清晰度高，其背景人群和广告标识牌也能保持正确的空间方位、显示内容与一致性，表明该文生视频技术已具备应用于电影工业的资质，AI将成为生产、编辑视频的重要组成，影视传媒行业格局或将发生巨变。图8.Sora生成长达一分钟的视频仍具备清晰、一致、稳定的背景细节 OpenAI找到了与文本模型的令牌“token”所对应的视觉模型统一表达形式——视觉块“patch”。OpenAI从大型语言模型中获得灵感，训练模型使用的词元编码/令牌（token）巧妙地统一了文本的多种形式——代码、数学和各种自然语言。Sora使用视觉块嵌入编码（visual patches）表达视觉数据模型，将高维视频压缩到一个低维隐性空间，然后将其分解为一系列时空视觉块，从而将视频转换成编码块序列。基于视觉块，Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。图9.OpenAI将可视数据转换成视觉块 OpenAI发现扩散Transformer与大语言模型一样可以有效规模化扩展，多模态大模型“涌现”时刻已至。扩散模型通过给定输入的噪声块，来预测原始的“干净”块。Sora是一个扩散Transformer，而Transformer在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性，意味着作为视频模型的扩散Transformer可以有效扩展。在下图所示的宠物狗视频生成的基础计算、4次计算、16次计算案例表明，随着训练计算量的增加，样本质量显著提高。图10.Sora是可扩展的扩散Transformer 图11.随着计算量提升，视频模型能力呈现“涌现”状态从DALL·E 3中引入的重新标注技术让生成效果更为生动细腻。由于训练文生视频模型需要大量带有相应文字标注的视频素材，OpenAI引入基于DALL·E 3的重新标注技术：首先训练一个高度描述性的标注模型，然后将训练视频生成文字标注，再进一步训练可以大幅提高视频质量。 Sora的生成能力为创作者提供了有力工具，“idea”将越来越重要。基于文字、图像、视频，都可以进行进一步的生成创作，Sora已具备将任意素材进行拼接、转换与扩展的能力。扩展生成视频：能够在时间上向前或向后扩展视频，给出相同的视频片段作为结局，模型可向前、向后补充扩展不同的故事线。 Video-to-video编辑：Sora应用SDEdit方法，能够保持主体运动状态与规律不变，更改输入视频的风格和环境。连接视频：可在两个输入视频之间逐渐插入，在具有完全不同主题和场景构图的视频之间创建无缝衔接。图12.连接视频可使两个完全不相关的视频无缝衔接 Sora对物理空间的建模上升到一个新的高度，视频当中的运动可以保持人、物与空间的客观物理关系。Sora文生视频可以保持3D的一致性、长距离一致

点击免费查看完整报告

你可能感兴趣

计算机行业投资策略周报：假期最值得关注的科技动态

报告摘要

谷歌与OpenAI的创新进展

英伟达的策略调整

投资建议

风险提示

你可能感兴趣

计算机行业研究周报：人工智能将继续是接下来一年最值得关注的主线

交通运输行业投资策略周报：《政府工作报告》中值得关注的行业政策要点

医疗器械投资正热，我们研究了国内外最值得关注的心脏瓣膜置换产品

计算机行业投资策略周报：一季报预期的消化过程中适宜加大中长期配置，关注外部环境变化趋势

电力设备与新能源行业：打击骗补与暂停三元锂电池用于客车点评-风雨过后将现彩虹，新能源汽车仍是最值得投资的朝阳产业