Gemini 1.5在多模态的复杂信息推理方面取得突破。Gemini 1.5在长语境理解方面取得突破,能够显著增加模型可处理的信息量——持续运行多达100万个tokens。Gemini 1.5 Pro可以在给定的提示符内无缝地分析、分类和总结大量内容;对不同的模式执行高度复杂的理解和推理任务,包括视频;可以对100,000行代码进行推理,给出有用的解决方案、修改和解释。 Sora视频生成效果惊艳。Sora采用Transformer架构,能从看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,并且可以在延长已生成的视频的同时,保持主体的一致性。能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。Sora采用了DALL·E3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画,扩展现有视频或补全缺失的帧。 V-JEPA自监督学习模型,像人类一样学习。作为一种非生成模型,V-JEPA依靠未标记的数据进行预训练,通过预测抽象表示空间中视频的缺失或屏蔽部分来学习。V-JEPA的研究表明,其可以一次性预训练模型,不依赖任何标记数据,然后将模型用于多个不同的任务。 投资建议。三大模型性能优良,未来应用场景广泛,有望带动AIGC行业进一步发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注: 1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 风险提示:多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。 一、Gemini、Sora与V-JEPA三大模型谁与争锋 Gemini 1.5在多模态的复杂信息推理方面取得突破。Gemini 1.5 Pro是基于Transformer的稀疏混合专家(MoE)模型。Gemini 1.5 Pro达到了与1.0 Ultra相当的质量,并使用了更少的计算。该模型在长语境理解方面取得突破,能够显著增加模型可处理的信息量——持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口,同时成功测试了多达1000万个tokens。Gemini 1.5 Pro可以在给定的提示符内无缝地分析、分类和总结大量内容;对不同的模式执行高度复杂的理解和推理任务,包括视频;可以对100,000行代码进行推理,给出有用的解决方案、修改和解释。 Sora视频生成效果惊艳。Sora采用Transformer架构,能从看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,并可以延长已生成的视频,同时保持主体的一致性。从而实现了卓越的性能扩展。OpenAI把视频和图像分解为较小的数据单元——patches,每个patches相当于GPT中的一个token。这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。Sora采用了DALL·E3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画,扩展现有视频或补全缺失的帧。 V-JEPA自监督学习模型,像人类一样学习。JEPA(Joint-Embedding Predictive Architecture)不同于Transformer,是由Yann LeCun的世界模型理论中提出的,是一种自监督学习的新架构。作为一种非生成模型,它依靠未标记的数据进行预训练,通过预测抽象表示空间中视频的缺失或屏蔽部分来学习。V-JEPA的研究表明,其可以一次性预训练模型,不依赖任何标记数据,然后将模型用于多个不同的任务,如动作分类、细粒度物体交互识别和活动定位,开辟了全新的可能。 图表1三大模型功能比较 二、三大模型具体展示 1、Google的Gemini 1.5 领先的基础模型和架构,增强的上下文处理能力。Gemini 1.5采用先进的混合专家模型(MoE)架构,这种架构通过将大型神经网络分解为更小的“专家”网络,并根据输入类型选择性激活最相关的专家路径来提高模型的效率和性能。此外,Gemini 1.5 Pro在上下文处理能力上取得了显著进展,扩展了上下文窗口的容量,支持高达128,000个token的标准处理,甚至在特定条件下能够处理最多100万个token。这一扩展使模型能够一次性处理大量信息,如长视频、大型代码库和详细的文档,并具备无缝分析、分类和总结大量内容的能力,对大数据集进行复杂的推理和理解。 信息处理能力强大,支持多模态复杂信息推理。Gemini 1.5可处理1个小时的视频,11个小时的音频,70万单词文本或者3万行代码。Gemini 1.5不仅可以处理文本,还能理解和推理包括视频、音频和图像在内的不同模式的输入等跨模式功能。同时,模型能够准确分析和推理电影、大型代码库和详细的文档中的复杂情节和内容,完成高度复杂的任务处理。 图表2 Gemini 1.5复杂信息处理及推理表现优异 代码块推理能力强大,性能提升。模型可以跨越超过10万行代码块的代码库,进行推理,提出有用的修改建议,并能解释代码如何工作。在多个综合评估中,Gemini 1.5 Pro在87%的测试中优于1.0 Pro,与1.0 Ultra的性能大致相似,即使是在处理大量上下文信息的情况下也能保持高性能。 图表3代码块推理 2、OpenAI的Sora Sora灵感来源LLM训练方法,支持超长视频生成与多角度切换。与传统的使用文本标记不同,Sora采用视觉补丁作为标记,在不同视频和图像上训练生成模型中是高效且高度可扩展的。在现存的视频生成模型中,Runway的支持生成视频时间是18s(20s以内),Pika是3秒,Sora支持生成60s视频。官网示例中的主体人物,背景人物都非常稳定,并且可以无缝切换镜头,在长时间生成过程中保持主体的一致性。 图表4超长视频生成与多角度切换 Sora多种前沿技术,开展AI视频新格局。结合扩散变压器和Transformers技术,通过视频压缩和时空补丁技术有效预测和生成高质量视觉内容,支持处理多种视频分辨率和长宽比。其利用DALL·E 3的重新字幕技术,提高视频文本保真度,展现了根据图像和文本提示生成多样场景视频的能力,同时通过视频扩展、无缝循环及平滑过渡等高级功能,优化了视频采样和构图质量。尽管在复杂物理相互作用的模拟上存在局限,Sora展示了在3D一致性、物体持久性和环境交互等方面的高级模拟能力,指向了向高性能物理和数字世界模拟器发展的有前途的道路。 Sora语言理解能力与多模态能力强大,并能初步理解现实世界。ChatGPT在语言理解能力的基础上能够理解并扩展重写prompt,同时模型也能理解图片和时评,直接将图片转换成视频,扩展视频的长度,无缝转场拼接视频等。理解现实世界并对现实世界进行仿真&交互(Emerging simulation capabilities),可以简单理解世界的物理规律,可以仿真数字世界: 图表5图像视频转换与初步理解物理世界 3、Meta的V-JEPA 高效非生成视频处理模型V-JEPA,展示在处理未标记数据和提高效率的优势。通过在抽象表示空间中预测视频的缺失部分来学习,优化了训练和样本效率,显著减少了标记数据需求。这种自我监督学习方法允许它使用未标记数据进行预训练,后续通过少量标签适应具体任务。 图表6 V-JEPA训练视觉编辑器 V-JEPA采用自监督的学习方式,能进行抽象性的高效预测。不同于生成式AI,该模型采用了自监督的学习方式,完全依靠未标记的数据进行预训练;不同于图像联合嵌入预测架构(I-JEPA),该模型通过预测视频中被隐藏或缺失部分,在一种抽象空间的表示来进行学习,通过分析视频流来理解周围世界的即时情况。不同于那些尝试重建每一个缺失像素的生成式方法,V-JEPA能够舍弃那些难以预测的信息,这种做法使得在训练和样本效率上实现了1.5-6倍的提升。V-JEPA是首个在冻结评估上表现出色的视频模型。 图表7 V-JEPA冻结评估出色 Representations from Video、华创证券 三、投资建议 三大模型性能优良,未来应用场景广泛,有望带动AIGC行业进一步发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 四、风险提示 多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。