行业事件: 美国时间2024年2月15日,OpenAI发布文生视频模型Sora;谷歌推出最新Gemini1.5Pro模型。 视频生成模型Sora实现众多突破 OpenAI发布了文生视频大模型Sora,可根据简短提示词,生成长达60s高清短视频,将此前行业视频生成长度大幅提升。该模型拥有文本到视频,长时生成能力;复杂场景和角色生成能力;语言理解能力;多镜头生成能力;物理世界模拟能力等。Sora的诞生预示着用户可以省去繁琐冗杂的制作过程,将自我想象力转换为视频作品,有望提升短视频创作效率,加速短视频平台发展。 Gemini 1.5 Pro长上下文能力提升 谷歌推出Gemini 1.5,其建立在对于Transformer和MoE架构的领先研究之上,模型效率极大提升,上下文窗口容量可以在生产环境中运行多达100万个token,明显超过现有其他模型。基于长上下文能力提升,Gemini 1.5可对大量信息进行复杂推理,实现更好地多模态理解和推理,高效处理更长代码相关问题。此外在综合性测试中,Gemini 1.5 Pro仍能保持高水平的性能,与1.0 Ultra表现相差无几。长上下文能力的提升,有望进一步扩展大模型应用场景。 投资建议 Sora的发布标志着文生视频领域的跨越式突破,Gemini 1.5 pro的推出大大提升了长上下文能力。随着技术的进步和应用场景的不断拓展,AIGC的四个核心要素:数据、算力、模型和应用,正在不断实现正反馈,推动整个行业的创新和发展。 建议关注:(1)国产算力基础设施:海光信息、寒武纪-U、中科曙光、浪潮信息、紫光股份、锐捷网络等;(2)视频应用:万兴科技、海康威视、大华股份等;(3)网络安全:国投智能、启明星辰、电科网安等;(4)游戏:巨人网络(传媒互联网行业)、昆仑万维(传媒互联网行业)等;(5)图像应用:美图公司(传媒互联网行业)等。 风险提示:AI技术发展演进不及预期;商业化进程不及预期;法律政策监管风险;行业竞争加剧等。 1.视频生成模型Sora实现众多突破 1.1Sora模型实现众多突破 2月16日,OpenAI发布了文生视频大模型Sora,可根据简短提示词,生成长达60s高清短视频,将此前行业视频生成长度大幅提升。该模型拥有文本到视频,长时生成能力;复杂场景和角色生成能力;语言理解能力;多镜头生成能力;物理世界模拟能力等。Sora的诞生预示着用户可以省去繁琐冗杂的制作过程,将自我想象力转换为视频作品,有望提升短视频创作效率,加速短视频平台发展。 图表1:Sora可根据文本描述生成长达60s的视频 文本到视频,长时生成能力 Sora能够根据用户提供的文本描述生成长达60s的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。 复杂场景和角色生成能力 Sora可以生成具有多个角色、特定的运动类型以及细节精准的主题与背景所构建的复杂场景。通过对生动角色以及复杂运镜的应用,视频具有高度真实性和叙事效果。我们认为对于短视频创作行业,制作者可以快速将创意进行视频化,并带来逼真的视觉效果。 图表2:Sora发布视频展现复杂场景和角色生成能力 深刻语言理解能力 Sora对语言拥有深刻理解能力,可以准确解释提示并生成可以表达丰富情感、引人注目的角色。我们认为Sora对语言的理解能力可以准确的反应用户的指令,从而创作出更加优质的作品。 图表3:Sora发布视频展现语言理解能力 多镜头生成能力 Sora可以在单个生成的视频中创建多个镜头,同时可保持角色与视觉风格的一致性。多镜头生成功能对于影视制作及其他多视角展示作品可起到极大辅助作用。 图表4:Sora发布视频展现多镜头生成能力 物理世界模拟能力 Sora不仅可以理解用户在提示中输出的指令,还可以理解所生成的事物在物理世界存在与运行的方式,从而展现了人工智能在理解现实世界并与之互动的能力。 Sora可以模拟真实物理世界的运动,例如物体的移动、习性以及相互作用。 图表5:Sora发布视频展现物理世界模拟能力 模型存在一定限制,仍可逐步提升 Sora的诞生代表着AI行业在视频生成领域产生较大突破,但其仍存在一定弱点需逐步改善。Sora可能难以准确模拟在某些复杂场景中物体的物理特性,并且可能无法理解某些特定的场景物体的因果关系。例如,一个人咬一口饼干,但饼干可能没有咬痕。该模型或可能混淆用户生成指令的空间细节,例如,左右混淆,或可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。 图表6:Sora可能无法理解场景物体的因果关系 图表7:Sora可能无法精确描述事件推移发生的事件 1.2Sora采用了扩散模型结合transformer 过去的研究中 ,许多团队聚焦于使用递归网络、 生成对抗网络、 自回归Transformer和扩散模型等各种方法,对大模型进行学习。这些工作局限于较小类别视觉数据、较短或固定大小的视频上。Sora作为通用视觉模型,可以生成不同时长、纵横比和分辨率的视频和图像,最多可达一分钟的高清视频。 将可视数据转换成数据包(patchs) 大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,OpenAI从中获得灵感,Sora通过视觉包(patchs)实现了类似的效果。对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。 图表8:OpenAI将输入将视频转换成数据包patchs 视频压缩网络 OpenAI训练一个降低视觉数据维度的网络。这个网络将原始视频作为输入,并输出经过压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并生成视频。 OpenAI还设计了相应的解码器模型,将生成的潜在表示映射回像素空间,从而生成可视的视频或图像。 时空包 当给定一个压缩后的输入视频时,OpenAI会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,也适用于图片,因为视频由连续帧构成的,所以图像可以视为单帧的视频。通过这种时空包的表示方式,Sora可以对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,OpenAI可以在适当大小的网格中排列随机初始化的时空包,从而控制生成视频的大小。 用于视频生成的缩放Transformers Sora是一个扩散模型,可输入噪声包(以及如文本提示等条件性输入信息),被训练去预测原始的“干净”包。Sora是一个基于扩散的转换器模型,这种模型已经在语言建模、计算机视觉以及图像生成等领域,展现了显著的扩展性。 图表9:随着训练量的增加,扩散转换器生成的样本质量有了明显提高 图表10:随着训练量的增加,扩散转换器生成的样本质量有了明显提高 1.2.1丰富的持续时间、分辨率与纵横比 过去,图像和视频生成方法需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的视频。OpenAI发现,对原始大小的数据进行训练有几个优势。 采样更灵活:Sora可以采样宽屏1920x1080p视频、垂直1080x1920视频以及介于两者之间的所有视频。这使得Sora可以直接为各种设备生成与其原始纵横比完美匹配的内容。它还使OpenAI能够在以全分辨率生成之前快速以较小尺寸制作内容原型。这些都得益于使用相同的模型。 图表11:Sora丰富的持续时间、分辨率与纵横比 改进构图与框架:OpenAI根据经验发现,以原始纵横比对视频进行训练可以改善构图和取景。OpenAI将Sora与将所有训练视频与裁剪为正方形的模型版本进行比较,可发现在方形裁剪(左)上训练的模型有时会生成仅部分可见主体的视频。相比之下,Sora(右)的视频取景有所改善。 图表12:Sora改进构图与框架 1.2.2语言理解深化 训练文本到视频生成系统需要大量带有相应文本字幕的视频。OpenAI将DALL·E3中引入的re-captioning技术应用于视频。OpenAI首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。OpenAI发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似,OpenAI还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型,这使得Sora能够生成高质量视频。 1.2.3图片与视频提示 Sora还能接受其他类型的输入提示,如预先存在的图像或视频。这种多样化的提示方式使Sora能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。 将DALL·E图片变成动画:Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频截图基于DALL·E 2和DALL·E 3的图像生成的。这些示例展示了它在图像和视频编辑领域的无限潜力。 图表13:Sora将图片拓展为视频 扩展生成视频:Sora不仅具备生成视频的能力,更能在时间维度上实现向前或向后的无限扩展。以下三个视频截图便是从同一生成视频片段出发,逐步向后扩展的示例。尽管它们的起始部分各异,但结局却一致。 图表14:Sora对视频扩展生成能力 视频到视频编辑:扩散模型已经实现了从文本提示编辑图像和视频的多种方法。 下面OpenAI应用了其中一种方法,将SDEdit的技术到Sora。这种技术使得Sora能够零样本(zero-shot)地转换输入视频的风格和环境。 图表15:Sora视频从到视频编辑能力 视频的无缝连接:Sora能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术,OpenAI能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。 1.2.4图片生成能力 Sora还可以生成图像。这得益于一种独特的算法,该算法可在精确时间范围内,巧妙地在空间网格中排列高斯噪声补丁。它可以根据用户需求,生成不同大小的图像,最高可达惊人的2048×2048分辨率。 图表16:Sora图片生成能力 1.2.5新的模拟能力 OpenAI发现,视频模型在展现时表现出许多新兴能力。这些能力使得Sora能够模拟物理世界中的一些人、动物和环境的某些方面。这些属性在没有通过对3D建模、物体等的任何显性归纳偏差的情况下出现——它们纯粹是模型规模现象。 图表17:Sora展示物理世界模拟能力 较长视频相关性和物体持久性:视频生成系统面临的一个重大挑战是在生成视频时保持时间一致性。OpenAI发现Sora通常(尽管并非总是)能够有效地对短期和长期物体间的依赖关系进行建模。例如,OpenAI的模型可以保留人、动物和物体,即使它们被遮挡或离开画面后。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。 图表18:Sora展现较长视频相关性和物体持久性 与世界互动:SORA可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而存在,或者一个人吃汉堡并留下咬痕。 图表19:Sora展示与世界互动特点 模拟数字世界:Sora还能够模拟人工过程——一个例子是视频游戏。Sora可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。 这些能力可以通过用提及“我的世界”的标题提示生成视频,无需额外训练数据或模型参数调整。这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条高效途径。 图表20:Sora操控Minecraft玩家 2.谷歌推出Gemini 1.5 Pro,长上下文能力提升 2月16日,谷歌宣布推出其最新的AI模型——Gemini 1.5,该模型在信息处理能力上实现了重大突破。与前代产品Gemini 1.0 Ultra相比,Gemini 1.5在多个方面均有所改进,可更高效、更长时间地处理信息。 上下文窗口越大,输出效果越好。AI模型的“上下文窗口”由token组成,