事项: 2024年2月16日,OpenAI推出全新文生视频模型“Sora”,宣称为可以理解真实世界规则的世界模拟器。 用户可以输入提示词,生成最长为六十秒的模拟真实世界的视频。相比此前Pika、Runway等工具,Sora具备向前扩展视频,视频拼接、多镜头视频生成等新能力,在视频时长,拟真度与一致性等方面也大幅领先。考虑到技术还不成熟以及安全伦理风险,Sora目前仅提供给内测用户使用,未向公众开放。 国信互联网观点:1)Sora作为新一代AI文生视频模型,能力提升显著:2023年,文生视频模型开始陆续发布。大多产品处于早期阶段,生成视频时长少于5秒且风格单一、逻辑错误较多。科技大厂在这一领域的代表产品有Meta的Emu Video、谷歌的W.A.L.T和Lumiere、字节跳动的MagicVideo等。其它初创团队如Runway、StabilityAI、PikaLabs也开发了当前代表性的文生视频模型Gen-2、StableAnimation、pika1.0。新发布的Sora采用创新性技术,不仅拥有视频拼接、多镜头视频生成等新能力,更在视频时长,拟真度与一致性等方面大幅领先;2)2024年文生视频大模型领域竞争加剧,各大厂商加快开发节奏:2024年1月2日,文生图著名初创公司Midjourney宣布加快训练文生视频模型。Runway开发的Gen-2模型也进行了快速更新,视频质量大幅提升,视频时长提高至18秒。国内大厂字节跳动与腾讯在1月公布了MagicVideoV2与VideoCrafter2;3)Sora的领先优势较难打破,促使社交及内容平台等科技大厂与OpenAI更紧密的合作:虽然Sora技术报告并未展示出突破性的创新,其视频转化成基本视觉单元、降维等技术手段在计算机视觉领域并非特别复杂。但是Sora模型的成功不仅仅依赖于公开的技术路径,更多来自于未公开的技术细节,如训练数据的来源与处理、模型的技术细节(如优化器、迭代训练轮次、迭代补偿、收敛标准等)以及对算力和资源的需求。考虑到Sora模型的目前先进程度和实际效果,在OpenAI算力与资源都领先的情况下,Runway等初创企业以及科技大厂追赶的难度较大。虽然在模型层面科技公司不一定能够追赶上OpenAI的领先技术,但YouTube、Facebook、Tiktok等视频及社交平台本身具有除了技术优势之外的高护城河,平台公司可以利用Sora技术进一步增强用户体验和内容质量、降低内容创作的成本,OpenAI和社交及内容平台之间的合作关系可能会更加紧密。 评论: Sora功能 1)生成最长一分钟的视频:Sora是视觉数据的通用模型,能够生成提供图像和提示作为输入的视频,可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。 2)从时间、空间上扩展生成的视频,连接视频:Sora能够执行各种图像和视频编辑任务-创建完美的循环视频、动画静态图像、在时间上向前或向后扩展视频等。使用Sora在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。 3)视频编辑:扩散模型启用了多种根据文本提示编辑图像和视频的方法,使Sora能够零镜头地改变输入视频的风格和环境。 4)生成高清图像:Sora通过空间网格中排列高斯噪声块来生成各种尺寸的图像,分辨率高达2048x2048。 涌现模拟真实世界功能,保持3D一致性、远程相干性和物体持久性。 Sora与Runway、Pika等竞品对比 1)视频时长更长且镜头切换顺畅:Sora可以完成镜头切换后的衔接,因此可以生成60秒的超长视频,且具备视频向前扩展,视频连接,多镜头等独有性能。其它模型如Runway只能生成20秒以内单镜头视频。 2)视频尺寸自由:Sora模型可以生成1920*1080和1080*1920间所有尺寸,但其它视频生成模型如Runway Gen-2只能生成16:9,9:16,1:1等固定比例视频。 3)画面稳定:以“东京漫步的女士”为例,Sora视频中人物行动十分稳定,但其它视频生成模型会出现画面失真以及错误的动作。 4)具备初步理解世界和模拟世界能力:相比其它视频生成模型,Sora可以生成动态摄像机的视频且人物场景随相机移动也能顺畅移动,表现出3D一致性;因为相机角度切换,物体遮挡前和遮挡后能保持一致,表现出远程相关性和物体持久性;在OpenAI发布的吃汉堡视频中,食物上的痕迹变化能基本按照物理规则还原,表现出模拟物理交互的能力。 图1:遮挡前后小狗保持一致 图2:吃汉堡后食物有痕迹 Sora技术优势: 1)创新性与工程化能力:Sora的优势在于其灵活创造并使用AI工具,推陈出新、另辟蹊径。主要包括用于降维的神经网络和解压缩工具,视频打标签工具,视频文本描述生成工具,用户语句转化为复杂定义的Prompt工具。训练灵活采样,以原始长宽比对视频进行训练,与其他视频生成模型不同,后者往往将视频预处理到固定大小,如256×256分辨率的4秒视频。Sora这一做法可以支持从1920×1080p宽屏视频到1080×1920垂直视频及其间所有格式的采样,进而直接创造出不同宽高比的内容。此外,这种方法在视频构图和取景方面带来了改善。 2)对Transformer技术的深刻理解解决视频时空连贯性问题:Sora采用了基于Transformer的扩散模型架构取代常见的Runway和StableVideoDiffusion等采用U-Net架构的扩散模型,显著增强了模型的扩展能力。传统的AI视频生成方式,如Runway采用的是把AI生成的图片拼接成视频。通常只能参考前一帧或前两帧的内容,连续性短时间可以,但对于跨度较大的时间段无法很好地处理。Sora的解决方案是同时考虑时间和空间顺序,即时间空间编码。利用patches使得Sora能对场景变换有更好的处理,无论从人物角度变换,或者场景之间的切换,都能保持主题不变,且记忆连贯。 图3:Sora模型原理 3)强大算力的支持:AI视频生成算力需求远超一张图片。相比一张图片,制作一秒钟动态视频基础需要12到24张图片,动态连贯通常需要30张/秒,制作60秒的视频至少需要生成1800张图片帧。达到这个数量级的算力需求、保持画面不闪烁、人物动作和表情的稳定不突变等都需要巨大的算力支持。 4)训练数据庞大,配套数据标注精准:关于模型的具体参数量和视频训练数量,OpenAl并没有给出明确的数据。根据提供的信息,Sora模型的训练视频数量是"internetlevel",使用的训练数据几乎包括了网上能找到的所有可以被训练的视频素材。同时,Sora利用DALL·E和GPT的研究成果,为视频训练数据生成详尽的文字描述。这种方法提高了训练效果,使模型预测更加精确。 Sora潜在应用领域: 1)电影、视频制作:Sora可以大幅降低传统视频创作的费用,如场地搭建、场地切换、特效制作等,同时缩短创作时间,增加普通用户创作专业内容的可能性,也可以为专业制作团队快速生成预览视频,激发创作灵感,辅助团队设定视觉风格。帮助影视作品回归以想法和故事为核心,文本创作力及导演能力将成为核心竞争力。 2)广告和营销:Sora有望生产标准化广告,比如品牌介绍、说明类短视频,电商网页创意广告。Sora极有潜力让品牌迅速制作多样化风格的营销视频,针对不同类型消费者提供个性化营销视频,并在过程中实现快速调整和持续优化。 3)视频编辑和后期制作:Sora可以让创作者更快速地修改和转换视频内容,比如创造全新的背景和特效,改变视频的风格等。 4)游戏场景制作:Sora适用于游戏角色设计和场景开发,将物理世界的理解融入虚拟游戏环境中。同时帮助开发者创建角色和背景故事,按照OpenAI技术报告 ,Sora能模拟数字化游戏过程, 例如在Minecraft中动态渲染世界并控制角色。 图4:Sora控制《Minecraft》操作界面 Sora竞争格局与合作趋势 1)Sora较难被Runway、Pika等文生视频模型赶超:目前来看,虽然Sora技术报告并未展示出突破性的创新,如Diffusion+Transformer模型,其概念已在2022年底被提出并公开,因此其他研究者或机构在过去一年多的时间里可能已有尝试。此外,视频转化成基本视觉单元、降维等技术手段在计算机视觉领域并非特别复杂。但是Sora模型的成功不仅仅依赖于公开的技术路径,更多来自于未公开的技术细节,如训练数据的来源与处理、模型的技术细节(如优化器、迭代训练轮次、迭代补偿、收敛标准等)以及对算力和资源的需求。考虑到Sora模型的目前先进程度和实际效果,在OpenAI算力与资源都领先的情况下,Runway等初创企业追赶OpenAI的可能性不大,尤其是在视频生成的质量和复杂性方面。 2)OpenAI相对其它科技巨头在文生视频模型方面也具备优势:数据的质量相比数据的数量甚至更为重要,尽管YouTube或TikTok平台拥有大量视频训练素材,但内容大多数为娱乐性质短视频,并不适合系统性、科学性、框架性训练文生视频或者世界模拟器模型。同时,文生视频的模型不仅需要视频数据,还需要与之匹配的文本数据。OpenAI在这方面具有早期布局和深耕的优势,尤其是在其DALL·E图像生成模型的开发过程中积累的经验。在数据处理方面,OpenAI在经验和技术上也领先于Google等竞争对手。 3)看好Sora未来与其它大厂合作作机会:虽然在通用大模型层面科技公司不一定能够追赶上OpenAI的领先技术,但YouTube、Facebook、Tiktok等视频及社交平台本身具有除了技术壁垒之外的高护城河,平台公司可以利用Sora技术进一步增强用户体验和内容质量、降低内容创作的成本,OpenAI和社交及内容平台之间的合作关系可能会更加紧密。未来,即使是没有视频制作技能的人也能轻松创作高质量的视频内容,视频内容的质量可能会更多地依赖于其内在价值而非制作技术,助于真正有见地和创新思想的创作者获得更大的曝光和认可。另一方面,结合Sora模型,社交媒体平台可以开发新的创作者工具,简化视频制作过程,如一键添加背景和特效。 风险提示: AI模型技术发展不及预期,文生视频商业化进展不及预期,大模型幻觉、伦理等安全性问题。 《海外垂类AI专题(3):美股科技SAAS板块三季报回顾与AI产品影响梳理》——2023-12-20《2023年11月电商数据:-社零大盘稳健增长,高基数下线上化率小幅回落》——2023-12-17 免责声明