您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[其他方案]:新科技研报丨Sora划时代:算力应用再加速 - 发现报告
当前位置:首页/其他报告/报告详情/

新科技研报丨Sora划时代:算力应用再加速

2024-03-01其他方案周***
新科技研报丨Sora划时代:算力应用再加速

Sora划时代:算力应用再加速 证券研究报告|行业深度研究报告 2024年2月19日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 分析师:赵宇阳 SACNO:S1120523070006 邮箱:zhaoyy1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 华西计算机团队 核心逻辑 Sora:划时代的文生视频大模型 文本生成视频:Sora能够根据用户提供的文本描述生成长达60S的视频。深化语言理解:利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。图片生成能力:Sora可以根据用户需求,生成可变大小的图像,最高可达惊人的2048×2048分辨率。新的模拟能力:Sora具有3D一致性、较长视频的连贯性和对象持续性,能与世界互动,模拟数字世界。 多模态下游应用百花齐放 多模态+视频创作:提升创作者效率。除了Sora、Runway外,Lumiere能够在单个过程中生成完整的视频序列,而非简单组合静态帧。这种技术能够同时处理视频的空间(即视频中的对象)和时间(即视频中的运动)方面,为用户带来更加自然和流畅的运动感知体验。 多模态+自动驾驶:彻底改变人车交互。商汤提出DriveMLM模型,可实现闭环测试中操控车辆,超过之前的端到端和基于规则的自动驾驶系统方法。 多模态+广告(电商):创造多样化营销卖点。利用AI技术进一步提升数字人的多样性,比如人脸替换、背景替换、口音语音替换去适配我们的 prompt,最后脚本、数字人脸替换、背景替换等,视频压制之后,就可以得到一个口播视频;还可以帮助商业实现营销海报的生成。 多模态+教育:提升教学效率,加强人机互动。StableDiffusion等图像生成模型,可以依据教学需求输入主体及其细节的文本描述,快速自动生成多种风格、高清逼真、蕴含美感的美育类教学资源,所生成的教学资源既具备显著的跨模态性,又具有新颖性与独特性。 多模态+医疗:为临床医疗任务提供更为智能、高效的解决方案。临床医疗业务产生的大量数据以不同模态存储于数据库中,对它们整理、清洗后,再经过预处理进行多模态融合。多模态融合可以有机整合不同的信息,相比单模态信息更加全面。 多模态+安防:AI+安防加速演变。根据全球政企解决方案,目前在国内“AI+安防”领域AI技术三个落地到产品端的应用方向是:生物识别技术、视频结构化和物体识别系统。其中,生物识别技术应用时间最早,涉及较为范围广,且为人像识别的入口技术。 受益标的:多模态素材:万兴科技、虹软科技、超讯通信、佳都科技、平治信息、博汇科技、美图公司;应用:科大讯飞、大华股份、海康威视、润 达医疗、中科创达、千方科技、盛通股份;算力基础设施:中科曙光、开普云、高新发展、网宿科技、神州数码、拓维信息、海光信息、首都在线。 01Sora:划时代的文生视频大模型 Sora是由OpenAI发布的文生视频大模型,此模型发布预示着大模型时代进阶。Sora能够仅仅根据提示词,生成60s的连贯视频,远超行业目前大概只有平均“4s”的视频生成长度。Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。 打造虚拟世界模拟器。Sora采用了Transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora,也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。 文生视频大模型Sora Sora将不同类型的视觉数据转化为统一的格式,以便于对生成模型进行大规模训练。 将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包 (patchs)实现了类似的效果。对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。 从宏观角度来看,首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一 个“时空包”的集合,从而将原始视频转化为这些包。 OpenAI专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间 视频压缩网络:Sora研究员专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,研究员还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。 时空包:当给定一个压缩后的输入视频时,从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,研究员只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。 Sora根据文字生成视频 随着训练量的增加,扩散转换器生成的样本质量有了明显提高 用于视频生成的缩放Transformers:Sora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。扩散转换器在视频生成领域同样具有巨大的潜力,不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。 Sora依托Transformers架构等技术手段,产品力全面碾压Runway等文生视频模型。 Sora是将LatentDiffusionModel架构与DiffusionTransformer架构结合,但是Runway只用了LatentDiffusionModel架构。由于Transformer架构强大的参数可拓展性,即随着参数量的增加,Transformer架构的性能提升会更加明显,DiT在LDM的基础上,把模型从U-Net换成了Transformer,因而Sora比Runway具有更强大的性能。 凭借Transformer架构可以随意设置位置编码,Sora可以接受任意分辨率和尺寸的素材,而Runway需要将素材裁剪至相同的大小。Sora引入GTP-4将简短的用户提示转换为更长的详细字幕,然后发送到视频模型,有助于Sora更好理解客户需求;而Runway很难理解细微差别,坚持提示中的特定描述而忽略其他描述。Sora依靠从头训练了一套能直接压缩视频的自编码器,Sora的自编码器不仅能在空间上压缩图像,还能在时间上压缩视频长度,使时长达到了一分钟,而Runway时长小于20秒。 拼成“SORA”的逼真云的图像主要视频生成模型对比 Sora生成的视频具有多样化表现。 在原始视频图像数据直接训练:过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的 视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。 采样更灵活:Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。 Sora可以为各种设备生成与其原始纵横比完美匹配的内容 改进构图与框架:实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧,充分展现了其在视频生成领域的卓越性能。 将所有训练视频裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧 Sora深化语言理解。 为了训练文本转视频生成系统,需要大量带有相应文本字幕的视频。为此,研究员借鉴了DALL·E3中的re-captioning技术,并应用于视频领域。首先,研究员训练了一个高度描述性的转译员模型,然后使用它为训练集中的所有视频生成文本转译。通过这种方式,研究员发现对高度描述性的视频转译进行训练,可以显著提高文本保真度和视频的整体质量。与此同时,与DALL·E3类似,研究员还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这一创新使得Sora能够精确地按照用户提示生成高质量的视频。 Sora深化的语言理解能力 Sora具有图像和视频的多样化提示。它可以接受图像或视频等其他形式的输入。这就让Sora能够完成一系列图像和视频编辑任务,比如制作无缝循环视频、给静态图片添加动态、在时间线上扩展视频的长度等等。 为DALL·E图像赋予生命:Sora还能在提供图像和提示作为输入的情况下生成视频。下面展示的示例视频就是基于DALL·E2和DALL·E3的图像生成的。这些示例不仅证明了Sora的强大功能,还展示了它在图像和视频编辑领域的无限潜力。 一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频 视频时间线的灵活扩展:Sora不仅能生成视频,还能将视频沿时间线向前或向后扩展。从同一个视频片段开始,向时间线的过去延伸。尽管 开头各不相同,但最终都汇聚于同一个结尾。而通过这种方法,就能将视频向两个方向延伸,创造出一个无缝的循环视频。 Sora甚至可以创造出无限循环视频 视频到视频编辑:将一种名为SDEdit32的编辑基于文本提示的图像和视频的技术应用于Sora,这项技术赋予了Sora转换零拍摄输入视频风格和环境的能力,为视频编辑领域带来了革命性的变革。 视频的无缝连接:Sora还能在两个截然不同的输入视频之间实现无缝过渡。通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的视频之间创建出流畅自然的过渡效果。 Sora转换零拍摄输入视频风格和环境 Sora具有图片生成能力。 Sora的出色能力不止于数据处理和分析,它现在还能生成图像。这一创新功能的实现得益于一种独特的算法,该算法在一个精确的时间范围 内,巧妙地在空间网格中排列高斯噪声补丁。 值得一提的是,Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048×2048分辨率。 Sora生成的图片 Sora具有新的模拟能力。在大规模训练过程中,研究员发现视频模型展现出了许多令人兴奋的新能力。这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是,这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。 3D一致性:Sora能够生成带有动态摄像头运动的视频。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。 Sora的3D一致性:冬天的日本Sora的3D一致性:山间 较长视频的连贯性和对象持久性:视频生成领域面对的一个重要挑战就是,在生成的较长视频中保持时空连贯性和一致性。Sora,虽然不总是,但经常能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物