2024-2-18Sora重大突破电话会议解读天风计算机 Q&A Q:在基于SORA模型生成视频的过程中,成本是如何计算的? A:根据我们的计算,基于SORA模型生成视频的过程中,如果假设一张图的价格是0.02美元,一分钟生成十几张图片,那么生成一段60秒的视频可能需要消耗10到12美元。但是,如果第一次生成的视频不满意,需要重新生成,成本会进一步增加。如果考虑到产生不满意视频并重新生成的概率,那成本也可能会达到10万美元左右的量级。 2024-2-18Sora重大突破电话会议解读天风计算机 Q&A Q:在基于SORA模型生成视频的过程中,成本是如何计算的? A:根据我们的计算,基于SORA模型生成视频的过程中,如果假设一张图的价格是0.02美元,一分钟生成十几张图片,那么生成一段60秒的视频可能需要消耗10到12美元。但是,如果第一次生成的视频不满意,需要重新生成,成本会进一步增加。如果考虑到产生不满意视频并重新生成的概率,那成本也可能会达到10万美元左右的量级。 Q:在产生视频时,视频的帧数(FPS)是否影响了成本? A:对于视频的生成,虽然我们的假设是使用低帧数(10FPS)进行生成,但即使是生成流畅的60帧视频,成本也只会是十几美元。这是因为大部分成本都在建立diffusion模型的过程中,而对于时间序列建模,相对的价格影响并不高。 Q:生成高质量视频的成本较高,这是否意味着只有一些本身成本较高的行业才会采用? A:初期的确如此,生成10秒钟的流畅视频可能需要消耗高达数十甚至上百美元的成本,训练成本也同样高昂。因此,先期可能主要会用于一些例如影视制作、大规模动画特效等领域,这些领域本身成本就很高,因此对这样的额外成本较为接受。 Q:对于现有的视频生成模型,是否有优化的可能? A:在现有的模型下,我们预见到有优化的可能性,不过这还需要时日。我们可以期待的是,随着技术的进步和优化,高质量视频生成的成本将会逐渐降低。 Q:SORA模型对于产生视频媒体的影响是什么? A:SORA模型基于AI大模型方式去建模,其带来的一大影响便是边界模糊一一从文本到音频,再到视频的边界逐渐模糊。这意味着待我们由一段文字就能生成音频,甚至视频。在中低端内容生产方面,这个变化可能会让创意变得有更多价值,使得内容价值的产生不再仅仅依赖于单一的文本。 Q:未来会出现一些垂直模型吗? A:随着SORA模型的发展,我们预测会出现衍生的垂直模型,这些模型将会逐渐涌现并开始影响像虚拟视频、短视频、广告,以及互动式电影游戏等行业。 如果国内有公司想要追赶SORA模型的发展,可能需要多长时间? A:在技术上,可能会存在半年的代差。因为SORA模型的成功,既依赖于高品质的数据,也依赖于良好的硬件基建,包括流程优化和完善的模型训练。国内的公司如果想要追赶,除了要解决这些问题以外,还需要决心承担可能的风险。 Q:我们是否可以在半年达到SORA模型的当下水平?在追赶SORA模型过程中,除了基础设施算力瓶颈,还有哪些可能的难点? A:如果正常进行研发,复现SORA模型的基础框架可能会消耗半个月到一个月的时间。接下来需要建立整个数据处理管道,大约需要一两个月。在一边搭建数据管道,一边进行模型训练的情况下,真正开始训练可能需要一个到一个半月的时间。然后会消耗一个月周期的时间进行训练。之后需要优化训练效果,再训第二次、第三次。之后再加上优化过程,整个过程可能需要3到4个月。但这是一个估测 值,整个过程可能需要半年左右的时间,依赖所有资源的完全配备。SORA模型对于管线要求相当高,主要是数据标注、自动化标注和数据基建方面。我们可能需要花费大量时间去标记和处理文本数据,这可能是阻碍我们追赶的最大难点。 Q:在我们努力赶超SORA模型的过程中,SORA模型还会发展,那么我们的努力是否真能够缩小差距?A:实事求是地说,我们不一定能缩小差距。如果我们的目标仅仅是逐渐缩小与其差距,那么这个差距会不断扩大。但是,如果我们能在新的、更新的方式上,进行全新的突破,甚至超越SORA模型,那么我们才有更强的信心去改善现状。只有在我们进行新的突破的同时,才有希望去超越或改善现状。Q:那个“十美金”是用于推理还是训练? A:我之前提到的“十美金”是用于模型推理的,这只是一个估计。 Q:SVD消耗是384张卡,训练是一天。如果我们按照这个量级估算,乘以十倍,那么需要大约3000张卡。这个估计准确吗? A:按照我的估计,SORA模型可能需要使用至少是SVD模型的十倍甚至几十倍以上的数据量。我会估算为需要大约1万张A卡去训练一月。这只是一个初步的估计。 Q:在您看来,我们追赶视频模型和追赶文本模型,哪个差距更大? A:两者可能是一个量级的问题。“纹身纹”的问题主要是数据质量和数据量的问题。虽然有大量的公司正在进行这项工作,但视频模型的推理成本和训练成本都较高,数据链路的处理也比文本模型复杂。所以,我保守估计我们至少需要6个月来追赶视频模型。而这个过程包括:生成第一版模型,训练第一版模型,调优模型。不过,该模型结构并不特别难以实现。