您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:视频生成模型SORA重大突破解读 - 发现报告
当前位置:首页/会议纪要/报告详情/

视频生成模型SORA重大突破解读

2024-02-19-未知机构王***
视频生成模型SORA重大突破解读

视频生成模型SORA重大突破解读20240217_原文 2024年02月17日22:19 发言人100:00 各位投资者今天晚上好。今天的话主要由我为各位领导来解读一下最新的就是那OpenAI最新发布的sara这个模型。其实前两天刚刚发布这个模型的时候,其实看到我感觉还是非常的令人振奋的。 视频生成模型SORA重大突破解读20240217_原文 2024年02月17日22:19 发言人100:00 各位投资者今天晚上好。今天的话主要由我为各位领导来解读一下最新的就是那OpenAI最新发布的sara这个模型。其实前两天刚刚发布这个模型的时候,其实看到我感觉还是非常的令人振奋的。然后通过包括之前的一些积累,包括这几天研究,再次也给各位领导展示一下。今天晚上的话,我们也从包括这个模型的效果,然后训练过程,然后那个技术路径的分析,包括到应用,这个里面主要给各位领导来做一个解读。然后中途的话我们也会就大概的去框算一下,就是现在使用这个S2这个模型,大概它的训练跟推理成本大概是什么?尤其是推理成本大概现在是一个什么样的一个情况。以及未来可能在那个视频这样比较好的视频生成模型出来之后,可能在哪些领域会先上,然后对哪些行业可能会有一些颠覆性的一个影响。 发言人100:59 首先从纹身视频这个领域赛道来看,其实去年我们看到像皮卡这个事情,在国内包括A股有所反应之后,其实也有陆陆续续有不少的投资者关注到这个领域。其实但是其实包括在当时皮卡出现的时候,各位领导也会发现,其实但是效果总体上虽然皮卡1.0比他七月份发的版本还是有提升的,但是总体上效果我们看还是有所欠缺,对吧?所以当时而且当时在整个的技术方向跟技术路径上,其实并没有说看到非常的确定。 发言人101:30 就包括在今年是去年12月的时候,然后包括google发布那个videopoint,这个纯偏transformer这个结构的那个模型出来之后,其实大家还是会看到,其实在纹身视频总体上还算是一个相对比较早期的方向。但是我们看到sara这个模型,当它效果出来之后,总体的效果还是非常的惊艳的,而且他甚至已经开始有了一些涌现的能力出来了。所以我们也还是认为总体上我们认为索尔这个模型其实更像是纹身视频里面的一个GBD3的一个时刻。它可能代表的是整个包括视频跟图片生成,或者是说多模态生成这个领域,未来可能也会进入一个新的时代。当然现在它还是会有一些类似于说幻觉的问题。但是就像刚开始GBD3出来,然后慢慢演进进化到GBD3.5跟GBD41样。 发言人102:22 我们觉得像这个问题,包括它生成的模型的效果,其实慢慢也会去做一些演进的。首先我们从这个模型的效果来说,其实总体上还是非常的强的,尤其是相比较于之前的runway跟皮卡。因为ravva跟皮卡他们其实之前大概也就能像那个runningje2,大概也就是4秒对吧?然后大家可以去extend,然后pick的话大概也是3到4秒。然后之前主流的一些包括stabilitythediffusion,大概也就是不到5秒的一个视频长度。那现在那个sorry基本长的可以生成60秒左右的视频了。从他现在放的四十多个案例里面,包括60秒,包括10秒,包括25秒等等都可以。 发言人103:02 现在其实我们也不太清楚标准的这个API不标准那个算法模型能生成多少秒。但是我们可以确定的是,它通过extend我们还是能看到它能生成一分钟的模型。这个的话已经远超过了现在行业的要求的这样一个,相当于是很多的一个场景。因为现在可能行业的要求可能十几秒,这样会更好一些。 发言人103:22 现在它最多可以生成一个60秒的视频,而且它的效果非常的细致。包括它其实你可以它的无论是角镜头的角度怎么去变化,它其实人物都能保持一致。在一个60秒视频之中也能够看到它的人物,包括是周围的景色景观是一致性的保持一致的。 发言人103:40 它并没有产生特别大的一个不连贯,同时它的那个背景,它其实也能够保持一定的连贯性,这个其实是非常我们说非常惊艳的一个经验的一个表现,当然其实这里面也还好,还有一些小的缺陷。比如说如果各位领导去仔细的去看他放传的一些视频,包括altman在推特上发布的一些视频来看,它肯定还是会有一些小的缺陷。比如说生成的背景里面,比如说它生成日本的一个女性在街头日本街头走的时候,会发现她后面很多广告牌,它字体其实不是很认清,对吧?当然会有一些小的问题,但总体上她现在已经非常的已经是出道就能够达到巅峰。而且现在整体的模型的效果也非常好。 发言人104:26 除此之外,它其实有一些除此之外它还解决了很多问题,包括它能够比较好的遵循用户的一个prompt,这个是很厉害。因为之前janeto大家被诟病的一点就是它虽然效果好点,但是它其实你生成的视频跟你说的prom可能能不对皮对吧?那这块其实皮卡之前会更强,但是sara也是在这个问题上得到了一个很好的解决,然后他就是包括在镜头转变之中的过程之中,怎么样去保持这些景物它是不会变的,保持人物的风格和视觉风格等等,它都是没有什么问题的那现在从整个的模型的用处来看,它这的模型不仅仅是可以用于生成视频,而且它还可以用于生成图片。而且生成图片 的效果,看样子其实一点都不亚于它之前那个大力一三这样一个唇纹身视频纹身图的这个模型。而且它还能去说让静止的图片动起来,包括像视频的前后拓展,包括像视频的一些编辑,包括视频风格的混合。其实它现在已经完全是一个集视频生成、图片生成、视频编辑等等于一身的一个非常强的一个模型。而且最重要的是,其实这个也展现出了sara它其实在背后OpenAI那个大力出奇迹的一个特点,就展现出了像GPT3早期一些涌现的能力。其实GPT3当时的涌现其实也是一些意外之喜,各位领导如果去关注的话,当时也是一些意外之喜。 发言人105:49 就是我训了很多的数据之后,突然他顿悟了,对吧?然后后来大家发现什么模型能够涌现。Sara现在作为一个视频屏,它也出现了一些涌现。这个涌现能够让sorry在物理世界里面可以去模拟一些现实的人物的场景动作,包括一些物理的一些规律,他大概都能通过海量的视频训练中学习到了。 发言人106:10 你比如说就是你可能在训练这个索尔模型的时候,其实并没有看到我为很多的3D的资产进去。但是它却能够保持一定的3D的一致性。比如说一个相机围着那个围着一个一个相机围绕一个物体去动的一个场景,它那个物体能够保持一致。包括它在相当长的一个时间序里面,它有一贯性的。 发言人106:31 比如说这个剧情前面跟后面是我们不对齐的,同时它它还可以生成一些游戏的一些画面,对吧?它模拟一些数字世界等等,然后它还可以真的有一些物理的一些影响,当然这个不一定是百分之百对。比如说你说一个人吃汉堡,他会留下那个咬痕,对吧?那这些其实都是一些涌现的一些特点。就是说他其实可能之前训练并没有特意的去训练这一部分,但是他最终却产展现出了一些超出了之前我们说的理解的一些特点,这个其实就很像GBD3在早些年的一个动一个一个涌现的一个能力。 发言人107:05 当然就是从现在来看,open也承认32模型,它就跟之前的一个大语言模型一样,它还是会存在一些幻觉的问题。这个幻觉问题,比如说就是生成的视频里面有很多不符合逻辑的一个情况,或者是说他很多违背物理规律的一个情况。就比如说咬了一口饼干,但是可能饼干没有咬痕,比如说你像一个人在跑步的话,他其实是反着跑的那这个当然是不符合物理规律的。你让他建就做一个椅子的,这个椅子它其实是一个柔性的东西,就是说他对于这个物理世界的理解完全就并不完全到位,就是说它还是存在一些幻觉的问题。这个我们认为就跟之前的大语言模型一样,就因为它用了海量的训练数据,这个训练数据里面有可能也是会有脏数据的,之前大元模型的幻觉问题,可能sorry也会存在。所以从这个角度来看,我们也会联想到就未来这个骚扰它在行业里面的应用到底有哪些的局限性。 发言人107:56 未来我觉得我们觉得可能幻觉也会有很大的影响,然后从讲完了这个效果之后,我们来看看这个模型的一个训练过程。其实从纹身图的技术路径,就之前各位领导如果关注的话,就发现他其实经历了一个在很大的一个变迁,包括最早的是用那个干对吧?然后再到那个VIE,然后再到那个纯纯的former结构,然后再到纯递推阵结构,其实这个里面进行了一个很大的变迁。然后到去年下半年开始,其实diffusion这个model慢慢成为去年divisionmom开始慢慢成为主流之后,其实它的diffusion的结构也发生了变化。现在基本就是说把diffusionmodel里面unit结构变成transformer。因为transformer非常的scalable,它可以规模变得很大。这个是我们说可以让这个模型变得越来越scaleup的一个很好的一个特征。当然younet,但unneutered结构可能这点相对比较差一些。 发言人108:45 其在这样的一套技术路径的变迁,其实我们说也是相相当相当漫长的一个时间。所以到21年的时候,21年跟22年的时候,当时发布的很多的一些模型,包括videoGPT等等,它其实都是专基于存储form的。然后后面大家也会发现,好像的确是model,好像在生成的视频的画质方面更好。 发言人109:04 这个当然也是有它一个内有有其他有其一个内在的原因的那总体上现在来看,我们可以确定的是啊可能是确实是使用那个definemodel,而且是diffusiontransforming这个结构,现在来看目前效果是最好的。其实从谷歌除了OpenAI,其实谷歌在去年到今年,就是去年年底到可能发了两篇文章,一个叫video炮,一个叫WAART的。What这个模型,其实这个word模型其实我们会会发现,其实就跟它那个sorry比较像。那个videopoint,它其实又跟又是走了另外一条技术路径,但总体上我们都会发现,现在来看,或者是说OpenAI现在发布的这样一个模型,可能大家也会看到它效果确实是最好的。 发言人109:50 这个技术路径的的变迁,其实也伴随着像pick的runway等等的公司,他们肯定是在技术上或者是说整个效果上有所落后了。像那个runway的创始人现在也在推特上说,现在大家就gameon对吧?就游戏开始大家一开始去卷这个赛道了。然后技术路径其实我们能看到,除了在那个transformmerdiffusiontransform这个结构,其实也有一个很有趣的案例,就有一个很有趣的事情,就是sara的一个主要的创作者叫bearpetsairpass。 发言人110:22 在2022年的时候,当时也是行业里面或者是学术界首要提出defintion传统formal的这个主首要提出第一个提出底线型传统mm这个结构或者说这个方向的一个作者。当时他还应该还是在读博士,然后这个模他当时发布这个的分成的某某或者叫DIT,他其实当时是在纹身图领域的。后面的话其实从他的一个一一一脉的这个路径来看,也会发现就是呃OpenAI选择用这个方式,其实也是非常的逻辑非常顺的。 发言人110:53 因为主创在2022年就做过这样的一个尝试,而且在那一篇文章中他非常的明确的提出definition的form。它的scale但是它的scale可以scaleup的,这个属性非常强的。随着我它也是像那个大元模型一样,是遵循着我们说那个scalinglaw。因为随着你这个模型的参数越来越大,然后我训练会训练的数据越来越多,确实人家模型的效果就是在变好啊。这个在bppeps当时的那篇论文叫scaleablediffusionmodelswithtransformers那篇论文中其实也讲非常的清楚。随着transformer的size的增加,或者说随着patch一个size的下降,整体的效果都是越来越好的。这是他当时得出的一个结论。这个结论的话,我们认为可能也是在现在在sorry这个模型中肯定也是适用的。 发言人111:44 然后讲完了这个整体的技术脉络,我们来看看这个transfo