您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:解读Sora最佳受益方向电话会纪要-20240218 - 发现报告
当前位置:首页/会议纪要/报告详情/

解读Sora最佳受益方向电话会纪要-20240218

2024-02-19未知机构哪***
解读Sora最佳受益方向电话会纪要-20240218

Sora在春节期间横空出世,让大家也想到了去年春节chatgpt横空出世。大家都没有想到文字生成视频或者一本小说、一段信息的描述,很快就能够生成梦想中的世界会来得快,而且边际成本急剧降低,能做到很多人类期间做不到的事,生成的效率大幅提升,但大家最关注是受益的方向,而且肯定是具有视频内容变现的渠道。因为Sora本质上它还是一个生产力工具,会让公司创作的成本效率各方面都会有一个指数级的变化。 Sora在春节期间横空出世,让大家也想到了去年春节chatgpt横空出世。大家都没有想到文字生成视频或者一本小说、一段信息的描述,很快就能够生成梦想中的世界会来得快,而且边际成本急剧降低,能做到很多人类期间做不到的事,生成的效率大幅提升,但大家最关注是受益的方向,而且肯定是具有视频内容变现的渠道。因为Sora本质上它还是一个生产力工具,会让公司创作的成本效率各方面都会有一个指数级的变化。而且刚才也提到了最重要的一点,它是能做到很多人类或者现实生活中公司看不到的,物理世界里面甚至相悖的一些造梦的世界出来。所以它对于整个视频变现的渠道的意义非常大的。 超讯正好有特别有这方面的布局。超讯通信目前是全新的一个计算生态的战略启航,也是布局在三大块,一块是算力数据以及AI应用这三大板块。那今天重点和大家分享的公司超讯通信战略投资企业,积火山的多模态的相关的业务。七火山作为公司在算力数据以及的战略生态中,AI应用的重要布局公司是公司投资了30%,然后核心的业务主要是依托自建的处理模块,以及算法能力转化以及优化,以及创造高质量企业具有场景化的商业化的多模态的内容。那目前吃火山拥有三大平台,第一个是公司的多模态的内容生成平台拉瓦,然后第二个是公司的自有的视频平台迷你图片,目前迷你图片已经在印尼已经在应用的排行的前三了。然后第三块是公司的超分图内容生成平台,目前公司的多模态的生成平台是海外快手在海外商店上线的一款短视频的应用。目前应用在印尼的月活已经达到了4,000万的用户,双方也是针对视频内容结成了一个战略合作,那双方将达成包括不限于视频内容的合作,以及内容平台的方面的一些合作。未来七火山也将以技术为基础,那面向全球市场,那不能短剧内容出海。在内容上激活国内的充实的一个储备。在技术上实现内容的快速的一个生成处理。面向全球的一个短期出海市场。为后续更多的视频平台构建视频短剧的生态内容,奠定一个坚实的基础。 Sora在时间点横空出世,肯定是有它背后的自身的一些节奏的安排,因为正好在它发布在在公司发布消息的前几个小时,谷歌刚刚发布了它们的模型,所以其实也是冲淡了一个竞争对手的一次节奏,当然这些可能并不是很重要,因为Sora本质上而言,它最大的亮点是在两个,第一个是它的语义理解,其实是基于原有的openAI整个现在chatgpt所搭建的一个深厚的基础。直白的理解说原有的不管是还是文生视频,可能你需要让模型去理解你的输入提示词,理解语义的深度的模块是比较浅的,或者说它的维度在向量的维度上面比较低,所以导致了大家一定要去写一个很复杂的提示语,或者说它能理解到的东西始终就只能停留在某个层次,所以做出来的东西可能也就没有达到惊艳的程度,但是openAI因为它有chatgpt的长期的技术的演进,所以它能够对你输入的一段提示词的语义的理解,它的维度是明显要高很多个量级的。所以这就导致了看后来的DALLE3的出世之后,它的文生图的质量一下子拉高了,能够一定程度能够和midjourney去做对标,因为底层的模型,其实大家还依然是在diffusion扩散的模型上面,但是因为它对语义的理解变的能力增强了,所以它一下子就能够把文生图然后水平能够补齐。如果再直观的来解读 说,可能像midjourney是微级的版本,那你能够去把提示词进行理解的能力,可能相当于一个小学三四年级的一个水平。那同样的一段话,你让一个孩子来理解,它能理解到里边的语语义的丰富程度肯定是有限的。但是如果开始接地气,它的能力,然后到了DALLE3的水平之后,它的理解可能就相当于一个20岁的人。那同样的一段话,一个成年人理解出来的语义的丰富程度那肯定是远远不一样的。所以底座的模型一旦能力足够强之后,它能够做出来的事情可能就远远会提升几个维度。这是Sora能够取得经验的效果的第一点。第二点其实是Sora本身的一个训练的方法,训练的方法和以往的其它的竞争对手都有很大的不同的一个点,竞争对手的训练全部都是在用图进行训练。它把原有的一些图形原有的一些视频做了一个切片,然后把里面的每一个切片其实理解为一张截图,然后把一系列的截图交给模型去做训练。所以本质上它们的训练都是在训练生成图片,以及想要去生成具有连贯性的图片,但不管怎么说,它的模型理解的所有的这些训练的语料的内容都是图片,大家可以类比一下,之前chatgpt的一些理解,它的模型的能力往哪个方向或者说强与弱,其实是两个因素决定的,第一个是你用来训练的语料的质量以及它的丰富度,第二个语料本身所蕴含的信息量的范畴,比如说你如果你的语料都是英文那大概率,它只能它的模型训练完了,它也只能回答英文的相关的问题,但如果你的语料包含了各种语言,那它其实能够去回应各种语言的一个大模型。所以如果再映射到Sora的这次的进步上来说,它的和以往文生视频这些竞争对手区别就在于它是直接用视频去进行训练的。它把手头能够收集清洗找出来的这些视频直接作为训练的语料,扔给了Sora的模型,所以它的训练和以往的一些的明显的区别它是直接去学习了视频,然后生成了一个模型,所以大家会看到在现在已经有的解读里面会出现观点。第一个是说它能够实现单视频的多角度生成,在同一个视频里面好像有多个镜头,然后同时在拍,最后连贯起来是完整的。第二个是说它是对物理世界引擎的一个模拟,就有这两种观点,是最近在公众号上讨论的比较多的。但事实上真实的原因是因为它们用来训练的这些视频,本质上对整个物理世界的一个一个映射。它拿去训练的这些视频,原来这些拍拍摄电影也好,或者说某些视频的片段拍摄出来,反映出来的一些内容。所以这些内容在拍摄的时候猜测这些视频可能是真实世界的一些视频,比如说看到的那些物体的运动,或者是一些生活化的场景。所以Sora对这些视频进行了学习之后,那它具备的能力其实恰好也生成的视频,当然如果说用来训练的视频是一些科幻类的,或者说是一些充满更大的想象力类的,那它生成的视频可能就会更为跳脱一些。所以真实来说,整个Sora的模型,事实上它的训练方法和其它竞对有区别的点就在于它是用视频来训练的,而其它的竞对都是还是在停留在用图片来训练。如果再往深层次去看Sora训练的时候,根据它们公布的技术文档,它用了一种叫pitch的技术思路,可以简单理解为它把每24帧的一组图像,或者说24帧最小单位的一个切片,因为视频事实上就是一组连续的图像,按照动画片的标准,如果每秒能够有24帧,那就会看到一个连贯的影像。最小单位24帧,它把每24帧作为一个pitch,然后在模型的潜在的向量空间,laterstates里面进行学习和运算的时候,它要求模型去学习pitch里面的连贯性。所以会看到Sora生成的视频的内容比之前竞对生成的一致性和平滑度都好得很多,在于技术的先进点就在于这里,它是把每24帧作为一个最小单位的pitch,然后交给了模型,要求模型要去完成的一个过程的学习,所以它在最后生成的时候,它能够去按照模型所学到的能够去很好地完成一致度。然后所以我们看到的视频的内容里面就会感觉会非常的连贯,就不再会有原来我们看竞对那样,它会很跳。还有第三点说在于尺寸的控制上面,因为Sora拿去训练的这些模型本身就已经是真实,可能原来我们在网络上都能够看得到的这些视频了,所以再加上它的对视频内容的处理,做了切片之后又用了足够的算力去训练模型,所以它能够做到和以往的文生视频不一样,它能够把视频的清晰度或者说分辨率能够提到一个很高水平,就之前大家能做的可能用一些差值,用一些后期预计算的方法,可能能够做到256或者是512,就已经是一个天花板了,但是它能够直接去到2048甚至于更高,所以这个技术,也是它以往去有过在DALLE3里面的一些积累。但技术可能在过去的一小段时间里面,大家会看到更多的其实是有另外一款超分产品叫magnifier,当然超分的产品其实七火山公司自己也有类似对应的一个模型叫 Bromo。但其实在文生视频或者文生图的领域,在最后去提升分辨率的这一关,事实上就同样的一组的技术能力在做支撑,然后只不过openAI在Sora的模型里面,把它们以往积累的从最开始输入的提示词的语义理解的维度做了一个提升。第二它的训练方法比以往的文生视频有了一个明有了一个明显的差异化,它是直接用视频再加上里面开始的一个pitchs细节的技术思路来进行的训练。第三它们在分辨率的提升上面,借用了之前DALLE3积累的一些能力,然后把这几样东西给组合在一起。最后是说它们做一些一个长期经营在AI领域的龙头的公司里面,它有足够多的算力,然后也有足够多的魄力,然后来做这件事情。所以它在时间点推出了Sora的文生视频模型,惊艳了整个行业,也让大家对未来在视频领域用AI真正把它作为生产力工具产生了足够多的想象。 Q:那我这边先从技术以及商业化两个角度向您请教几个有问题。那首先第一个也是您刚刚提到的说对于本次Sora所使用的一些训练的数据,您认为其实是使用真实世界的这种数据,我们也能看到网上有一些技术解读,也有提到说是否有可能是用的像类似于unity的这种合成数据去进行的,所以不知道从技术路径来看的话,您是否能解读一下,如果说公司从哪些维度可以判断,Sora训练出来的一定是用真实的,而并非像网上有些科普性的文章,说是用这种合成性的数据,这是一个技术性的一个问题,所以想向您请教一下。第二个商业化,公司可以看到在之前无论是runway也好,还是皮卡也好,它再去去做落地,商业化落地的时候其实是有针对性的,那比如说皮卡是面向所谓的动漫,具体是日漫的方面,那Sora就更多的就有点像视频剪辑了,那对于这方面出来之后,您认为在这一分钟时长内,它的最好的一个商业化落地的方向?A:首先第一个问题是关于它的训练的构成,只能进行一些推测。我们要知道整个Sora的模型,在理论的方法上,根据它们官方释放出来的技术文档的解读,能够明确的知道一点,它依然是一个扩散模型加transform的一套组合,在训练上面没有不同的地方,其实transform是整个深圳市AI从2023年初的一个理论的一个基础,所以它在论文所提倡的方法在很多的领域里面都是得到了不断的使用,并且验证它的有效性的,包括其实像七火山做的去进行视频的去进行短剧视频的换脸,这一套的技术其实在比之前的几年前的那些计算机视觉有一个明显的技术进步的原因,也是因为现在的模型里面是用了transform这套方法。所以在Sora其实本质从训练上来说,它依然是一个扩散模型加transform来做驱动,然后剩下的看它拿进去训练的语料的构成是什么。所以我们能看到的那些非现实或者说是一些大家认为不合常理的内容,其实都可以把它大致可以理解为这是扩散模型本身具有的一些通病。所以从训练角度上来说,而且如果是用合成的方式,其实对于整个AI生存来说,它完全走在了另外的一个技术路线上面。我个人觉得不太可能是用其它的引擎来合成,其实它们更希望是用一个完全通用的,完全通过足够强大的算力支持了大模型,然后就能够去完成将来所有的事情。然后第二个问题是您刚才提到了关于商业化受益的,因为从现在来说,它能够释放出来的视频一个点时长,因为之前其它的视频产品能够做到的可能3秒到6秒之间,然后最长的通过一些拼接可能能到12秒,那已经是一个极限了。是因为它的算力的支持和它对图像处理的连贯性,其实是严重限制了它的输出的时长的天花板。Sora的有了强大的一个底座的模型和训练的技术方法的改进之后,现在能做到60秒,那其实时长恰好也对应着看到的一些短视频的片段,尤其像七火山正在和各大平台去合作的短剧的业务的类型上面,所以相信说Sora在未来对于短视频内容的生成,其实尤其是针对这种在节奏比较快的的内容,其实会