您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:SORA模型的技术路线和应用场景专家交流纪要-20240302 - 发现报告
当前位置:首页/会议纪要/报告详情/

SORA模型的技术路线和应用场景专家交流纪要-20240302

2024-03-04未知机构徐***
SORA模型的技术路线和应用场景专家交流纪要-20240302

SORA模型的技术路线和应用场景专家交流纪要2024-03-02 Q:Sora模型的技术原理是什么?与市面上其他模型如皮卡模型相比,在技术路线上有哪些不同? A:Sora模型采用的核心技术路线名为DIT,即DeputyTransformers。与传统依赖于Unique这一卷积神经网络框架的皮卡模型不同,DIT基于Transformer结构,并且引入了一个叫做VariableInputTransformer(VIT)的技术。这种技术使得模型能够处理可变分辨率和长宽比的原始视频数据,避免了将视频统一压缩到固定分辨率导致的信息丢失。 SORA模型的技术路线和应用场景专家交流纪要2024-03-02 Q:Sora模型的技术原理是什么?与市面上其他模型如皮卡模型相比,在技术路线上有哪些不同? A:Sora模型采用的核心技术路线名为DIT,即DeputyTransformers。与传统依赖于Unique这一卷积神经网络框架的皮卡模型不同,DIT基于Transformer结构,并且引入了一个叫做VariableInputTransformer(VIT)的技术。这种技术使得模型能够处理可变分辨率和长宽比的原始视频数据,避免了将视频统一压缩到固定分辨率导致的信息丢失。此外,利用Transformer网络,Sora模型借鉴了OpenAI成功的代言模型GPT(包括GPT-3.5和GP4)的范式。相比起其他模型,Sora模型更能保留视频数据的原始信 息,在效仿现实场景上表现得更逼真。 Q:Sora模型在处理视频数据时有哪些优势?它能生成的视频时长为什么会长于市面上的其他视频模型? A:Sora模型的两个核心优势来自于其DIT技术和可变视频采样技术NAVAT。这些技术使得Sora模型在生成较长视频时,能保持较低的累积误差并维持良好效果,而现有的其他模型生成的视频时长通常受限于随时间累积的误差增大。Sora模型可以生成长达60秒的视频,符合用户期望。推断出来可能是因为Sora模型使用了巨大量的训练样本,模型参数规模较大,以及OpenAI的强大 算力做支撑。 Q:与当前其他先进视频模型相比,Sora模型在训练的门槛上有何不同? A:Sora模型在训练门槛上主要体现在两方面:数据要求和算力要求。使用的训练数据样本较大,可能包括一些特殊合作数据,比如U15数 据。同时,模型参数规模扩大,对算力的需求也随之增加。由于OpenAI在GP4等模型开发上投入了庞大的算力资源,Sora模型得以利用巨量计算量进行训练。高算力和大规模参数使得模型在 视频生成的精确度和智能化表现上有所提升,进而在生成较长时间视频这一方面超过了竞争对手。 Q:兼藤则明Sora模型的技术路线有哪些特点?应用场景有哪些? A:Sora模型采用了1亿分钟的视频数据进行训练,以打造一个通用的视觉数据模型,他所训练的样本足够丰富。该模型旨在训练一个能覆盖多方面的视觉数据模型,因此覆盖范围要足够宽 广。由其技术报告推断,Sora的目标是成为一个通用视觉数据模型,在多个应用场景下都能发挥作用。 Q:视频模型和文本模型在数据训练方面的区别是什么? A:视频模型和文本模型的数据训练在衡量维度上不同。视频模型通常以视频时间来计算,例如使用1亿分钟的视频数据训练。已知视频模型如 PT4.5,数据量大概是3TB,PT4则在18TB到20TB之间。视频模型的训练数据量十分巨大,比如1分钟的视频可能包含1800帧,加上每帧之间的关联信息,所以数据处理量相当庞大。 Q:视频模型在硬件算力方面的要求和文本模型有何不同? A:视频模型对硬件算力的要求远高于文本模 型。是因为视频数据具有连贯性,需要保证帧与帧之间信息的同步性。通常视频是按照每秒30帧来产生,故1分钟视频大约有1800帧。假设以 1080P分辨率计算,一帧数据量是1920乘以 1080的像素点,再乘上彼此之间信息的关联度。 而且,处理后的视频数据不是原始数据,会通过压缩方法如VIP进行维度降低,并转化为类似 transformer模型的时间序列数据。例如,Sora模型按照估计可能需要训练参数在3B到30B之间的规模,这样的模型训练可能需要5000张以上的A100算力卡,花费一个月以上的时间来完成训练。 Q:大型模型的训练时间一般是多久?模型训练的成本如何? A:大型模型往往以三个月为一个训练周期,训练时间取决于投入的硬件数量。例如,GT4模型可能使用了2到3万张A100卡,在大约三个月的时间内完成训练。资金成本方面,单张A100卡市场价约为10万人民币,5000张就是五亿人民币的投资。因此,与文本模型相比,视频模型的训练门槛要高得多。 Q:兼藤则明Sora模型的技术路线和在未来可能会出现的竞争状况,您怎么看? A:Sora模型的出现对于短视频行业来说可能是一大利好。据统统计,到2025年短视频将占信息传递的70%到80%以上,Sora模型能够快速生成高质量内容,这对视频行业非常重要。在技术路线上,像弹弓榨汁机、皮卡、runway等公司也开始跟进,在OKI发布技术报告后,大家对如何做已经有了了解。很多技术论文是公开的,因此无 论是大公司还是初创都会尝试采用这一技术路线。特别是,旧技术如U-Net的天花板已达到, 众多公司会寻求通过Sora模型技术来突破。Sora 模型不仅能生成视频,也能生成图片,且生成效果优于前先进模型DAE3,这会让Sora模型在视频和图片领域占据领导地位。不过,由于算力资源的需求较高,不是所有玩家都能跟进。 Q:关于Sora模型的应用场景及产品的推出节奏,您能否进行展望? A:我预判OKI可能会在两个月左右的时间内对外提供产品和服务。目前Sora模型已在内部进行红军测试,企业推进速度快可能很快会有公开的成果。至于技术路线的好坏,从现实角度看,算力 资源储备是个烧钱而且门槛高的问题。 Q:Sora模型是否与文字模型独立?在数据和算力上能够得到GPT的赋能吗? A:Sora模型与文字模型在一定程度上是独立 的。技术报告指出视频内容若以文字形式作为数据对,可以帮助模型更快学习。ONI通过GPT技术可以生成更详细丰富的视频描述,另外在遇到用户提示时能够扩展描述以生成更准确的结果。 代言模型在提升视频模型效果方面起到积极作 用。视频模型中还包含名为Clip的文本和图片预处理模型,用于生成特定条件下的视频,诸如此类的模型已通过ONI的开源模型进行了加强。这意味着ONI在代言模型方面的领先地位有助于他 们的视频模型的性能提升。 Q:兼藤则明Sora模型在训练数据选取方面需要注意哪些原则?高清视频数据对于提高模型质量有何影响? A:在训练兼藤则明Sora模型时,选取的数据质量非常重要。模型的天花板取决于投喂的数据质量。如果想要训练生成1080P甚至更高分辨率的视频模型,就必须使用画质清晰、分辨率高的数据。此外,时长也很关键,训练数据应该是比较长的视频,以便模型在生成长视频时能够保持连贯性和延续性。 简而言之,数据质量和时长对于 模型的性能和生成效果有直接的影响。 Q:在国内,有哪些大厂或者垂直领域的领先厂商正在进行类似Sora视频技术模型的前期立项? A:国内许多大厂朋友都在立项相关项目。对于是否采用该技术进行投资,他们会根据业务的优先级和紧迫度以及投入的成本综合考虑。一些大厂已经开始行动,例如字节跳动,在短视频领 域,视频模型被视为一项重要的生产力工具。对于业务重要性高的平台来说,这类视频技术模型的开发是必不可少的。当前,各家的情况可能存在差异,有些正在积极推进项目,有些则还在观 望。 Q:国内企业在人才储备方面,是否倾向从海外挖掘有经验的人才? A:是的,大厂会寻求那些具有丰富经验的人 才,因为AI领域非常讲究实战经验。有项目经历的人才能够避免在开发过程中重复犯错,用更少的资源和时间做出更优的产品。总体来讲,美国的人才质量和密度是高于中国的,但中国仍处于领先的第二梯队。 Q:我们如何判断Sora模型何时能成熟到可以像GPT那样进行迭代和商业使用,比如参与创作和 政策贡献?公测的时间点是怎样的? A:预计Sora模型将很快进入公测阶段,大约在两个月左右。此前,在内测阶段,Sora模型已经经过了relatin即红军对抗测试,用以验证模型的性能和安全性。这次的公开信息表明开发者们对模型相当有信心,也可能受到了来自同行的竞争压力。考虑到过去的经验,我认为他们的流程已经跑得相当顺畅,预计公众反响和监管层面的沟通也将是积极的,不会对当前的社会秩序或价值观构成威胁。所以预计大概两个月后公测会逐步展开。 Q:Sora模型公测后的商业化速度和模式是怎样的?真正的产业影响有哪些? A:公测之后,Sora模型的商业化预计会非常迅速。商业化的模式,诸如通过订阅或API调用等方式,已经是成熟的做法。例如在网页上订阅或是通过API调用的方式开发应用,这些方式都已经非常成熟。 对产业的影响来说,Sora模型尤其 在视频编辑领域具有巨大潜力,比如一分钟长度 的视频,可以在成本很低的情况下创造高效率的作品,这对专业视频公司来说会大幅提升效率并降低成本。这种模型用于后期处理和主题切换等方面,都可以达到商用水平。一旦发布公测,我 认为模型就已经具备了一定的生产力。 Q:Transformer技术以及Sora模型有哪些技术上的可扩展性,对于支持不同长度视频的生成,未来的发展潜力怎样? A:Transformer技术具有很好的可拓展性,在大尺寸模型时代,这一点已经得到了验证。Sora模型以Transformers作为基础,拥有从GP1到 GP3.5的1750亿参数,以及更大规模MOE模型的近1.7万亿参数。支持窗口的大小从4K升至8K直至更高,它的增长和拓展速度非常快。在AI领域,与芯片行业受某种定律影响不同,AI的增长速度可以达到10倍到百倍。因此,我们可以期待,如果现在支持一分钟的视频生成,随着技术的发展,未来可能支持长度更长的视频生成,这 种可能性还是很高的。 Q:关于谷歌最近发布的模型以及这对业界的意义,能否分享一些详细信息和看法? A:谷歌最近发布的模型,虽然在我们业界并没有引起很大反响,它可能更多地体现了研究成果而不是产品化能力。对于所谓的事件模型,这也可能是对冲Sora模型论文的一种策略。尽管提出模仿现实世界的虚拟器概念,但放出的模型从产品化角度来看,并没有达到特别引人注目的效果水平。谷歌放出这类信息,也可能是因为它视自己为AI领域的领头羊,因此作为竞争策略之一,展示了其内部研发的成果。然而,实际上看来,谷歌公布的模型在视频的真实性和清晰度方面与现有水平尚有较大差距,技术的可拓展性虽然存在,但目前还未见到太多的应用效果。因此我并 没有特别深入去研究它的具体可能性。 Q:兼藤则明Sora模型的技术路线怎样,它的应用场景是什么? A:兼藤则明Sora模型它主要利好视频内容生产。首先,该模型能够大幅降低视频内容生产的门槛,加速并降低成本来创作出大量的视频内 容,从而丰富视频平台,提高整体生产力,这样有助于平台的论荣。另外,尽管供给端的门槛降低了,但并不代表每个平台都能在分发和连接用户方面展示出强大的能力。以字节为例,不管是TikTok还是抖音,它们通过积累了大量的内容创作者和消费者,已经建立了强大的用户群体和生态系统,构筑了深厚的护城河。 Q:视频平台如字节跳动在技术、用户生态等方面的壁垒是否会因为Sora模型技术的推广而受到冲击? A:并不一定。即使Sora模型为内容生产降低了门槛,但打造一个成功的视频平台不仅仅是关于内容的生成,还包括如何高效地进行内容分发和连接用户,而这是一个复杂的过程。像TikTok或抖音这样的平台拥有庞大的用户群体和成熟的内容消费者生态,这不是短期内其他平台可以轻易模仿或超越的。 此外,专注于API服务的公司如 OpenAI并不显示出进入视频分发平台市场的兴趣或计划。因此,尽管技术方面可能出现均衡,但现有领先平台的优势并不会轻易被动摇。 Q:兼藤