您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国家广播电视总局广播电视规划院]:文生视频模型 Sora 发展研究报告 - 发现报告
当前位置:首页/行业研究/报告详情/

文生视频模型 Sora 发展研究报告

AI智能总结
查看更多
文生视频模型 Sora 发展研究报告

广电视听科技专题 《文生视频模型Sora发展研究报告》 2024年2月 目录 一、Sora概述1 1.1Sora简介1 1.2Sora的发展历程1 1.3Sora的应用场景2 二、Sora的功能特色4 2.1功能优点4 2.2功能缺点5 三、Sora的技术解析7 3.1技术原理7 3.2技术特点9 四、Sora的社会争议10 4.1虚假信息10 4.2版权问题12 4.3监管难题12 4.4人机关系12 五、Sora对广电视听行业发展的影响分析14 5.1个性化媒体和娱乐15 5.2虚拟现实和增强现实15 5.3内容创作和编辑16 5.4智能监控和分析16 5.5交互式媒体和游戏开发16 六、对策与思考17 6.1人工智能生成内容应坚持正确的价值取向17 6.2确保人工智能应用安全可靠可控17 七、参考文献18 附录:Sora官网发布视频合集19 一、Sora概述 1.1Sora简介 Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”),于2024年2月15日(美国当地时间)正式对外发布。 文生视频(Text-to-Video)技术是指根据给定的文本描述自动生成视频的技术。这种技术可以创造出复杂的场景、生动的角色表情以及复杂的镜头运动。 Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。 Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E3的画质和遵循指令能力,能理解用户在提示中提出的要求。 OpenAI开发Sora的目的是为了教人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。这意味着Sora不仅可以生成视频,还可以模拟物理世界中的运动,从而生成更加真实和有用的视频内容。这就是OpenAI称它为“世界模拟器”的原因。 1.2Sora的发展历程 1、文生图模型Dall-E 2021年1月5日,文生图模型Dall-E发布。Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。 2、Dall-E2 2022年4月,Dall-E2发布。Dall-E2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。 3、大语言模型ChatGPT 2022年11月30日,大语言模型ChatGPT发布。ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。 4、GPT-4 2023年3月15日,GPT-4正式面世。GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。 5、文生视频模型Sora 美国当地时间2024年2月15日,OpenAI正式发布文生视频模型Sora,并发布了48个文生视频案例和技术报告,正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。 1.3Sora的应用场景 Sora是一个能够生成视频的高科技模型,它可以用在很多不同 的行业里。1、广告创意 想象一下,你是个广告设计师,想要快速做出很多酷炫的广告视频。你可以告诉Sora你想要什么样的广告,比如故事内容、风格等等,然后Sora就能帮你做出好几个视频供你选择。这样不仅节省时间,还能让你的广告看起来更专业、更有创意。 2、教育培训 如果你是老师,想给学生们制作有趣的教学视频,Sora也能帮忙。你只要输入教学内容的文字,Sora就能根据这些文字生成视频。这样的视频能让学习变得更有趣,也更容易吸引学生的注意力。而且,如果学生觉得太难或太简单,Sora还能调整视频内容,让每个学生都能跟得上。 3、娱乐产业 电影和电视剧制作人现在也可以利用Sora来制作视频。比如说,如果你想做一个特效很棒的科幻电影,Sora可以帮助你生成一些看起来很真实的场景和角色动画,这样你就不需要花大价钱请特效公司了。 4、新闻传媒 新闻机构也可以用Sora来快速制作新闻视频。当有重大新闻发生时,记者可以输入新闻的关键信息,Sora就能生成相关的视频新闻,让观众更快更直观地了解发生了什么事。 二、Sora的功能特色 2.1功能优点 Sora的功能优点包括: 强大的视频生成能力:Sora能够将文本描述转化为高质量的视频内容,具有强大的视频生成能力。这使得它能够满足多种应用场景的需求,如广告创意、教育培训、娱乐产业和新闻传媒等。 高效的生成速度:Sora在生成视频时具有较高的效率,可以在短时间内生成多种方案供用户选择。这大大提高了广告创意、教育培训等领域的工作效率,降低了制作成本。 良好的可定制性:Sora具有一定的可定制性,用户可以根据具体需求调整模型参数和输入数据,以获得更符合要求的视频生成结果。这为各行各业的定制化应用提供了可能。 1、功能综述 Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频(其他AI视频工具还在突破几秒内的连贯性),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”。 2、静态图生成视频 Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。 3、视频扩展与缺失帧填充 Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善。 4、连接视频 可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。 5、其他能力 表1所示为Sora的其他能力。 表1Sora的其他能力 能力 描述 图像生成 Sora可以生成各种尺寸的图像,分辨率最高达2048×2048。 3D一致 Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动。 远距离连贯性物体持久性 Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观。 互动性 Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕。 模拟数字世界 Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态。 多机位 Sora可以生成多机位、多角度的视频。 2.2功能缺点 Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推 移发生的事件。 例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。 Sora模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。Sora目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。 OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。 Sora官网po出了5个有缺陷的视频,包含了比较典型的复杂屋里场景。包括:人体姿态处理错误、多实体场景处理难、不准确的物理建模和不自然的物体“变形”、物理交互不准确、多个角色之间的复杂交互等。 不仅让我们看到了大模型文生视频目前存在的能力缺陷,也看到了更多创意的空间。一些对物理世界的扭曲变形,空间奇幻的情节,可以利用在更多具有创意的视屏中。 5个视频截图预览: 1、跑步的人 2、五只灰狼嬉戏 3、篮筐爆炸 4、椅子变形乱飞 5、吹不灭的生日蜡烛 Sora的功能缺点还包括: 数据质量和数量依赖:Sora的性能在很大程度上依赖于训练数据的质量和数量。如果训练数据存在偏差或不足,可能会导致生成的视频内容存在质量问题,如模糊、失真等。 泛化能力有限:尽管Sora可以在多种场景下生成视频,但其泛化能力仍然有限。在某些特定领域或场景下,Sora可能无法生成符合要求的视频内容,需要进行更多的数据收集和模型训练。 计算资源需求较高:生成高质量的视频内容需要消耗大量的计算资源,包括高性能的CPU、GPU等。这可能会增加使用Sora的成本和门槛,限制其在某些资源受限场景下的应用。 三、Sora的技术解析 3.1技术原理 Sora是一种先进的视频生成模型,它能够根据文本提示生成相应的视频。它的工作原理可以简单地理解为两个主要步骤:编码和生 成。 1、编码 首先,Sora会将输入的视频数据进行压缩,将其转化为一种低维的潜在表示形式。这个过程有点像我们把一个复杂的物体分解成简单的零件,方便我们后续处理。然后,这些被压缩的数据会被进一步分解成时空区块,你可以把它们想象成视频的“基因”,包含了视频的所有基本信息。 2、生成 接下来就是生成阶段。Sora利用扩散(Diffusion)模型的思想,从简单的噪声信号出发,逐步添加细节和模式,最终生成复杂的新数据。这就像我们根据零件重新组装出一个新的物体,只不过Sora的版本更加复杂和高级。 在这个过程中,Sora还利用了变换器(Transformer)的技术,这是一种非常擅长处理序列数据的模型。无论是语言还是视频,都可以看作是由一系列高维向量组成的序列,而变换器则能够很好地预测下一个向量应该是什么。 总的来说,Sora的工作原理就是先将视频数据进行压缩和分解,然后利用扩散模型和变换器技术逐步生成新的视频内容。 Sora是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现人工通用智能(AGI)的重要里程碑。 3.2技术特点 1、多帧预测生成 Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。 2、特殊架构 Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩 散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像。 3、重述提示词 Sora借鉴DALL-E3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性。4、数据表示 OpenAI将视频和图像表示为Patch,类似于GP