广电视听科技专题 《文生视频模型Sora发展研究报告》 2024年2月 目录 一、Sora概述1 1.1Sora简介1 1.2Sora的发展历程1 1.3Sora的应用场景2 二、Sora的功能特色4 2.1功能优点4 2.2功能缺点5 三、Sora的技术解析7 3.1技术原理7 3.2技术特点9 四、Sora的社会争议10 4.1虚假信息10 4.2版权问题12 4.3监管难题12 4.4人机关系12 五、Sora对广电视听行业发展的影响分析14 5.1个性化媒体和娱乐15 5.2虚拟现实和增强现实15 5.3内容创作和编辑16 5.4智能监控和分析16 5.5交互式媒体和游戏开发16 六、对策与思考17 6.1人工智能生成内容应坚持正确的价值取向17 6.2确保人工智能应用安全可靠可控17 七、参考文献18 附录:Sora官网发布视频合集19 一、Sora概述 1.1Sora简介 Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”),于2024年2月15日(美国当地时间)正式对外发布。 文生视频(Text-to-Video)技术是指根据给定的文本描述自动生成视频的技术。这种技术可以创造出复杂的场景、生动的角色表情以及复杂的镜头运动。 Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。 Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E3的画质和遵循指令能力,能理解用户在提示中提出的要求。 OpenAI开发Sora的目的是为了教人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。这意味着Sora不仅可以生成视频,还可以模拟物理世界中的运动,从而生成更加真实和有用的视频内容。这就是OpenAI称它为“世界模拟器”的原因。 1.2Sora的发展历程 1、文生图模型Dall-E 2021年1月5日,文生图模型Dall-E发布。Dall-E可以根据简单的描述创建逼真和清晰的图像,精通各种艺术风格,还可以生成文字制作建筑物上的标志,并制作同一场景的草图和全彩图像。 2、Dall-E2 2022年4月,Dall-E2发布。Dall-E2不仅可以生成更真实和更准确的画像,而且能够将文本描述中的概念、属性和风格等元素综合起来,生成现实主义的图像和艺术作品。 3、大语言模型ChatGPT 2022年11月30日,大语言模型ChatGPT发布。ChatGPT不仅能与人对话,还能编写代码、创作内容等,这一款革命性产品的上线引发全球关注,上线仅5天用户数量就已突破100万。 4、GPT-4 2023年3月15日,GPT-4正式面世。GPT-4可以更准确地解决用户的难题,多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前代产品。 5、文生视频模型Sora 美国当地时间2024年2月15日,OpenAI正式发布文生视频模型Sora,并发布了48个文生视频案例和技术报告,正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。 1.3Sora的应用场景 Sora是一个能够生成视频的高科技模型,它可以用在很多不同 的行业里。1、广告创意 想象一下,你是个广告设计师,想要快速做出很多酷炫的广告视频。你可以告诉Sora你想要什么样的广告,比如故事内容、风格等等,然后Sora就能帮你做出好几个视频供你选择。这样不仅节省时间,还能让你的广告看起来更专业、更有创意。 2、教育培训 如果你是老师,想给学生们制作有趣的教学视频,Sora也能帮忙。你只要输入教学内容的文字,Sora就能根据这些文字生成视频。这样的视频能让学习变得更有趣,也更容易吸引学生的注意力。而且,如果学生觉得太难或太简单,Sora还能调整视频内容,让每个学生都能跟得上。 3、娱乐产业 电影和电视剧制作人现在也可以利用Sora来制作视频。比如说,如果你想做一个特效很棒的科幻电影,Sora可以帮助你生成一些看起来很真实的场景和角色动画,这样你就不需要花大价钱请特效公司了。 4、新闻传媒 新闻机构也可以用Sora来快速制作新闻视频。当有重大新闻发生时,记者可以输入新闻的关键信息,Sora就能生成相关的视频新闻,让观众更快更直观地了解发生了什么事。 二、Sora的功能特色 2.1功能优点 Sora的功能优点包括: 强大的视频生成能力:Sora能够将文本描述转化为高质量的视频内容,具有强大的视频生成能力。这使得它能够满足多种应用场景的需求,如广告创意、教育培训、娱乐产业和新闻传媒等。 高效的生成速度:Sora在生成视频时具有较高的效率,可以在短时间内生成多种方案供用户选择。这大大提高了广告创意、教育培训等领域的工作效率,降低了制作成本。 良好的可定制性:Sora具有一定的可定制性,用户可以根据具体需求调整模型参数和输入数据,以获得更符合要求的视频生成结果。这为各行各业的定制化应用提供了可能。 1、功能综述 Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频(其他AI视频工具还在突破几秒内的连贯性),视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”。 2、静态图生成视频 Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。 3、视频扩展与缺失帧填充 Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善。 4、连接视频 可以使用Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡。 5、其他能力 表1所示为Sora的其他能力。 表1Sora的其他能力 能力 描述 图像生成 Sora可以生成各种尺寸的图像,分辨率最高达2048×2048。 3D一致 Sora可以生成动态运动的视频,随着相机的移动和旋转,人和场景元素在三维空间中一致移动。 远距离连贯性物体持久性 Sora通常能够有效地对短期和长期依赖关系进行建模,包括人、动物和物体的持久化,即使它们被遮挡或离开框架。同时,它还能在单个样本中生成同一角色的多个镜头,以保持其在整个视频中的外观。 互动性 Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触,并随着时间的推移而持续,或者一个男人可以吃汉堡并留下咬痕。 模拟数字世界 Sora可以模拟人工过程,例如电子游戏,并能够通过基本策略控制玩家,同时高保真地渲染世界及其动态。 多机位 Sora可以生成多机位、多角度的视频。 2.2功能缺点 Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推 移发生的事件。 例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。 Sora模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。Sora目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。 OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。 Sora官网po出了5个有缺陷的视频,包含了比较典型的复杂屋里场景。包括:人体姿态处理错误、多实体场景处理难、不准确的物理建模和不自然的物体“变形”、物理交互不准确、多个角色之间的复杂交互等。 不仅让我们看到了大模型文生视频目前存在的能力缺陷,也看到了更多创意的空间。一些对物理世界的扭曲变形,空间奇幻的情节,可以利用在更多具有创意的视屏中。 5个视频截图预览: 1、跑步的人 2、五只灰狼嬉戏 3、篮筐爆炸 4、椅子变形乱飞 5、吹不灭的生日蜡烛 Sora的功能缺点还包括: 数据质量和数量依赖:Sora的性能在很大程度上依赖于训练数据的质量和数量。如果训练数据存在偏差或不足,可能会导致生成的视频内容存在质量问题,如模糊、失真等。 泛化能力有限:尽管Sora可以在多种场景下生成视频,但其泛化能力仍然有限。在某些特定领域或场景下,Sora可能无法生成符合要求的视频内容,需要进行更多的数据收集和模型训练。 计算资源需求较高:生成高质量的视频内容需要消耗大量的计算资源,包括高性能的CPU、GPU等。这可能会增加使用Sora的成本和门槛,限制其在某些资源受限场景下的应用。 三、Sora的技术解析 3.1技术原理 Sora是一种先进的视频生成模型,它能够根据文本提示生成相应的视频。它的工作原理可以简单地理解为两个主要步骤:编码和生 成。 1、编码 首先,Sora会将输入的视频数据进行压缩,将其转化为一种低维的潜在表示形式。这个过程有点像我们把一个复杂的物体分解成简单的零件,方便我们后续处理。然后,这些被压缩的数据会被进一步分解成时空区块,你可以把它们想象成视频的“基因”,包含了视频的所有基本信息。 2、生成 接下来就是生成阶段。Sora利用扩散(Diffusion)模型的思想,从简单的噪声信号出发,逐步添加细节和模式,最终生成复杂的新数据。这就像我们根据零件重新组装出一个新的物体,只不过Sora的版本更加复杂和高级。 在这个过程中,Sora还利用了变换器(Transformer)的技术,这是一种非常擅长处理序列数据的模型。无论是语言还是视频,都可以看作是由一系列高维向量组成的序列,而变换器则能够很好地预测下一个向量应该是什么。 总的来说,Sora的工作原理就是先将视频数据进行压缩和分解,然后利用扩散模型和变换器技术逐步生成新的视频内容。 Sora是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现人工通用智能(AGI)的重要里程碑。 3.2技术特点 1、多帧预测生成 Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。 2、特殊架构 Sora采用与GPT模型相似的Transformer架构,OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构,提升了原来Diffusion模型在深度和宽度上的可扩展性,为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题,扩 散模型采用更可扩展的状态空间模型(SSM)主干替代了传统的注意力机制,从而减少了算力需求,并能够生成高分辨率图像。 3、重述提示词 Sora借鉴DALL-E3的“重述提示词技术”,为视觉训练数据生成高度描述性的标注,这使得模型能够更忠实地遵循用户的文本指令,生成符合用户需求的视频内容,同时也提高了模型的灵活性和可控性。4、数据表示 OpenAI将视频和图像表示为Patch,类似于GP