您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[甲子光年]:2024AIGC视频生成:走向AI创生时代 - 发现报告
当前位置:首页/行业研究/报告详情/

2024AIGC视频生成:走向AI创生时代

文化传媒2024-03-06甲子光年机构上传
AI智能总结
查看更多
2024AIGC视频生成:走向AI创生时代

“一类人有一类人 学家想学习上帝;反抗上帝; 就是上帝; 反…… 造一个。 小姐:站在两个世界之间 Part01AIGC视频生成的技术路线与产品演进趋势 目录 Part02AIGC视频生成推动世界走向“AI创生时代” Part03“提示交互式”视频制作范式重塑视频产业链 Part04文娱领域有望开启第二轮投资浪潮 1.1Sora让文生视频迎来“GPT-3”时刻 OpenAI发布文生视频模型Sora,堪称视频生成领域的“GPT-3”时刻 “炸裂”视频效果成为讨论热点 春节假期甚至还未结束,Sora已引发全民关注 “Sora”一词在微信指数及百度指数的关注度快速上升 效果逼真:普通人一时难以分辨 2月16日微信指数快速上升 百度关键词搜索趋势处于高位 时长感人:60秒高清视频生成 “百万”剪辑:堪比专业的镜头语言 多模态:文字、图片、视频皆可生成视频 1.2Sora的展现效果 Sora模型展现自身超强视频生成及剪辑能力,超出其他竞品一个段位 能力项 视频时长 基本 视频视频长宽比 生成 视频清晰度 语言理解能力 多模文本生成视频 态生 成图片生成视频 视频生成视频文本编辑视频 视频扩展视频 编辑 视频的无缝连接 3D一致性 独特远程相干性和物体持久性 模拟 能力世界交互 数字世界模拟 Sora 60秒 1920*1080之间 的任意尺寸 1080p 强支持强支持支持 向前/向后扩展支持 强强强支持 其他模型 20秒以内 固定尺寸比例,例如16:9,9:16,1:1等 部分upscale后达到4k 弱支持支持支持支持 仅支持向后不支持 弱或不支持弱 弱不支持 其他模型情况 模型 Gen-2 pika1.0 StableVideoDiffusion EmuVideo W.A.L.T 开发团队 Runway PikaLabs StablityAI Meta 李飞飞及其学生团 队、谷歌 时间 2023年11月 2023年11月 2023年11月 2023年11月 2023年12月 长度 4-18秒 3-7秒 2-4秒 4秒 3秒 分辨率 768*448,1536*896,4096*2160 1280*720 2560*1440 576*1024 512*512 512*896 是否开源 非开源 非开源 开源 非开源 非开源 Sora的语言理解能力更强,可将简短的用户提示转换为更长的详细描述 Sora还可以生成图片,最高可达到2048*2048分辨率 Sora通过插帧技术,实现完全不同主题和场景构图的视频之间的流畅自然的过渡效果 Sora可生成具有动态摄像机运动效果的视频,随着摄像机的移动和旋转,人和场景元素在三维空间中保持一致移动 Sora可以对短期和长期依赖关系进行建模,保持各个主体的时空连贯性和一致性 Sora以简单的方式模拟影响世界状态的行为,比如一个人吃完汉堡可以在上面留下咬痕 Sora还能够模拟人工过程,比如视频游戏,同时通过基本策略控制玩家,同时以高保真度渲染世界及其动态 例如,Sora可以同时通过基本策略控制 《我的世界》中的玩家,同时以高保真度渲染世界及其动态。 1.2Sora的展现效果 大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性 OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“theyarepurelyphenomena ofscale”——它们纯粹是“规模现象”,这再一次验证了“暴力美学”。 3D一致性:确保景别切换时运镜的连贯 基于时空双维度的视频扩展 与世界互动:Sora有时可以用简单的方式模拟影响世界状况的动作 文/图像/视频生视频的功能视频剪辑功能 12 以上四个镜头由远及近,保证了视频镜头中人和场景的一致性,是其他AI生成视频中少见的。 画家可以在画布上留下新的笔触,并随着 时间的推移而持续存在。 不同主题场景视频的无缝连接 一键进行风格渲染 模拟数字世界 34 远程相关性和物体持久性 1234 以上四个镜头在同一视频中生成,包括机器人的多个角度。 1.3Sora的出现意味着AGI的又一个里程碑时刻 Sora意味着scalinglaw(规模法则)再次验证,推动文生视频进入“GPT-3”时刻 Scalinglaw(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scalinglaw和原有模型拉开了差距,为视频生成领域提供了另一条可以走通的路线,推动行业进入全新的阶段。 文生视频的“GPT-3”时刻:从发展阶段类比,Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的雏形,Sora让实现AGI的目标又进一步。 智能新世代:Sora向AGI再进一步 信能比 原始时代农业时代工业时代 +∞ 无穷小 信息时代 数字时代 智能新世代 GPT- iPhone4 ChatGPT GPT-3 GPT-1GPT-2 SoraAGI >300 0 5000200 第一台计算机… 第一代PC 19461985 文本生成模型 20102018201920202022 4 2023 当下 文生视频模型 20252030 信能比>300 信能比>100 宙线:时间 (人类文明进化历程) <AI赋能生产力二次跃迁,开启智能新世代 <AI赋能生产力跃迁 推动人类向AGI迈过第一个里程碑推动人类向AGI迈过又一个里程碑 备注说明: 信能比,是甲子光年智库发明的概念,反映单位能源所能驾驭的信息量。信能比通过单位时间内产生/传输/使用/存储的信息量除以单位时间内所消耗的能源量计算得出,反映单位能源所能调用的信息量水平的高低。 信能比可以体现数据智能技术的先进性和能源效率的高效性:它能够反映整个社会数字化、智能化水平的高低;它能体现能源体系的可持续发展能力;它能反映生产力的高低和生产效率的提升;它能体现社会经济发展的先进性、创新性、可持续性。 1.4Sora开启“明牌游戏”,推动AIGC应用时间轴进一步被压缩 历史反复表明,一旦先行者模式验证,后来者整体的应用进程时间表将加快 先行者往往要花费大量时间精力试错,一旦模式跑通,“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。 过去一年,AI文本生成和图像生成相继走向成熟,Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现,AIGC已经加速迈入视频生成阶段。 对此,甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频,2025年有望实现根据文本生成初版长视频,并在视频制作环节真实使用落地。 图1:AIGC用户偏好使用的大模型产品类型图2:生成式AI技术的成熟应用进程时间表 32.4% 37.6% 51.9% 文本生成类图像生成类 17.1% 22.4% 26.2% 27.6% 科研文字生成类视频生成类代码生成类语音生成类多模态生成类 大模型成熟难度:初级尝试接近成熟成熟应用 诈骗垃圾信息识别翻译基础问答回应 基础文案撰写初稿 更长的文本二稿 垂直领域的文案撰写实现可精调(论文等) 终稿,水平接近人类平均值 终稿,水平高于人类平均值 终稿,水平高于专业写手 单行代码补足 多行代码生成 更长的代码更精确的表达 支持更多语种领域更垂直 根据文本生成初版应用程序 根据文本生成初版应用程序 根据文本生成终版应用程序,比全职开发者水平更高 艺术图标摄影 模仿(产品设计、建筑等) 终稿(海报设计、产品设计等) 终稿(产品设计、建筑等) 终稿,水平高于专职艺术家、设计师等 视频和3D文件的基础版/初稿 根据文本生成初版的短视频 根据文本生成初版的长视频,并实际应用于制作环节 AI版Roblox可依个人梦想定制的游戏与电影 领域类型2020年之前2020年2022年2023年2024年E2025年E2030年E 文本领域 代码领域 图像领域视频/3D/游 戏领域 1.5Sora验证视频生成的新技术范式 Sora的出现意味着视频生成的DiT技术路线得到有力验证 视频生成技术路线在过去主要有两条,一条是基于Transformer的路线,以Phenaki为代表,第二条是DiffusionModel(扩散模型)路线,该路线在2023年是主流路线,诞生了Meta的Make-A-Video、英伟达的VideoLDM,Runway的Gen1、Gen2,字节的MagicVideo等代表性产品。 Sora的发布,对Transformer+DiffusionModel(DiT)路线进行了成果瞩目的验证。 图1:AIGC视频生成的技术演进路径 生成视频 质Diffusion 量Model Transformer+DiffusionModel DiT路线 代表产品: Sora 视频分辨率 高清 1080P 图2:Sora技术优势与竞品的对比情况 Sora GAN+VAE 早期路线 代表产品: Text2Filter Transformer Transformer路线 代表产品:PhenakiCogVideoVideoGPT 扩散模型路线 代表产品:Make-A-VideoVideoLDM Text2Video-ZeroRunway-Gen2 通义千问视频大模型 720P stablevideo W.Ad.Li.fTfusion EmuVideo Pika1.0 Gen-2 最大生成时长 (秒) 早期20222023 2024 时间 010203040506070 1.6Sora的技术原理 Patch(时空编码思路)+DiT(Diffusion和Transformer模型的结合)+ScalingLaw(规模效应) Sora模型将视频压缩到低维空间(latentspace),并使用时空补丁(Spacetimelatentpatches)来表示视频。这个过程类似于将文本转换为Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。 Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。 Sora是diffusiontransformer,而transformer在各个领域都表现出显著的规模效应。 图:业内推测出的Sora技术架构图 PixelVideoSpace Lower-DimensionalLatentSpaceConditioning CleanLatent Encoder ZεRHΧWΧTΧd Denoisedlatent Decoder Z′εRHΧWΧTΧd LatentSpacetimePatches NoisedLatent ZTεRHΧWΧTΧd DiffusionTransformerBlock Patchify GPT-4 Augmentedprompt CLIP Humaninstructions ZTZT-1 Imagesorvideoframes 1.6Sora的技术原理 Sora模型的实施路径可拆分为四个部分 Sora模型的实施路径有四个核心部分: —Part1:使用文生图模型(DALLE3)把文本和图像对<text,image>联系起来。 —Part2:视频数据切分为Patches,通过编码器压缩成低维空间表示,解决了时间和空间两个维度的注意力交互(patch化是训练生成式模型的一个非常scalable和高效的图 像/视频表征形式)。 —Part3:DiffusionTransformer。 •DenoisingDiffusionProbabilisticModels(DDPMs):通过逐步添加噪声来模拟数据分布,然后学习逆向过程去除噪声,以生成