热门搜索：

2024AIGC视频生成：走向AI创生时代

文化传媒2024-03-06甲子光年机构上传

AI智能总结

根据提供的文字内容，总结归纳如下：

Part 02 AIGC视频生成推动世界走向“AI创生时代”
- Part 03 “提示交互式”视频制作范式重塑视频产业链
- Part 04 文娱领域有望开启第二轮投资浪潮

Part 01 AIGC视频生成的技术路线与产品演进趋势

技术里程碑：OpenAI发布的Sora模型被视为视频生成领域的“GPT-3”时刻，展示了强大的视频生成及剪辑能力，超越了其他竞品。
展现效果：Sora模型能够生成高度逼真的60秒高清视频，具有多模态生成能力，包括文本、图片和视频的生成。它还能够处理复杂的时空关系，如前后扩展、无缝连接、3D一致性和远程相关性，以及模拟物理世界中的交互行为。
局限性：Sora在处理复杂物理场景时存在局限性，如无法准确复制某些物理原理和因果关系，尤其是在处理精细动作和面部表情方面。
技术原理：Sora采用了一种结合了Diffusion模型和Transformer模型的创新方法，通过时空补丁和低维空间表示进行训练，实现了高效的视频生成。
局限性与挑战：Sora在人机交互、伦理合规性、数据安全和经济账方面存在挑战，包括版权风险、数据合规性、AI安全问题和成本效益问题。

Part 02 L1-AI生产时代：“拍扁”视频制作链条，开启“提示交互式”新范式

变革趋势：AIGC视频生成技术将重塑传统视频制作流程，引入“提示交互式”制作范式，简化制作过程，提升创意自由度，降低成本。
流程重塑：传统视频制作流程包括策划、拍摄、后期制作等多个阶段，而提示交互式范式仅需用户提供提示词，AI即可生成满足需求的视频内容。
市场潜力：AIGC视频生成工具将在教育、娱乐、营销等领域展现出巨大潜力，促进内容产业的生产力变革。

Part 03 L1-AI生产时代的开源模型关键节点

模型竞争：Sora虽然未公开测试，但显示了与其他竞品的显著差异，可能采用与ChatGPT类似的策略，不开放源代码。
多元入局：随着开源模型的出现，AI视频生成领域将迎来更多初创企业和大型科技公司的竞争，形成多元化布局。
技术创新：AI+视频创业公司、数字人技术提供商、AI+影视公司以及互联网科技企业都在积极探索和创新，力求在视频生成领域占据领先地位。

Part 04 文娱领域有望开启第二轮投资浪潮

用户需求：全民视频创作的热潮正在兴起，用户对个性化、高质量视频内容的需求不断增长。
投资机遇：随着AIGC技术的发展，文娱领域投资机会增多，特别是视频生成技术的应用，有望带动新一轮投资浪潮。
行业趋势：数字科研、世界模型、人形机器人、AI+生产制造等领域的发展，预示着AI与物理世界融合的深入，将带来更多创新和投资机会。

总结：AIGC视频生成技术正引领视频制作领域向“AI创生时代”迈进，通过“提示交互式”范式重塑视频产业链，推动内容产业的生产力变革，并为文娱领域带来新的投资机遇。同时，随着技术的发展和市场竞争的加剧，行业面临着一系列挑战，包括技术局限性、伦理合规性、经济账等问题，需要持续关注和解决。

“一类人有一类人学家想学习上帝；反抗上帝；就是上帝；反…… 造一个。小姐：站在两个世界之间 Part01AIGC视频生成的技术路线与产品演进趋势目录 Part02AIGC视频生成推动世界走向“AI创生时代” Part03“提示交互式”视频制作范式重塑视频产业链 Part04文娱领域有望开启第二轮投资浪潮 1.1Sora让文生视频迎来“GPT-3”时刻 OpenAI发布文生视频模型Sora，堪称视频生成领域的“GPT-3”时刻 “炸裂”视频效果成为讨论热点春节假期甚至还未结束，Sora已引发全民关注 “Sora”一词在微信指数及百度指数的关注度快速上升效果逼真：普通人一时难以分辨 2月16日微信指数快速上升百度关键词搜索趋势处于高位时长感人：60秒高清视频生成 “百万”剪辑：堪比专业的镜头语言多模态：文字、图片、视频皆可生成视频 1.2Sora的展现效果 Sora模型展现自身超强视频生成及剪辑能力，超出其他竞品一个段位能力项视频时长基本视频视频长宽比生成视频清晰度语言理解能力多模文本生成视频态生成图片生成视频视频生成视频文本编辑视频视频扩展视频编辑视频的无缝连接 3D一致性独特远程相干性和物体持久性模拟能力世界交互数字世界模拟 Sora 60秒 1920*1080之间的任意尺寸 1080p 强支持强支持支持向前/向后扩展支持强强强支持其他模型 20秒以内固定尺寸比例，例如16:9，9:16，1:1等部分upscale后达到4k 弱支持支持支持支持仅支持向后不支持弱或不支持弱弱不支持其他模型情况模型 Gen-2 pika1.0 StableVideoDiffusion EmuVideo W.A.L.T 开发团队 Runway PikaLabs StablityAI Meta 李飞飞及其学生团队、谷歌时间 2023年11月 2023年11月 2023年11月 2023年11月 2023年12月长度 4-18秒 3-7秒 2-4秒 4秒 3秒分辨率 768*448，1536*896，4096*2160 1280*720 2560*1440 576*1024 512*512 512*896 是否开源非开源非开源开源非开源非开源 Sora的语言理解能力更强，可将简短的用户提示转换为更长的详细描述 Sora还可以生成图片，最高可达到2048*2048分辨率 Sora通过插帧技术，实现完全不同主题和场景构图的视频之间的流畅自然的过渡效果 Sora可生成具有动态摄像机运动效果的视频，随着摄像机的移动和旋转，人和场景元素在三维空间中保持一致移动 Sora可以对短期和长期依赖关系进行建模，保持各个主体的时空连贯性和一致性 Sora以简单的方式模拟影响世界状态的行为，比如一个人吃完汉堡可以在上面留下咬痕 Sora还能够模拟人工过程，比如视频游戏，同时通过基本策略控制玩家，同时以高保真度渲染世界及其动态例如，Sora可以同时通过基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。 1.2Sora的展现效果大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性 OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力，使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“theyarepurelyphenomena ofscale”——它们纯粹是“规模现象”，这再一次验证了“暴力美学”。 3D一致性：确保景别切换时运镜的连贯基于时空双维度的视频扩展与世界互动：Sora有时可以用简单的方式模拟影响世界状况的动作文/图像/视频生视频的功能视频剪辑功能 12 以上四个镜头由远及近，保证了视频镜头中人和场景的一致性，是其他AI生成视频中少见的。画家可以在画布上留下新的笔触，并随着时间的推移而持续存在。不同主题场景视频的无缝连接一键进行风格渲染模拟数字世界 34 远程相关性和物体持久性 1234 以上四个镜头在同一视频中生成，包括机器人的多个角度。 1.3Sora的出现意味着AGI的又一个里程碑时刻 Sora意味着scalinglaw（规模法则）再次验证，推动文生视频进入“GPT-3”时刻 Scalinglaw（规模法则）的再次验证：虽然Sora并不十全十美，但它通过scalinglaw和原有模型拉开了差距，为视频生成领域提供了另一条可以走通的路线，推动行业进入全新的阶段。 文生视频的“GPT-3”时刻：从发展阶段类比，Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的雏形，Sora让实现AGI的目标又进一步。智能新世代：Sora向AGI再进一步信能比原始时代农业时代工业时代 +∞ 无穷小信息时代数字时代智能新世代 GPT- iPhone4 ChatGPT GPT-3 GPT-1GPT-2 SoraAGI >300 0 5000200 第一台计算机… 第一代PC 19461985 文本生成模型 20102018201920202022 4 2023 当下文生视频模型 20252030 信能比>300 信能比>100 宙线：时间（人类文明进化历程） <AI赋能生产力二次跃迁，开启智能新世代 <AI赋能生产力跃迁推动人类向AGI迈过第一个里程碑推动人类向AGI迈过又一个里程碑备注说明：信能比，是甲子光年智库发明的概念，反映单位能源所能驾驭的信息量。信能比通过单位时间内产生/传输/使用/存储的信息量除以单位时间内所消耗的能源量计算得出，反映单位能源所能调用的信息量水平的高低。信能比可以体现数据智能技术的先进性和能源效率的高效性：它能够反映整个社会数字化、智能化水平的高低；它能体现能源体系的可持续发展能力；它能反映生产力的高低和生产效率的提升；它能体现社会经济发展的先进性、创新性、可持续性。 1.4Sora开启“明牌游戏”，推动AIGC应用时间轴进一步被压缩历史反复表明，一旦先行者模式验证，后来者整体的应用进程时间表将加快 先行者往往要花费大量时间精力试错，一旦模式跑通，“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。 过去一年，AI文本生成和图像生成相继走向成熟，Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现，AIGC已经加速迈入视频生成阶段。 对此，甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频，2025年有望实现根据文本生成初版长视频，并在视频制作环节真实使用落地。图1：AIGC用户偏好使用的大模型产品类型图2：生成式AI技术的成熟应用进程时间表 32.4% 37.6% 51.9% 文本生成类图像生成类 17.1% 22.4% 26.2% 27.6% 科研文字生成类视频生成类代码生成类语音生成类多模态生成类大模型成熟难度：初级尝试接近成熟成熟应用诈骗垃圾信息识别翻译基础问答回应基础文案撰写初稿更长的文本二稿垂直领域的文案撰写实现可精调（论文等）终稿，水平接近人类平均值终稿，水平高于人类平均值终稿，水平高于专业写手单行代码补足多行代码生成更长的代码更精确的表达支持更多语种领域更垂直根据文本生成初版应用程序根据文本生成初版应用程序根据文本生成终版应用程序，比全职开发者水平更高艺术图标摄影模仿（产品设计、建筑等）终稿（海报设计、产品设计等）终稿（产品设计、建筑等）终稿，水平高于专职艺术家、设计师等视频和3D文件的基础版/初稿根据文本生成初版的短视频根据文本生成初版的长视频，并实际应用于制作环节 AI版Roblox可依个人梦想定制的游戏与电影领域类型2020年之前2020年2022年2023年2024年E2025年E2030年E 文本领域代码领域图像领域视频/3D/游戏领域 1.5Sora验证视频生成的新技术范式 Sora的出现意味着视频生成的DiT技术路线得到有力验证 视频生成技术路线在过去主要有两条，一条是基于Transformer的路线，以Phenaki为代表，第二条是DiffusionModel（扩散模型）路线，该路线在2023年是主流路线，诞生了Meta的Make-A-Video、英伟达的VideoLDM，Runway的Gen1、Gen2，字节的MagicVideo等代表性产品。 Sora的发布，对Transformer+DiffusionModel（DiT）路线进行了成果瞩目的验证。图1：AIGC视频生成的技术演进路径生成视频质Diffusion 量Model Transformer+DiffusionModel DiT路线代表产品： Sora 视频分辨率高清 1080P 图2：Sora技术优势与竞品的对比情况 Sora GAN+VAE 早期路线代表产品： Text2Filter Transformer Transformer路线代表产品：PhenakiCogVideoVideoGPT 扩散模型路线代表产品：Make-A-VideoVideoLDM Text2Video-ZeroRunway-Gen2 通义千问视频大模型 720P stablevideo W.Ad.Li.fTfusion EmuVideo Pika1.0 Gen-2 最大生成时长（秒）早期20222023 2024 时间 010203040506070 1.6Sora的技术原理 Patch（时空编码思路）+DiT（Diffusion和Transformer模型的结合）+ScalingLaw（规模效应） Sora模型将视频压缩到低维空间（latentspace），并使用时空补丁（Spacetimelatentpatches）来表示视频。这个过程类似于将文本转换为Token表示，而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练，并使用解码器将低维空间映射回像素空间，以生成视频。 Sora使用了diffusion模型，给定输入的噪声块+文本prompt，它被训练来预测原始的“干净”分块。 Sora是diffusiontransformer，而transformer在各个领域都表现出显著的规模效应。图：业内推测出的Sora技术架构图 PixelVideoSpace Lower-DimensionalLatentSpaceConditioning CleanLatent Encoder ZεRHΧWΧTΧd Denoisedlatent Decoder Z′εRHΧWΧTΧd LatentSpacetimePatches NoisedLatent ZTεRHΧWΧTΧd DiffusionTransformerBlock Patchify GPT-4 Augmentedprompt CLIP Humaninstructions ZTZT-1 Imagesorvideoframes 1.6Sora的技术原理 Sora模型的实施路径可拆分为四个部分 Sora模型的实施路径有四个核心部分： —Part1：使用文生图模型（DALLE3）把文本和图像对<text,image>联系起来。 —Part2：视频数据切分为Patches，通过编码器压缩成低维空间表示，解决了时间和空间两个维度的注意力交互（patch化是训练生成式模型的一个非常scalable和高效的图像/视频表征形式）。 —Part3：DiffusionTransformer。 •DenoisingDiffusionProbabilisticModels(DDPMs)：通过逐步添加噪声来模拟数据分布，然后学习逆向过程去除噪声，以生成

点击免费查看完整报告

你可能感兴趣

2024AIGC视频生成：走向AI创生时代

你可能感兴趣

【国盛通信·深度】AI视频生成，走向细分化与标准化

传媒行业周报：智谱推出AI视频模型“新清影”，视频生成开启“有声”时代

AI创生时代：2024中国AI新风向30条判断

通信行业周报：谷歌最强AI模型Gemini正式发布，AI视频生成工具Pika火爆全球

美股AI周报：AdobeMax大会，视频、图像生成继续突破