您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中原证券]:传媒行业分析报告:OpenAI发布Sora,AI视频技术巨大突破 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒行业分析报告:OpenAI发布Sora,AI视频技术巨大突破

信息技术2024-03-01乔琪中原证券陈***
传媒行业分析报告:OpenAI发布Sora,AI视频技术巨大突破

分析师:乔琪 登记编码:S0730520090001 qiaoqi@ccnew.com021-50586985 OpenAI发布Sora,AI视频技术巨大突 破 ——传媒行业分析报告 证券研究报告-行业分析报告强于大市(维持) 传媒相对沪深300指数表现 传媒沪深300 投资要点: 发布日期:2024年03月01日 43% 33% 24% 15% 5% -4% -14% -23% 2023.032023.062023.102024.02 资料来源:中原证券,聚源 相关报告 《传媒行业专题研究:春节档数据创同期最高,内容端呈高集中度特征》2024-02-21 《传媒行业月报:游戏版号再破百,关注春节档表现》2024-02-07 《传媒行业月报:电影市场550亿元票房收 官,游戏市场规模首超3000亿元》 2024-01-15 联系人:马嶔琦 电话:021-50586973 地址:上海浦东新区世纪大道1788号16楼 邮编:200122 重磅AI视频模型发布。2024年2月15日,OpenAI发布重磅产品AI视频模型Sora,引发市场强烈关注。根据OpenAI官网介绍,Sora能够根据用户输入的指令生成最高长达1分钟、清晰度最高可至1080p的高质量视频,生成的视频内容能够包含多个角色、特定类型的运动以及精确的主题和背景细节等。Sora不仅能够充分理解用户的提示词(Prompt),还能够理解提示词中的物体在物理世界中的存在方式;同时Sora还能够在生成的单个视频中实现运镜、镜头切换等更加复杂的内容呈现并较为准确地保留角色和视觉风格,实现较高的一致性。 Sora能够实现多种视频功能。根据OpenAI官网的演示视频,目前Sora能够实现由AI完成的文生视频、图生视频、视频拓展、视频编辑、视频拼接、图像生成等功能。 技术进步有望大幅拓宽AI视频应用场景。相比此前AI生成的视频,Sora生成的视频不论是长度、运镜、镜头切换能力还是生成画面的细节、一致性、稳定性以及物理特性等方面都有了明显的突破,AI生成视频即将从探索性阶段向实用性阶段逐渐过渡,随着这一过程的演变其应用场景也将得到大幅拓宽。 传媒产业有望受益显著。从内容生产的角度来看,Sora已经展现出了比较强的多模态内容生产能力,未来以Sora为代表的AI视频工具在游戏、广告营销、影视等多个内容产品领域都具有广泛的应用空间。一方面通过AI工具提升内容生产的效率,有效减少视频拍摄和制作环节所花费的时间和成本,缩短内容创作周期,未来的内容产业中,部分非核心内容的创作需求可能被AI模型替代;另一方面借助AI工具的力量能够降低内容创作的门槛,使更多的创作者参与到内容创作之中,提升内容产品的丰富性和创意性,同时非专业团队或内容创作者通过使用AI模型也能够创作出媲美专业团队的高质量内容产品,提升内容产品的质量。 建议关注:恺英网络、三七互娱、完美世界、吉比特、芒果超媒、风语筑、光线传媒、中国电影、万达电影 风险提示:AI生成内容存在伦理、道德和法律风险;AI工具发展进展不及预期 内容目录 1.重磅AI视频模型发布,取得突破性进展3 1.1.AI视频模型Sora重磅发布3 1.2.Sora拥有多种视频生成功能3 1.3.Sora实现突破性进步6 1.4.Sora以patch作为基本训练单元,采用diffusion+transformer架构7 1.5.部分技术仍有瑕疵,静待技术再次进步8 2.AI技术进步扩大应用场景,传媒产业受益显著8 3.风险提示9 图表目录 图1:Sora能够基于文字指令生成视频4 图2:Sora能够结合左侧的图片和文字指令生成右侧的视频4 图3:Sora视频拓展功能(三个不同的视频开头引导向同一个视频结尾)5 图4:Sora能够通过添加指定元素或改变视频风格实现视频编辑5 图5:Sora视频拼接功能(将左侧视频与右侧视频拼接并生成中间的视频)5 图6:Sora图片生成功能6 图7:Sora通过视觉编码器将视觉数据维度降低7 图8:Sora通过去除噪声的方式生成清晰的视频7 图9:男子跑步方向和跑步机相反8 图10:篮球没有触碰篮筐而是直接穿过8 表1:AI视频模型对比6 1.重磅AI视频模型发布,取得突破性进展 1.1.AI视频模型Sora重磅发布 2024年2月15日,OpenAI发布重磅产品AI视频模型Sora,引发市场强烈关注。根据OpenAI官网介绍,Sora能够根据用户输入的指令生成最高长达1分钟、清晰度最高可至1080p的高质量视频,生成的视频内容能够包含多个角色、特定类型的运动以及精确的主题和背景细节等。Sora不仅能够充分理解用户的提示词(Prompt),还能够理解提示词中的物体在物理世界中的存在方式;同时Sora还能够在生成的单个视频中实现运镜、镜头切换等更加复杂的内容呈现并较为准确地保留角色和视觉风格,实现较高的一致性。 目前Sora尚未对大众用户开放使用,但从OpenAI官网展示的视频来看,Sora生成的视频已经接近实拍的效果,具有丰富的光影色彩、细腻的画面以及逼真的人物和物体造型,视频展示的物体和人物的运动轨迹也基本符合现实世界中的物理规律 1.2.Sora拥有多种视频生成功能 根据OpenAI官网的演示视频,目前Sora能够实现由AI完成的文生视频、图生视频、视频拓展、视频编辑、视频拼接、图像生成等功能。 文生视频 在OpenAI的官网中展示了多个由Sora基于提示词生成视频的范例,例如根据提示词“一位时尚女性走在充满温暖霓虹灯和生动城市标志的东京街头。她穿着黑色的皮夹克、红色长裙、黑色靴子并拿着黑色皮包;戴着太阳镜、涂着口红;走路时自信又随意。街道潮湿且有反光,并与彩灯形成了镜面效应。周围还有一些行人。”生成了一段约60s的视频。从最终效果来看,视频基本能够包含提示词中所要求的全部要素。在画面移动的过程中人物与镜头的距离、背景中街道的场景以及地面积水处的反光也会随之不断变化,人物的动作姿态、背景元素以及画面风格都能够保持比较好的连贯性和一致性;同时镜头画面切换至脸部特写时,墨镜的反光、人物的表情等细节方面也得到了比较好的处理。 、 图1:Sora能够基于文字指令生成视频 资料来源:OpenAI官网,中原证券 图生视频 Sora能够根据给定的图片和输入的提示词,将静态图片转化为动态视频。 图2:Sora能够结合左侧的图片和文字指令生成右侧的视频 资料来源:OpenAI官网,中原证券 视频拓展 根据给定的视频,由AI模型根据时间线对该视频向前或向后的内容进行拓展补充,此外也可以通过同时向前和向后拓展生成一个无限循环视频。OpenAI在演示中展示了3个结尾完全相同的视频,但由Sora补充的向前拓展的视频内容却完全不同。 图3:Sora视频拓展功能(三个不同的视频开头引导向同一个视频结尾) 资料来源:OpenAI官网,中原证券 视频编辑 通过零拍摄的方式将输入视频的风格和环境按照需求进行要素的添加或风格的转换并输出新视频。 图4:Sora能够通过添加指定元素或改变视频风格实现视频编辑 资料来源:OpenAI官网,中原证券 视频拼接 将两段主体和场景完全不同的视频进行拼接或无缝转场,生成一个融合两个不同视频要素的新视频。 图5:Sora视频拼接功能(将左侧视频与右侧视频拼接并生成中间的视频) 资料来源:OpenAI官网,中原证券 图像生成 通过在一帧的空间网格中加入一块块高斯噪声来实现图像生成功能,生成的图像可以拥有 不同的尺寸,最高可达到2048*2048的分辨率。 图6:Sora图片生成功能 资料来源:OpenAI官网,中原证券 1.3.Sora实现突破性进步 相比于此前市场上的AI视频模型,Sora的进步十分明显。目前市场上主要的AI视频模型包括Pika、Gen-2、Lumiere、StableVideoDiffusion等。根据OpenAI官网的技术文档以及展示的视频效果,相比其他AI视频模型,Sora在生成视频的长度、视频尺寸、拓展性、多镜头能力、运镜以及视频的一致性、稳定性等方面都展现出了比较显著的优势。 具体来看:(1)Sora生成的视频长度最高可达60s,而市场上的主流竞品模型最高支持到十几秒的视频生成;(2)Sora在拓展视频时可以实现向前拓展、向后拓展和双向拓展的多种方式,竞品模型通常仅支持向后拓展;(3)Sora能够生成横屏1920*1080以及竖屏1080*1920之间任意尺寸视频,还能够直接根据不同设备的原始屏幕高宽比生成相应视频内容,而竞品模型通常仅支持固定比例尺寸视频,同时Sora能够在生成完整分辨率视频之前快速生成同一模型的小尺寸内容原型,进一步提高视频生成的效率;(4)经过大规模训练后Sora涌现出了新的模拟能力,仅通过规模效应而非归纳偏好的情况下使Sora也能够模拟来自于物理世界的人物、动物和环境的某些方面;(5)Sora展现出了比较高的3D一致性,在镜头运动过程中,人物和场景元素也会在三维空间一致移动;(6)Sora具有较好的长时间的连贯性和物体的持久性,当人物或物体被遮挡或在同一个视频中即使生成同一个角色或物体的多个镜头也能够保持其外观的一致。 依靠这些优势,相比于市面上的其他AI视频模型,Sora能够生成更加复杂的视频内容, AI视频模型的实用性也得到较大程度的提升。 表1:AI视频模型对比 模型公司最高视频时长视频拓展性视频尺寸 向前/向后或双向 SoraOpenAI60s 同时拓展 1920*1080至1080*1920之间任意尺寸 Pika1.0 PikaLabs 3s,可拓展至7s 可向后拓展 16:9、9:16、1:1、5:2、4:5、4:3 Lumiere Google 5s - 1024*1024 StableVideoDiffusion Stability.AI 2-5s - 576*1024 Gen-2 Runway 4s,升级会员后可拓展至16s 可向后拓展 16:9、9:16、1:1、4:3、3:4、21:9 资料来源:Pikalabs官网,OpenAI官网,Lumiere官网,Runway官网,Stability.AI官网,中原证券 1.4.Sora以patch作为基本训练单元,采用diffusion+transformer架构 大语言模型通过大规模数据的训练获得了通用能力,其成功部分得益于通过token统一了代码、数学以及不同的自然语言等文本。在视频内容的生成方面,OpenAI从大语言模型的训练中受到启发并沿用这一思路,将不同的视频和图像数据经过压缩后转化为patch,patch类似于大语言模型中的token,能够作为视觉数据的基本单元。 OpenAI训练了一个降低视觉数据维度的网络,将未经处理的原始视频输入,并输出经过时间和空间两个维度上压缩后的隐性表示,Sora在压缩后的隐性空间中进行训练并生成视频,同时OpenAI还训练了一个解码器模型并将生成的隐性表示映射回像素空间。 图7:Sora通过视觉编码器将视觉数据维度降低 资料来源:OpenAI官网,中原证券 根据Sora的技术报告显示,Sora是一种扩散模型(diffusionmodel),从生成类似静态噪声的视频开始并通过逐步去噪的方式来最终形成清晰的视频。同时Sora还采用了Transformer架构,Transformer架构已经在语言模型、计算机视觉和图片生成等不同领域展现出了显著的扩展性;在视频模型领域,diffusiontransformer也同样能够实现有效扩展。 图8:Sora通过去除噪声的方式生成清晰的视频 资料来源:OpenAI官网,中原证券 为了提高Sora在文生视频方面的语言理解能力,OpenAI基于过去对DALL·E和GPT模型的研究基础上,将DALL·E3的重描述技术应用到视频领域。首先训练一个高度描述性的文字说明模型并用来为训练集中的所有视频生成文字描述,通过对高度描述性的视频