您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:计算机行业重大事项点评:视频模型Sora发布,或为AGI重要里程碑 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业重大事项点评:视频模型Sora发布,或为AGI重要里程碑

信息技术2024-02-18吴鸣远华创证券李***
AI智能总结
查看更多
计算机行业重大事项点评:视频模型Sora发布,或为AGI重要里程碑

事项: 2024年2月16日凌晨,OpenAI发布了首个文生视频模型Sora。 评论: Sora为文本转视频模型,支持生成1分钟连续视频。2月16日,OpenAI发布了首个文生视频模型Sora。Sora是一种扩散模型(DiffusionModel),通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。Sora采用了类似于GPT模型的变压器架构(TransformerArchitecture),并采用DALL-E 3(OpenAI旗下文生图模型)中的重标记技术(RecaptioningTechnique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。当前,Sora已经支持1分钟左右连续长视频的生成。OpenAI表示,Sora是未来模拟现实世界的模型的基础,其模拟能力将是实现AGI(Artificial General Intelligence)的重要里程碑。 Sora涵盖多种视频功能,能力强悍。Sora能够生成具有多个角色、特定类型运动等的复杂场景,并能做到对主体和背景的细节进行准确刻画。模型不仅了解用户提出的要求,还了解用户要求在物理世界中存在与运行的方式。目前,Sora共涵盖3种视频生成方式:1)文字生成视频;2)图片生成视频;3)视频生成视频。Sora在支持多种视频生成方式之外,还具备其他多种视频能力。 4)扩展所生成的视频;5)视频拼接;6)保持3D一致性;7)保持远程相干性和物体持久性;8)物理交互反馈;9)模拟人造数字世界。尽管Sora已经迈出大模型的历史性步伐,但目前仍存在局限性,例如Sora不能准确模拟许多基本交互的物理现象,如玻璃碎裂场景。 Sora在文字理解、视频长度、画面一致性等方面领先其他视频生成模型。在同一提示语句下,Sora生成视频长达17s,Pika生成视频约为3s,而Runway、Stable Video约为4s,Sora生成视频长度领先其他模型。其次,Sora生成视频内容完整体现提示词,而Runway视频中无人物形象,StableVideo中行人腿部线条模糊,行走姿势不符合现实,Pika生成的视频则并无摄像角度的更换。 投资建议:Sora文生视频能力强悍,有望带动AIGC相关产业链发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等; 4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 风险提示:多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。 一、OpenAI发布文生视频模型Sora,具备多种功能 Sora为文本转视频模型,支持生成1分钟连续视频。2月16日,OpenAI发布了首个文生视频模型Sora,Sora是未来模拟现实世界的模型的基础,其模拟能力将是实现AGI(Artificial General Intelligence)的重要里程碑。Sora是一种扩散模型(DiffusionModel),通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。Sora采用了类似于GPT模型的变压器架构(TransformerArchitecture),并采用DALL-E 3(OpenAI旗下文生图模型)中的重标记技术(RecaptioningTechnique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。当前,Sora已经支持1分钟左右连续长视频的生成。 图表1 Sora能够根据文字生成1分钟左右连续长视频 Sora涵盖多种视频功能,能力强悍。Sora能够生成具有多个角色、特定类型运动等复杂场景,并能做到对主体和背景的细节进行准确刻画。模型不仅了解用户提出的要求,还了解用户要求在物理世界中存在与运行的方式。目前,Sora共涵盖3种视频生成方式: 1)文字生成视频:输入自然语言,最大生成1分钟左右的视频内容; 2)图片生成视频:用户提供静态图片与提示词,Sora能够将其扩展为视频; 3)视频生成视频:用户提供一段原始视频与提示词,Sora能实现更换视频背景等功能。 图表2图片生成视频功能 图表3视频生成视频功能(例:汽车行驶背景改换) Sora在支持多种视频生成方式之外,还具备其他多种视频能力。 4)扩展所生成的视频:Sora能够在时间上向前或向后扩展视频。以往生成视频多为顺时间生成未来内容,而Sora支持逆时间扩展视频内容,但视频结尾保持一致。 图表4逆时间延长视频 图表5视频结尾部分一致 5)视频拼接:Sora可以在两个输入视频之间逐渐进行帧插值,从而在具有完全不同主题和场景构成的视频之间进行无缝过渡。 图表6 Sora能够连接多个视频(中间视频融合汽车行驶与猎豹行走) 6)保持3D一致性:Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。 图表7人、场景、镜头移动保持3D一致性 图表8人、场景、镜头保持3D一致性 7)保持远程相干性和物体持久性:Sora经常能够有效地对短距离和长距离依赖关系进行建模。例如,即使视频主体(人、动物和物体)被遮挡或离开画面,我们的模型也能保持主体的存在。 图表9 Sora能够保持视频主体的持久性(例:斑点狗被遮挡前后仍然存在视频中) 8)物理交互反馈:Sora有时可以模拟一些影响物体状态的简单动作。 图表10画笔在画布上留下笔触并持续 图表11吃汉堡并留下咬痕 9)模拟人造数字世界:Sora还能够模拟人造的虚拟世界。比如在Minecraft(我的世界)游戏中,Sora可以使用相关模块控制Minecraft中的玩家,同时高清地呈现世界及其动态。 Sora目前还存在许多局限性。Sora不能准确模拟许多基本交互的物理现象,如玻璃碎裂场景。对于部分吃食物、在跑步机上跑步等场景,Sora并不总能生成正确的主体状态变化。 图表12 Sora对玻璃碎裂场景模拟不准确 二、Sora视频生成能力领先:主流视频生成模型对比测评 Sora在文字理解、视频长度,画面一致性等方面领先其他视频生成模型。根据机器之心转引一推特博主测试,在同一提示语句下,Sora生成视频长达17s,Pika生成视频约为3s,而Runway、Stable Video约为4s,Sora生成视频长度领先其他模型。其次,Sora生成视频内容完整体现提示词,而Runway视频中无人物形象,Stable Video中行人腿部线条模糊,行走姿势不符合现实,Pika生成的视频则并无摄像角度的更换。 Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. 图表13视频长度上Sora领先于其他模型 图表14内容理解程度上Sora领先于其他模型 三、投资建议 Sora文生视频能力强悍,有望带动AIGC相关产业链发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科; 2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 四、风险提示 多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。 团队介绍 首席研究员、组长:吴鸣远 上海交通大学硕士,曾任职于东方证券、兴业证券研究所,所在团队于2020—2022年连续三年获得新财富最佳分析师第三名,2023年加入华创证券研究所。 助理研究员:梁佳 上海财经大学经济学硕士,2022年加入华创证券研究所。 助理研究员:张宇凡 香港大学会计学硕士。2023年加入华创证券研究所。 研究员:胡昕安 工学硕士,曾任职于海康威视,2023年加入华创证券研究所。 华创证券机构销售通讯录 地区 姓名 职务 办公电话 企业邮箱 张昱洁 副总经理、北京机构销售总监 010-63214682 zhangyujie@hcyjs.com 张菲菲 北京机构副总监 010-63214682 zhangfeifei@hcyjs.com 刘懿 副总监 010-63214682 liuyi@hcyjs.com 侯春钰 资深销售经理 010-63214682 houchunyu@hcyjs.com 北京机构销售部 过云龙 高级销售经理 010-63214682 guoyunlong@hcyjs.com 蔡依林 高级销售经理 010-66500808 caiyilin@hcyjs.com 刘颖 高级销售经理 010-66500821 liuying5@hcyjs.com 顾翎蓝 高级销售经理 010-63214682 gulinglan@hcyjs.com 车一哲 销售经理 cheyizhe@hcyjs.com 张娟 副总经理、深圳机构销售总监 0755-82828570 zhangjuan@hcyjs.com 汪丽燕 高级销售经理 0755-83715428 wangliyan@hcyjs.com 深圳机构销售部 张嘉慧 高级销售经理 0755-82756804 zhangjiahui1@hcyjs.com 董姝彤 销售经理 0755-82871425 dongshutong@hcyjs.com 王春丽 销售经理 0755-82871425 wangchunli@hcyjs.com 许彩霞 总经理助理、上海机构销售总监021-20572536 xucaixia@hcyjs.com 官逸超 上海机构销售副总监 021-20572555 guanyichao@hcyjs.com 黄畅 上海机构销售副总监 021-20572257-2552 huangchang@hcyjs.com 吴俊 资深销售经理 021-20572506 wujun1@hcyjs.com 张佳妮 高级销售经理 021-20572585 zhangjiani@hcyjs.com 上海机构销售部 蒋瑜 高级销售经理 021-20572509 jiangyu@hcyjs.com 施嘉玮 高级销售经理 021-20572548 shijiawei@hcyjs.com 朱涨雨 销售经理 021-20572573 zhuzhangyu@hcyjs.com 李凯月 销售经理 likaiyue@hcyjs.com 易星 销售助理 yixing@hcyjs.com 张玉恒 销售助理 zhangyuheng@hcyjs.com 段佳音 广州机构销售总监 0755-82756805 duanjiayin@hcyjs.com 广州机构销售部 周玮 销售经理 zhouwei@hcyjs.com 王世韬 销售经理 wangshitao1@hcyjs.com 潘亚琪 总监 021-20572559 panyaqi@hcyjs.com 汪子阳 副总监 021-20572559 wangziyang@hcyjs