您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:计算机行业专题:视频大模型奇点时刻加速到来 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业专题:视频大模型奇点时刻加速到来

信息技术2024-08-20德邦证券王***
AI智能总结
查看更多
计算机行业专题:视频大模型奇点时刻加速到来

证券研究报告|行业专题 计算机 行业投资评级|优于大市(维持) 2024年8月20日 视频大模型奇点时刻加速到来 证券分析师 姓名:陈涵泊 资格编号:S0120524040004 邮箱:chenhb3@tebon.com.cn 研究助理 姓名:王思 邮箱:wangsi@tebon.com.cn 0 核心逻辑 视频大模型迎来Sora时刻,生产力工具蓄势待发。自Sora发布以来,国内外已有十多家公司发布或更新视频生成模型。 客观对比:与Sora差距缩小,抢占用户或为未来主线。国内外之间的差距正在逐步缩小,视频时长、分辨率等基础功能具有复制性,未来竞争或向抢占用户、提升粘性等方向迁移,从而需要保障生成质量更高的可用视频,使得视频一致性更高、文本指令遵循更准确、物理真实模拟能力更强。 主观对比:视频质量提升显著,离物理世界模拟器仍有距离。文生视频领域,视频画面普遍清晰,而在动作幅度与物理还原度方面差异较大,我国Vidu、清影或已处于视频生成大模型第一梯队,生成时间相对其他模型倍数减少,且在动作幅度、物理还原度等复杂任务完成性较好;图生视频领域,整体效果优于文生视频,国内与国外差距进一步缩小。 视频大模型具备商用潜力,下游应用正在储能。未来随着用户习惯的培育以及算力基础设施的完善,视频大模型的或者办公、广告、电影、游戏等多领域具有广阔的前景。 算法、算力、数据三要素,视频大模型通往AGI的必经之路。 算法:视频生成模型算法主要由基于SD逐帧生成和基于时空Patches两种范式构成,是效率与效益的比拼。前者模型更容易训练, 而视频内容一致性要差一些,长视频训练存在困难;后者训练成本更高,但是生成视频的长度与一致性更容易得到保障。 算力:以Sora为例,一定条件下测算,Sora训练算力需求是GPT-4的4.5倍,而推理算力需求接近GPT-4的400倍。 数据:高质量数据是模型能力的保障,而用户数量或为开启模型迭代“数据飞轮”的关键。 投资建议:建议关注(1)视频大模型厂商:科大讯飞、商汤、云从科技、格灵深瞳、拓尔思、昆仑万维等。(2)算力:海光信息、寒武纪、景嘉微、中科曙光、浪潮信息、工业富联、神州数码、拓维信息、四川长虹等。(3)接入大模型的应用标的:金山办公、万兴科技、福昕软件、虹软科技、彩讯股份、焦点科技、润达医疗、金证股份、泛微网络、金蝶国际等。 风险提示:商业化落地不及预期;国内大模型在缺乏算力支持的情况下迭代速度放缓;国内大模型技术路线产生分歧。 请务必阅读正文之后的信息披露及法律声明。1 目录CONTENTS 01 02 03 04 视频的大模型迎来Sora时刻,生产力工具蓄势待发 算法、算力、数据三要素, 视频大模型通往AGI的必经之路 投资建议 风险提示 请务必阅读正文之后的信息披露及法律声明。2 01 视频大模型迎来Sora时刻,生产力工具蓄势待发 1.1国内外视频生成模型纷至沓来 1.2客观对比:与Sora差距缩小,抢占用户或为未来主线 1.3主观对比:视频质量提升显著,离物理世界模拟器仍有距离 1.4视频大模型具备商用潜力,下游应用正在储能 请务必阅读正文之后的信息披露及法律声明。3 根据APPSO微信公众号,自Sora发布以来,国内外已有不少于十家公司发布或更新视频生成模型。以7月为例: 7月31日,Runway宣布Gen-3可支持图生视频。用户可以使用任何图片作为视频生成的首帧,上传的图片既可以单独使用,也可以使用文本提示进行额外指导。 7月26日,智谱AI版Sora清影发布,人人可用、半分钟快速创作视频的时代已来。清影理论上仅需30秒即可完成6秒1440×960清晰度高精度视频的生成,展现出亮眼的推理速度,不仅具备高效的指令遵循能力,还具有内容的连贯性和调度灵活性。 7月24日,爱诗科技将视频生成模型更新至PixVerseV2,支持一键生成至多5段连续的视频内容,且片段之间会自动保持主体形象、画面风格和场景元素的一致性,视频效果再次提升。 7月17日,英国AI创企HaiperAI宣布Haiper升级至v1.5,时长延长到8秒,且提供视频延长、画质增强等功能。 7月6日,智象未来在WAIC上发布了智象大模型2.0,提供5、10、15秒三种视频生成时长,并增加文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力。此外,智象支持视频增强至4K画质。 图表:清影AI视频效果展示图表:PixVerseV2一次性生成多个一致性视频图表:智象大模型2.0可增强生成4K画质视频 目前,国内外大模型在视频时长、分辨率、画面比例切换等功能或性能指标均与Sora缩小差距,在部分功能已有赶超。 生成类型:主流大模型大多具有文生视频、图生视频功能。国外Sora、Haiperv1.5同时具备视频生视频功能,而我国清影视频生视频功能仅在demo中展示,尚未向用户开放。 视频时长:在Sora鲶鱼带动下,主流大模型视频时长大都达到5-10s级别,我国部分大模型在时长上处于第一梯队。例如,Vidu、PixverseV2、可灵、Vimi等模型可通过视频延展等方式达到30-120s,进一步缩小与Sora差距,甚至实 现赶超。 分辨率:之前的产品分辨率大多在1024*576左右,目前主流大模型以标清720p和高清1080p为主,我国Etna与智象大 模型2.0可通过画质增强达到4K级别,赶超Sora的1080p。 帧率:部分厂商未公布帧率数据,目前以24或30fps为主,而我国的Etna的60fps处于领先地位,此前的产品帧率多为8-12fps。 其他功能:大部分模型已具备镜头运动、风格切换、画面比例切换等功能,提升视频生成质量与灵活性,国内Vidu和清影还可支持为视频配乐,生成视频更具想象力。 商业模式:目前大部分厂商采取免费方式吸引客户,而利用订阅模式开放更多功能等方式增强用户粘性。 综合来看,我们认为国内外视频生成大模型之间的差距正在逐步缩小,视频时长、分辨率等基础功能具有复制性,未来竞争或向抢占用户、提升粘性等方向迁移,从而需要保障生成质量更高的可用视频,使得视频一致性更高、文本指令遵循更准确、物理真实模拟能力更强。 图表:国内外主流视频生成大模型性能对比 公司产品/模型推出时间生成类型生成时长分辨率帧率其他功能价格是否可用 OpenAISora2月16日 文生视频图生视频视频生视频 60s1920*1080- 比例切换,时长可延展、镜头运动、真实世界模拟、-否世界交互等 StabilityAIStableVideo2月21日文生视频 图生视频 4s1024*57624fps比例切换、风格选择、镜头移动免费可用,积分付费:500积分/10美是 元、3000积分/50美元 国LumaAIDream 外Machine 6月13日文生视频图生视频 5s(可延长至 10s) 1360*75224fps视频延长免费可用,月付费版:是 23.99/51.99/79.99/399.99美元 RunwayGen36月17日文生视频 图生视频 5/10s1280*720-镜头运动、比例切换、风格选择、导演模式15美元/月、144美元/月是 HaiperAIHaiperv1.57月17日 文生视频图生视频视频生视频 2/4/8s 1280*720(可增24fps比例切换、视频延长、画质增强强至1080p) 免费可用,月付费版:10/30,年付是 费8折 七火山科技Etna3月7日文生视频8-15s最高3840*216060fps--否 生数科技Vidu4月27日文生视频 图生视频 4/8s(理论 32s) 1920*1080-风格切换,支持配乐免费可用,月付费版:是 9.99/29.99/99.99元,年付费8折 字节即梦5月9日文生视频 图生视频 3/6/9/12s1280*7208fps镜头移动、比例切换、视频延长、补帧、对口型、 画质增强、运动速度 免费可用,年付费版: 659/1899/5199元是 快手可灵6月6日文生视频 国图生视频 5/10s(理论 120s) 1280*72030fps比例切换免费可用,月付费版:66/266/666元是 内商汤Vimi7月4日图生视频60s--可控人物、多种方式控制、风格切换-是 智象未来智象大模型 2.0 7月6日文生视频图生视频 5/10/15s(商业化分钟级) 1024*576(可24fps比例切换、反向提示词、镜头运动、4K增强月付费版:9.9/39.9/129.9/389.9元是增强至4K) 爱诗科技PixverseV27月24日文生视频 图生视频 文生视频 5/8s(可延展 5倍) 1920*1080-视频延长(一键生成至多5段连续的视频内容)、镜 头运动 免费可用,月付费版:4/24/48美元是 智谱AI清影7月26日 图生视频 视频生视频未开放 6s1440*960-镜头移动、风格选择、支持配乐、情感氛围选择免费可用,付费版:5元/天,199/年是 2024年7月31日,中文专用的多层次文生视频基准测评AIGVBench-T2V发布更新。 Gen-3在综合得分和多项指标中表现最佳,智谱清影和快手可灵紧随其后,位于视频生成大模型第一梯队。 国内模型在高难度任务中表现强劲。国内模型如智谱华章的智谱清影(75.24)、爱诗科技的PixVerseV2(75.29)、字节跳动的Dreamina即梦(75.80)在高难度任务中表现优异,分别位列国内第三、第二和第一。此外,快手的可灵网页版(73.13)和 可灵(70.98)也表现不俗,进入国内前五。这显示了国内模型在高难度任务处理上的强劲实力和竞争力。 图表:SuperCLUE中文专用的多层次文生视频基准测评AIGVBench-T2V测评结果 模型名称 所属机构 综合得分 视频感官质量 文本指令遵循能力 物理真实模拟能力 高难度任务分数 测评时间 Gen-3 Runway 79.2 79.03 87.08 71.5 80.92 8月1日 智谱清影 智谱华章 75.08 71.19 92.79 61.76 75.24 8月1日 可灵网页版 快手 75.02 73.04 89.75 62.28 73.13 8月1日 PixVerseV2 爱诗科技 73.32 74.36 86.06 59.55 75.29 8月1日 即梦 字节跳动 72.99 80.31 78.81 60.21 75.8 7月2日 可灵 快手 71.89 77.77 71.63 66.25 70.98 7月2日 Luma LumaAI 70.89 75.16 68.75 69.45 69.97 7月2日 PixVerse 爱诗科技 70.18 82.55 69.87 58.1 70.64 7月2日 WHEE 美图 66.92 82.7 64.32 53.94 66.04 7月2日 Pixeling 智象未来 66.04 71.22 70.52 56.34 68.19 7月2日 PikaArt Pika 63.95 71.75 63.16 56.33 63.95 7月2日 星火绘镜 科大讯飞 61.55 72.07 57.8 56.73 61.55 7月2日 Gen-2 Runway 58 65.33 56.28 51.56 58 7月2日 VegaAI 右脑科技 57.22 68.57 49.38 53.07 57.22 7月2日 我们对主流视频生成大模型在相同prompt下进行测试。 图表:Sora视频结果(20s) 图表:Vidu视频结果(4s) 图表:Gen-3视频结果(10s) 图表:可灵视频结果(5s) 图表:DreamMachine视频结果(5s) 图表:PixverseV2视频结果(9s) 图表:Haiperv1.5视频结果(4s) 图表:清影视频结果(6s) 注:中文pro