行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业专题：视频大模型奇点时刻加速到来

信息技术 2024-08-20 德邦证券王英杰

核心观点

视频大模型发展迅速，国内外差距缩小：自Sora发布以来，国内外已有十多家公司发布或更新视频生成模型，视频时长、分辨率等基础功能差距缩小，未来竞争将转向抢占用户和提升粘性。
国内模型表现强劲，部分已进入第一梯队：在文生视频领域，我国Vidu、清影等模型在动作幅度、物理还原度等复杂任务完成性上表现优异；图生视频领域，国内与国外差距进一步缩小。
视频大模型具备商用潜力，下游应用正在储能：视频大模型已初步验证商用潜力，未来在办公、广告、电影、游戏等领域具有广阔前景。

关键数据

Sora模型参数量约30亿，训练数据或达到百万亿级patches。
Sora训练算力或达到9.8万ZFLOPS，大致需要9096张H100卡训练180天。
Sora生成1分钟视频算力达到437.4PFLOPS，系生成2k token GPT-4的390.5倍。

研究结论

算法方面：视频生成模型算法主要由基于SD逐帧生成和基于时空Patches两种范式构成，前者模型更容易训练，后者训练成本更高但生成视频的长度与一致性更容易得到保障。
算力方面：视频生成模型训练和推理算力需求远高于文字等单模态模型，Sora训练算力需求是GPT-4的4.5倍，推理算力需求接近GPT-4的400倍。
数据方面：高质量数据是模型能力的保障，用户数量或为开启模型迭代“数据飞轮”的关键。
投资建议：建议关注视频大模型厂商（科大讯飞、商汤、云从科技等）、算力（海光信息、寒武纪等）以及接入大模型的应用标的（金山办公、万兴科技等）。
风险提示：商业化落地不及预期、国内大模型在缺乏算力支持的情况下迭代速度放缓、国内大模型技术路线产生分歧。

证券研究报告|行业专题计算机行业投资评级|优于大市（维持） 2024年8月20日视频大模型奇点时刻加速到来证券分析师姓名：陈涵泊资格编号：S0120524040004 邮箱：chenhb3＠tebon.com.cn 研究助理姓名：王思邮箱：wangsi＠tebon.com.cn 0 核心逻辑 视频大模型迎来Sora时刻，生产力工具蓄势待发。自Sora发布以来，国内外已有十多家公司发布或更新视频生成模型。 客观对比：与Sora差距缩小，抢占用户或为未来主线。国内外之间的差距正在逐步缩小，视频时长、分辨率等基础功能具有复制性，未来竞争或向抢占用户、提升粘性等方向迁移，从而需要保障生成质量更高的可用视频，使得视频一致性更高、文本指令遵循更准确、物理真实模拟能力更强。 主观对比：视频质量提升显著，离物理世界模拟器仍有距离。文生视频领域，视频画面普遍清晰，而在动作幅度与物理还原度方面差异较大，我国Vidu、清影或已处于视频生成大模型第一梯队，生成时间相对其他模型倍数减少，且在动作幅度、物理还原度等复杂任务完成性较好；图生视频领域，整体效果优于文生视频，国内与国外差距进一步缩小。 视频大模型具备商用潜力，下游应用正在储能。未来随着用户习惯的培育以及算力基础设施的完善，视频大模型的或者办公、广告、电影、游戏等多领域具有广阔的前景。 算法、算力、数据三要素，视频大模型通往AGI的必经之路。 算法：视频生成模型算法主要由基于SD逐帧生成和基于时空Patches两种范式构成，是效率与效益的比拼。前者模型更容易训练，而视频内容一致性要差一些，长视频训练存在困难；后者训练成本更高，但是生成视频的长度与一致性更容易得到保障。 算力：以Sora为例，一定条件下测算，Sora训练算力需求是GPT-4的4.5倍，而推理算力需求接近GPT-4的400倍。 数据：高质量数据是模型能力的保障，而用户数量或为开启模型迭代“数据飞轮”的关键。 投资建议：建议关注（1）视频大模型厂商：科大讯飞、商汤、云从科技、格灵深瞳、拓尔思、昆仑万维等。（2）算力：海光信息、寒武纪、景嘉微、中科曙光、浪潮信息、工业富联、神州数码、拓维信息、四川长虹等。（3）接入大模型的应用标的：金山办公、万兴科技、福昕软件、虹软科技、彩讯股份、焦点科技、润达医疗、金证股份、泛微网络、金蝶国际等。 风险提示：商业化落地不及预期；国内大模型在缺乏算力支持的情况下迭代速度放缓;国内大模型技术路线产生分歧。请务必阅读正文之后的信息披露及法律声明。1 目录CONTENTS 01 02 03 04 视频的大模型迎来Sora时刻，生产力工具蓄势待发算法、算力、数据三要素，视频大模型通往AGI的必经之路投资建议风险提示请务必阅读正文之后的信息披露及法律声明。2 01 视频大模型迎来Sora时刻，生产力工具蓄势待发 1.1国内外视频生成模型纷至沓来 1.2客观对比：与Sora差距缩小，抢占用户或为未来主线 1.3主观对比：视频质量提升显著，离物理世界模拟器仍有距离 1.4视频大模型具备商用潜力，下游应用正在储能请务必阅读正文之后的信息披露及法律声明。3 根据APPSO微信公众号，自Sora发布以来，国内外已有不少于十家公司发布或更新视频生成模型。以7月为例： 7月31日，Runway宣布Gen-3可支持图生视频。用户可以使用任何图片作为视频生成的首帧，上传的图片既可以单独使用，也可以使用文本提示进行额外指导。 7月26日，智谱AI版Sora清影发布，人人可用、半分钟快速创作视频的时代已来。清影理论上仅需30秒即可完成6秒1440×960清晰度高精度视频的生成，展现出亮眼的推理速度，不仅具备高效的指令遵循能力，还具有内容的连贯性和调度灵活性。 7月24日，爱诗科技将视频生成模型更新至PixVerseV2，支持一键生成至多5段连续的视频内容，且片段之间会自动保持主体形象、画面风格和场景元素的一致性，视频效果再次提升。 7月17日，英国AI创企HaiperAI宣布Haiper升级至v1.5，时长延长到8秒，且提供视频延长、画质增强等功能。 7月6日，智象未来在WAIC上发布了智象大模型2.0，提供5、10、15秒三种视频生成时长，并增加文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力。此外，智象支持视频增强至4K画质。图表：清影AI视频效果展示图表：PixVerseV2一次性生成多个一致性视频图表：智象大模型2.0可增强生成4K画质视频 目前，国内外大模型在视频时长、分辨率、画面比例切换等功能或性能指标均与Sora缩小差距，在部分功能已有赶超。 生成类型：主流大模型大多具有文生视频、图生视频功能。国外Sora、Haiperv1.5同时具备视频生视频功能，而我国清影视频生视频功能仅在demo中展示，尚未向用户开放。 视频时长：在Sora鲶鱼带动下，主流大模型视频时长大都达到5-10s级别，我国部分大模型在时长上处于第一梯队。例如，Vidu、PixverseV2、可灵、Vimi等模型可通过视频延展等方式达到30-120s，进一步缩小与Sora差距，甚至实现赶超。 分辨率：之前的产品分辨率大多在1024*576左右，目前主流大模型以标清720p和高清1080p为主，我国Etna与智象大模型2.0可通过画质增强达到4K级别，赶超Sora的1080p。 帧率：部分厂商未公布帧率数据，目前以24或30fps为主，而我国的Etna的60fps处于领先地位，此前的产品帧率多为8-12fps。 其他功能：大部分模型已具备镜头运动、风格切换、画面比例切换等功能，提升视频生成质量与灵活性，国内Vidu和清影还可支持为视频配乐，生成视频更具想象力。 商业模式：目前大部分厂商采取免费方式吸引客户，而利用订阅模式开放更多功能等方式增强用户粘性。 综合来看，我们认为国内外视频生成大模型之间的差距正在逐步缩小，视频时长、分辨率等基础功能具有复制性，未来竞争或向抢占用户、提升粘性等方向迁移，从而需要保障生成质量更高的可用视频，使得视频一致性更高、文本指令遵循更准确、物理真实模拟能力更强。图表：国内外主流视频生成大模型性能对比公司产品/模型推出时间生成类型生成时长分辨率帧率其他功能价格是否可用 OpenAISora2月16日文生视频图生视频视频生视频 60s1920*1080- 比例切换，时长可延展、镜头运动、真实世界模拟、-否世界交互等 StabilityAIStableVideo2月21日文生视频图生视频 4s1024*57624fps比例切换、风格选择、镜头移动免费可用，积分付费：500积分/10美是元、3000积分/50美元国LumaAIDream 外Machine 6月13日文生视频图生视频 5s(可延长至 10s） 1360*75224fps视频延长免费可用，月付费版：是 23.99/51.99/79.99/399.99美元 RunwayGen36月17日文生视频图生视频 5/10s1280*720-镜头运动、比例切换、风格选择、导演模式15美元/月、144美元/月是 HaiperAIHaiperv1.57月17日文生视频图生视频视频生视频 2/4/8s 1280*720(可增24fps比例切换、视频延长、画质增强强至1080p) 免费可用，月付费版：10/30，年付是费8折七火山科技Etna3月7日文生视频8-15s最高3840*216060fps--否生数科技Vidu4月27日文生视频图生视频 4/8s（理论 32s） 1920*1080-风格切换，支持配乐免费可用，月付费版：是 9.99/29.99/99.99元，年付费8折字节即梦5月9日文生视频图生视频 3/6/9/12s1280*7208fps镜头移动、比例切换、视频延长、补帧、对口型、画质增强、运动速度免费可用，年付费版： 659/1899/5199元是快手可灵6月6日文生视频国图生视频 5/10s（理论 120s） 1280*72030fps比例切换免费可用，月付费版：66/266/666元是内商汤Vimi7月4日图生视频60s--可控人物、多种方式控制、风格切换-是智象未来智象大模型 2.0 7月6日文生视频图生视频 5/10/15s（商业化分钟级） 1024*576（可24fps比例切换、反向提示词、镜头运动、4K增强月付费版：9.9/39.9/129.9/389.9元是增强至4K）爱诗科技PixverseV27月24日文生视频图生视频文生视频 5/8s（可延展 5倍） 1920*1080-视频延长（一键生成至多5段连续的视频内容）、镜头运动免费可用，月付费版：4/24/48美元是智谱AI清影7月26日图生视频视频生视频未开放 6s1440*960-镜头移动、风格选择、支持配乐、情感氛围选择免费可用，付费版：5元/天，199/年是 2024年7月31日，中文专用的多层次文生视频基准测评AIGVBench-T2V发布更新。 Gen-3在综合得分和多项指标中表现最佳，智谱清影和快手可灵紧随其后，位于视频生成大模型第一梯队。 国内模型在高难度任务中表现强劲。国内模型如智谱华章的智谱清影（75.24）、爱诗科技的PixVerseV2（75.29）、字节跳动的Dreamina即梦（75.80）在高难度任务中表现优异，分别位列国内第三、第二和第一。此外，快手的可灵网页版（73.13）和可灵（70.98）也表现不俗，进入国内前五。这显示了国内模型在高难度任务处理上的强劲实力和竞争力。图表：SuperCLUE中文专用的多层次文生视频基准测评AIGVBench-T2V测评结果模型名称所属机构综合得分视频感官质量文本指令遵循能力物理真实模拟能力高难度任务分数测评时间 Gen-3 Runway 79.2 79.03 87.08 71.5 80.92 8月1日智谱清影智谱华章 75.08 71.19 92.79 61.76 75.24 8月1日可灵网页版快手 75.02 73.04 89.75 62.28 73.13 8月1日 PixVerseV2 爱诗科技 73.32 74.36 86.06 59.55 75.29 8月1日即梦字节跳动 72.99 80.31 78.81 60.21 75.8 7月2日可灵快手 71.89 77.77 71.63 66.25 70.98 7月2日 Luma LumaAI 70.89 75.16 68.75 69.45 69.97 7月2日 PixVerse 爱诗科技 70.18 82.55 69.87 58.1 70.64 7月2日 WHEE 美图 66.92 82.7 64.32 53.94 66.04 7月2日 Pixeling 智象未来 66.04 71.22 70.52 56.34 68.19 7月2日 PikaArt Pika 63.95 71.75 63.16 56.33 63.95 7月2日星火绘镜科大讯飞 61.55 72.07 57.8 56.73 61.55 7月2日 Gen-2 Runway 58 65.33 56.28 51.56 58 7月2日 VegaAI 右脑科技 57.22 68.57 49.38 53.07 57.22 7月2日 我们对主流视频生成大模型在相同prompt下进行测试。图表：Sora视频结果（20s）图表：Vidu视频结果（4s）图表：Gen-3视频结果（10s）图表：可灵视频结果（5s）图表：DreamMachine视频结果（5s）图表：PixverseV2视频结果（9s）图表：Haiperv1.5视频结果（4s）图表：清影视频结果（6s）注：中文pro

点击免费查看完整报告

计算机行业专题：视频大模型奇点时刻加速到来

核心观点

关键数据

研究结论

你可能感兴趣

【盘中宝】自动驾驶“奇点”时刻有望加速到来，AI大模型发展将缩短自动驾驶开发进程，进一步推动产业成熟，这家公司为华为

计算机行业重大事项点评：Seedance2.0上线，AI视频迎来奇点时刻

计算机行业点评报告：OpenAI发布Sora2，AI视频迎来奇点时刻

AI大时代系列报告之一（基础篇）：大模型与算力共振，奇点时刻到来

计算机行业研究：OpenAI Shipmas Day3：Sora Turbo正式发布，视频版GPT-1时刻到来

华泰计算机字节Seedance20AI视频奇点时刻AI漫剧遗珠

计算机行业周观点：大模型的“安卓时刻”已经到来

计算机行业人工智能双周报：无人驾驶的“中国时刻”加速到来

【盘中宝】该AI大模型应用成果发布会将举行，机构称这一细分领域是AI落地重要场景，行业奇点时刻来临未来市场空间或超1500亿，这家企业计划打造基

计算机行业深度报告：稳定币迎来“奇点”时刻，产业大趋势已至