智谱AI版Sora清影发布,人人可用、半分钟快速创作视频的时代已来。7月26日,智谱AI旗下“智谱清言”APP正式上线了AI视频生成功能“清影”,向所有用户全量上线,无需预约,人人可用。清影理论上仅需30秒即可完成6秒1440×960清晰度高精度视频的生成,展现出亮眼的推理速度,不仅具备高效的指令遵循能力,还具有内容的连贯性和调度灵活性,而可灵AI生成5秒视频一般耗时2-5分钟。清影同时支持文生视频与图生视频,视频风格覆盖卡通3D、黑白、油画、电影感等,并可配上音乐,生成更为灵动有质感的视频画面。此外,清影API也同步上线大模型开放平台bigmodel.cn,企业和开发者可通过调用API的方式体验视频生成模型能力,推动多模态大模型普及。 清影再次验证Scaling Law在视频生成领域的能力,对齐多模态朝AGI迈进。清影底座的视频生成模型是CogVideoX,并非完全照搬DiT架构,更注重视频与其他模态的对齐融合。具体而言,清影采用将文本、时间和空间三个维度全部融合的transformer架构,摒弃了传统的交叉注意力模块,而是在输入阶段就将文本embedding和视频embedding结合起来,以便充分交互两种模态。其中,注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们不仅增加了建模难度,同时无法与现有的高效训练框架适配; 在内容连贯性上,智谱AI自研3D VAE,将原视频空间压缩至2%大小,配合位置编码模块3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖;在指令跟随上,智谱AI自研端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,从而能够更充分理解和执行用户给出的指令。 国内外类Sora纷纷袭来,下游多模态应用爆发正在蓄能。根据APPSO微信公众号统计,自Sora发布以来,已有不下10家公司推出了AI视频新产品或大更新,在几个月内,AI视频生成在物理模拟、运动流畅度、对提示词理解方面都有大幅的提升。这段时间,快手可灵AI在全球开放内测;PixVerse发布了V2版本,支持一键生成1-5段连续的视频内容;Runway Gen 3 Alpha开启付费用户公测,细节的精致度和丝滑程度上均有提升;电影级视频生成模型Dream Machine,更新了首尾帧功能。视频生成模型已具备一定生产能力,各厂商通过低价或会员等机制努力吸引创作者,为下游多模态应用的爆发蓄能。以清影为例,文生视频、图生视频可灵活应用之广告制作、剧情创作、短视频创作等领域。国内首部AIGC奇观剧《山海奇镜之劈波斩浪》,十余人的创作团队取代传统百人规模,大大缩短制作周期和成本,验证多模态大模型下游应用的前景。 投资建议。智谱清影人人可用的理念有望加速多模态大模型的普及,激发多模态应用创新活力,同时清影落地也离不开地方算力的支持。建议关注AI多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;AI算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码; AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络;AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。 风险提示:技术发展不及预期,商业模式不成熟、AI伦理风险等。