热门搜索：

计算机：Vidu直接对标Sora，AI时代不可忽视视频革命

信息技术2024-05-01陈涵泊德邦证券@***

AI智能总结

根据提供的研报内容，可以总结如下：

Vidu的发布与意义

发布时间与背景：4月27日，清华大学与生数科技联合发布中国首个长时间、高一致性、高动态性的视频大模型Vidu，直接对标国际先进水平。
技术特色：
- 架构：采用原创的U-ViT架构，结合Diffusion与Transformer技术，支持文本生成长达16秒、分辨率达到1080P的高清视频。
- 功能：多镜头生成、模拟真实物理世界、保持时空一致性、丰富的想象力、理解中国元素等。

Vidu的技术突破与优势

虚构能力：能够创造真实世界不存在的超现实画面，这是当前视频生成模型难以实现的。
动态性与物理规律：在镜头语言和对物理世界规律的理解与模拟方面达到Sora相近水平。

研发团队与背景

团队背景：生数科技的核心团队来自清华大学人工智能研究院，汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才。
研发成果：长期专注于生成式人工智能和贝叶斯机器学习的研究，拥有深度生成式算法研究能力和扩散概率模型底层创新研发能力。

Vidu的推出与影响

技术创新：Vidu的推出代表了中国在视频大模型领域的技术突破，有望加速多模态大模型的成熟。
应用潜力：预计Vidu将在视频剪辑、办公、教育、电商、医疗等领域催生更多现象级AIGC应用。

投资建议与风险提示

投资机会：推荐关注AI多模态、AI算力、AI+办公、AI+教育/电商/医疗等领域的相关公司。
风险因素：技术发展不及预期、产品落地不及预期、AI伦理风险等。

Vidu引领国产视频大模型革新

Vidu作为中国首个直接对标国际先进水平的视频大模型，其发布标志着中国在视频大模型领域实现了技术突破，预示着国产多模态大模型进入快速发展阶段。Vidu在多镜头生成、模拟真实物理世界、保持时空一致性、丰富的想象力和理解中国元素等方面展现出独特优势，不仅提升了下游AI应用的普及度，还将进一步刺激AI训练与推理算力需求的增长。

U-ViT架构厚积薄发，工程实践大放异彩

Vidu的研发依托于清华大学背景的强大科研实力，特别是生数科技团队在贝叶斯机器学习和多模态大模型领域的长期积累和多项原创性成果。U-ViT架构作为全球首个Diffusion与Transformer融合的架构，相比其他视频生成模型如Sora，Vidu在生成质量、时长以及动态性方面达到了相近水平，尤其是在模拟真实物理世界和创造超现实画面的能力上展现出了独特优势。

海内外大模型瞄准视频领域，加速向应用端延伸

随着Vidu的发布，国内外的大模型研发开始更加聚焦于视频领域的突破，加速向应用端的普及。海外方面，Open AI等公司展示了在视频生成上的进展，而国内则紧随其后，相继推出文生视频模型，推动了多模态大模型在视频领域的应用和发展。

投资建议

鉴于Vidu及其同类模型加速迭代的趋势，投资者应关注AI多模态、AI算力、AI+办公、AI+教育/电商/医疗等领域的公司，这些领域有望受益于多模态大模型的成熟和应用。同时，考虑到AI伦理风险等潜在挑战，投资决策时应充分考虑风险提示。

授资要点：国内视频大模型Vidu发布，性能直接对标国际领先水平。4月27日，清华大学*国内视面大模型Vidu复布，快觉直提对标国海额先求平。4月27日，清华大学联合生数科技正式发布了，中国首个长时间、高一致性、高动态性视频大模型Vidu。联合生数科技正式发布了，中国首个长时间、高一致性、高动态性视频大模型Vidu。 Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT，支持文本生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还具备丰富想象力，具备多镜头生成、时空一致性高、遵循物理规律等技术特点。 Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT，支持文本生成长达16秒、分舞率高适1080P的高清视频内客。Vidu不仅能够模拟真实物理世界，还具备本富想象力，具务多镜头生成、时空一致性高、理循物理规律等技术特点。值得注意的是，Vidu能够虚构出真实世界不存在的超现实主义画面，这是当前的值得注基的是，Vidu能够虚构出真实世界不存在的超现实主义西面，这是当前的值得注基的是，Vidu能够虚构出真实世界不存在的超现实主义西面，这是当前的视频生成模型难以实现的。Vidu主要功能包括多镜头生成、模拟真实世界、保持时视频生成模型难以实现的。Vidu主要功能包括多镜头生成、模拟真实世界、保持时空一致性、丰富的想象力、理解中国元素等。这也是继Sora发布之后，全球率先空一致性、车富的想象力、理解中国元素等。这电荒继Sora发布之后，全球率先取得重大突破的视频大模型，性能直接对标国际顶尖水平，并加速功能迭代中。取得重大突缺的视频大模型，性能直接对标国际项失水平，并加建功能选代中。取得重大突缺的视频大模型，性能直接对标国际项失水平，并加建功能选代中。 Vidu的快速突破源于在U-ViT的技术长期积累与扎实的工程化能力。Vidu是由生数科技背后的清华团队支持的科研成果，团队在贝叶斯机器学习和多模态大模型具 Vidu的快造变添于在U-ViT的装术长潮和鼠与乳实的工餐化能力，Vidu是由生数科技背后的清华团队支持的科研成果，困队在贝叶斯机器学习和多模态大模型具有长期积累和多项原创性成果。Vidu的核心技术U-ViT架构由队于2022年9月有长期积累和多项原创性成果。Vidu的核心技术U-ViT架构由团队于2022年9月提出，是全球首个Diffusion与Transformer融合的架构，早于Sora采用的DiT。提出，是全球首个Diffusion与Transformer融合的架构，早于Sora采用的DiT。 U-ViT架构不同于图片插帧等处理长视频的方法，感官更为“一镜到底”，视频质U-VIT架构不网于图片插恢等处理长视须的方法，感官更为“一镜到底"，视须质量更为连贯与自然。此外，团队较早将U-ViT应用于图文领域，具有扎实的工程化量更为连黄与自然。此外，团队较早将U-VT应用于图文领域，其有扎实的工在化能力使之在Vidu实现良好的复用。2023年3月，团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，率先完成了U-ViT架构的大规模可扩展性验证。据甲子光年，Vidu在视频任务中复用了图文工程实践经验，包括训练加能力使之在Vidu实现良好的复用。2023年3月，图队开源了全球首个基于U-ViT融合采构的多模态扩微模型UniDiffuser，率先究成了U-ViT案构的大规模可扩展性验证。据甲子光年，Vidu在视须任务中复用了图文工程实残经验，包括训练加速、并行化训练、低显存训练等，建、并行化训练、低是存训练等，使之训练建度累计提升40借。使之训练速度累计提升40倍。视频领域已成为海内外大模型升级锚点，多模态成熟后加速向应用端普及。海外方视州有鸿已风为海内外大模型升邮城，多凝态五游后加道向皮肩竭普成。海外方面，Open AI CEO年初密集“剧透”在视频领域有所突破的GPT-5，且在2月份发布可生成1分钟高质量视频的Sora；Google在推出原生多模态大模型Gemini之后，2月份推出Gemini 1.5 Pro，使用了MoE架构将模型的能力首破了100万极限上下文纪录。国内方面，继Sora发布后，国内陆续开展文生视频实践。近期，面，OpenAICEO年加密集“剧造”在视频领域有所突破的GPT-5，且在2月份发布可生成1分钟高质量视频的Sora：Google在推出原生多模态大模型Gemini之后，2月份推出Gemini1.5Pro，使用了MoE架构将模型的能力首破了100万极限上下文纪录。国内方面，继Sora发布后，国内陆续开展文生视频实践。返期，除清华团队的Vidu发布外，潘展科技对其开源文生视频模型Open-Sora进行了大除清华团队的Vidu发布外，潞晨科技对其开源文生视频模型Open-Sora进行了大更新，现在可生成16秒，分辨率高达720P的视频，且在不同尺寸、视频扩张等更新，现在可生成16秒，分辨率高达720P的视频，且在不同尺寸、视频扩张等多模态的能力加速向Sora靠齐。我们认为，多模态大模型的成熟有望驱动AIGC多模态的能力加速向Sora靠齐。我们认为，多模态大模型的成热有望驱动AIGC 应用开发与实践。例如，2024年4月，Adobe旗下的视频剪辑软件Premiere Pro通过引入Sora、Runway、Pika等AI视频工具，实现在视频中添加物体、消除物体以及生成视频片段等能力，未来或将催生更多现象级AIGC应用的开发。应用开发与实。例如，2024年4月，Adobe旗下的视频剪辑软件PremierePro通过引入Sora、Runway、Pika等AI视频工具，实现在视频中添加物体、消除物体以及生成视频片段等能力，未来或将催生更多现象级AIGC应用的开发。投资建议。我们判断，以Vidu、Sora为代表的文生视频多模态大模型加速迭代将，批贵建试。我们判断，以Vidu、Sora为代表的文生视须多模态大模型加速达代将推动大模型走向成熟，不仅有利于提升下游AI应用普及度，而且将进一步刺激未推动大模型走向成熟，不仅有利于提升下游AI应用普及度，而且将逐一步激本来AI训练与推理算力需求。建议关注AI多模态：万兴科技、虹软科技、当虹科来AI训练与推理算力需求。建汉关注AI多艇毒：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、技、中科创达、大华股份、海康威视、漫步者、萤石同络、汉仅股份、美图公司、云从科技等；AI算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉云从科技等：AI鼻力：云赛智联、思特奇、悦为科技、海先信息、案式纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等；AI+办公：金山办微、工业富联、拓肇信息、浪潮信惠、四川长虹、种州数码等；A+办公：金山办微、工业富联、拓肇信息、浪潮信惠、四川长虹、种州数码等；A+办公：金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网路、致远互联、鼎捷软件、汉得信息，用友网络等；AI+教育/电商/医疗：科大讯飞、佳发教育、鸥玛软件、盛汉得信息，用友网络等；AI+款真/电育/匾疗：科大机飞、佳发教育、鸣玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业基康等。风险提示：技术发展不及预期、产品落地不及预期、AI伦理风险等。 *风隆概录：技术发展不及预期、产品落地不及预期、AI伦理风险等。请务必阅读正文之后的信息披露和法律声明请务必阅读正文之后的信息技露和法律声明行业点评计算机内容目录内客目录 1.Vidu引领国产视频大模型革会 4 1. Vidu引领国产视频大模型革命.....................................................................................4 2. U-ViT架构厚积薄发，工程实践大放异彩工程实或大放异争.....................................................................6 3.海内外大模型瞄准视频领域，加速向应用端延伸........................................................9 3.海内外大模型喵准视频领域，加建向应用端延伸 2.U-ViT架构厚积萍发， ...6 4.投资建议....................................................................................................................114.投资建议4.投资建议 5.风险提示....................................................................................................................11 5.风险提示. 行业点评计算机图表目录图表目录图1：AI《创世纪》预告片镜头语言单一.........................................................................4 图1：AI《创世纪》预告片镜头语言单图2：Vidu的“海边小屋”实现多镜头切换.........................................................................4 图2：Vidu的"海边小屋"实现多镜头切换图3：Vidu在“带珍珠耳环的猫”中保持时空一致性...........................................................5 图3：Vidu在"带珍球耳环的猫"中保持时空一致性图6：Vidu模拟画室中的“帆船”与“海浪”..........................................................................6 图6：Vidu模拟函室中的"帆船"与"海浪" 图7：Vidu模拟“鱼缸女孩”...............................................................................................6 图7：Vidu模拟鱼缸女孩图10：Sora核心技术架构DiT........................................................................................7 图10：Sora核心技术架构DiT... 图11：Vidu自研技术架构U-ViT.....................................................................................8 图11：Vidu自研技术架构U-ViT. 图12：UniDiffuser具有较强的扩展性，能够实现多种功能图文转换..............................9 图12：UniDiffuser具有较强的扩展性，能够实现多种功能图文转换图14：Sora可生成1分钟长视频...........................................

点击免费查看完整报告

你可能感兴趣

计算机：Vidu直接对标Sora，AI时代不可忽视视频革命

你可能感兴趣

【九点特供】深挖Sora模型背后技术路线，分析师称不能忽视该环节对AI视频领域的影响;美芯片行业第三笔补贴揭晓，格芯将获得15亿美元资金并将推进先进技术的研究和开发，这家国内PA模组龙头与格芯关系紧密-20240220

快手可灵：国产首发对标Sora的DiT架构文生视频AI模型

计算机周报：从科创申报企业看AI发展：C端潜力不可忽视

计算机行业点评报告：Sora开启视频生成领域新篇章，科技巨头加大AI芯片投入

【民生计算机】Sora最佳受益者方向或是AI视频内容变现渠道：建议关注稀缺AI短剧出海标的