您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:计算机:Vidu直接对标Sora,AI时代不可忽视视频革命 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机:Vidu直接对标Sora,AI时代不可忽视视频革命

信息技术2024-05-01陈涵泊德邦证券@***
AI智能总结
查看更多
计算机:Vidu直接对标Sora,AI时代不可忽视视频革命

授资要点: 国内视频大模型Vidu发布,性能直接对标国际领先水平。4月27日,清华大学*国内视面大模型Vidu复布,快觉直提对标国海额先求平。4月27日,清华大学 联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型Vidu。 联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型Vidu。 Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还具备丰富想象力,具备多镜头生成、时空一致性高、遵循物理规律等技术特点。 Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长 达16秒、分舞率高适1080P的高清视频内客。Vidu不仅能够模拟真实物理世界, 还具备本富想象力,具务多镜头生成、时空一致性高、理循物理规律等技术特点。 值得注意的是,Vidu能够虚构出真实世界不存在的超现实主义画面,这是当前的值得注基的是,Vidu能够虚构出真实世界不存在的超现实主义西面,这是当前的值得注基的是,Vidu能够虚构出真实世界不存在的超现实主义西面,这是当前的 视频生成模型难以实现的。Vidu主要功能包括多镜头生成、模拟真实世界、保持时视频生成模型难以实现的。Vidu主要功能包括多镜头生成、模拟真实世界、保持时 空一致性、丰富的想象力、理解中国元素等。这也是继Sora发布之后,全球率先空一致性、车富的想象力、理解中国元素等。这电荒继Sora发布之后,全球率先 取得重大突破的视频大模型,性能直接对标国际顶尖水平,并加速功能迭代中。取得重大突缺的视频大模型,性能直接对标国际项失水平,并加建功能选代中。取得重大突缺的视频大模型,性能直接对标国际项失水平,并加建功能选代中。 Vidu的快速突破源于在U-ViT的技术长期积累与扎实的工程化能力。Vidu是由生数科技背后的清华团队支持的科研成果,团队在贝叶斯机器学习和多模态大模型具 Vidu的快造变添于在U-ViT的装术长潮和鼠与乳实的工餐化能力,Vidu是由生 数科技背后的清华团队支持的科研成果,困队在贝叶斯机器学习和多模态大模型具有长期积累和多项原创性成果。Vidu的核心技术U-ViT架构由队于2022年9月 有长期积累和多项原创性成果。Vidu的核心技术U-ViT架构由团队于2022年9月提出,是全球首个Diffusion与Transformer融合的架构,早于Sora采用的DiT。 提出,是全球首个Diffusion与Transformer融合的架构,早于Sora采用的DiT。 U-ViT架构不同于图片插帧等处理长视频的方法,感官更为“一镜到底”,视频质U-VIT架构不网于图片插恢等处理长视须的方法,感官更为“一镜到底",视须质 量更为连贯与自然。此外,团队较早将U-ViT应用于图文领域,具有扎实的工程化量更为连黄与自然。此外,团队较早将U-VT应用于图文领域,其有扎实的工在化 能力使之在Vidu实现良好的复用。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。据甲子光年,Vidu在视频任务中复用了图文工程实践经验,包括训练加 能力使之在Vidu实现良好的复用。2023年3月,图队开源了全球首个基于U-ViT融合采构的多模态扩微模型UniDiffuser,率先究成了U-ViT案构的大规模可扩展 性验证。据甲子光年,Vidu在视须任务中复用了图文工程实残经验,包括训练加速、并行化训练、低显存训练等,建、并行化训练、低是存训练等,使之训练建度累计提升40借。使之训练速度累计提升40倍。 视频领域已成为海内外大模型升级锚点,多模态成熟后加速向应用端普及。海外方视州有鸿已风为海内外大模型升邮城,多凝态五游后加道向皮肩竭普成。海外方面,Open AI CEO年初密集“剧透”在视频领域有所突破的GPT-5,且在2月份发布可生成1分钟高质量视频的Sora;Google在推出原生多模态大模型Gemini之后,2月份推出Gemini 1.5 Pro,使用了MoE架构将模型的能力首破了100万极限上下文纪录。国内方面,继Sora发布后,国内陆续开展文生视频实践。近期, 面,OpenAICEO年加密集“剧造”在视频领域有所突破的GPT-5,且在2月份 发布可生成1分钟高质量视频的Sora:Google在推出原生多模态大模型Gemini之后,2月份推出Gemini1.5Pro,使用了MoE架构将模型的能力首破了100万 极限上下文纪录。国内方面,继Sora发布后,国内陆续开展文生视频实践。返期,除清华团队的Vidu发布外,潘展科技对其开源文生视频模型Open-Sora进行了大 除清华团队的Vidu发布外,潞晨科技对其开源文生视频模型Open-Sora进行了大更新,现在可生成16秒,分辨率高达720P的视频,且在不同尺寸、视频扩张等更新,现在可生成16秒,分辨率高达720P的视频,且在不同尺寸、视频扩张等 多模态的能力加速向Sora靠齐。我们认为,多模态大模型的成熟有望驱动AIGC多模态的能力加速向Sora靠齐。我们认为,多模态大模型的成热有望驱动AIGC 应用开发与实践。例如,2024年4月,Adobe旗下的视频剪辑软件Premiere Pro通过引入Sora、Runway、Pika等AI视频工具,实现在视频中添加物体、消除物体以及生成视频片段等能力,未来或将催生更多现象级AIGC应用的开发。 应用开发与实。例如,2024年4月,Adobe旗下的视频剪辑软件PremierePro通过引入Sora、Runway、Pika等AI视频工具,实现在视频中添加物体、消除物 体以及生成视频片段等能力,未来或将催生更多现象级AIGC应用的开发。 投资建议。我们判断,以Vidu、Sora为代表的文生视频多模态大模型加速迭代将,批贵建试。我们判断,以Vidu、Sora为代表的文生视须多模态大模型加速达代将 推动大模型走向成熟,不仅有利于提升下游AI应用普及度,而且将进一步刺激未推动大模型走向成熟,不仅有利于提升下游AI应用普及度,而且将逐一步激本 来AI训练与推理算力需求。建议关注AI多模态:万兴科技、虹软科技、当虹科来AI训练与推理算力需求。建汉关注AI多艇毒:万兴科技、虹软科技、当虹科 技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、技、中科创达、大华股份、海康威视、漫步者、萤石同络、汉仅股份、美图公司、 云从科技等;AI算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉云从科技等:AI鼻力:云赛智联、思特奇、悦为科技、海先信息、案式纪、景嘉 微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等;AI+办公:金山办微、工业富联、拓肇信息、浪潮信惠、四川长虹、种州数码等;A+办公:金山办微、工业富联、拓肇信息、浪潮信惠、四川长虹、种州数码等;A+办公:金山办 公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网路、致远互联、鼎捷软件、 汉得信息,用友网络等;AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛汉得信息,用友网络等;AI+款真/电育/匾疗:科大机飞、佳发教育、鸣玛软件、盛 通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。 通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业基康等。 风险提示:技术发展不及预期、产品落地不及预期、AI伦理风险等。 *风隆概录:技术发展不及预期、产品落地不及预期、AI伦理风险等。 请务必阅读正文之后的信息披露和法律声明请务必阅读正文之后的信息技露和法律声明 行业点评计算机 内容目录内客目录 1.Vidu引领国产视频大模型革会 4 1. Vidu引领国产视频大模型革命.....................................................................................4 2. U-ViT架构厚积薄发,工程实践大放异彩工程实或大放异争.....................................................................6 3.海内外大模型瞄准视频领域,加速向应用端延伸........................................................9 3.海内外大模型喵准视频领域,加建向应用端延伸 2.U-ViT架构厚积萍发, ...6 4.投资建议....................................................................................................................114.投资建议4.投资建议 5.风险提示....................................................................................................................11 5.风险提示. 行业点评计算机 图表目录图表目录 图1:AI《创世纪》预告片镜头语言单一.........................................................................4 图1:AI《创世纪》预告片镜头语言单 图2:Vidu的“海边小屋”实现多镜头切换.........................................................................4 图2:Vidu的"海边小屋"实现多镜头切换 图3:Vidu在“带珍珠耳环的猫”中保持时空一致性...........................................................5 图3:Vidu在"带珍球耳环的猫"中保持时空一致性 图6:Vidu模拟画室中的“帆船”与“海浪”..........................................................................6 图6:Vidu模拟函室中的"帆船"与"海浪" 图7:Vidu模拟“鱼缸女孩”...............................................................................................6 图7:Vidu模拟鱼缸女孩 图10:Sora核心技术架构DiT........................................................................................7 图10:Sora核心技术架构DiT... 图11:Vidu自研技术架构U-ViT.....................................................................................8 图11:Vidu自研技术架构U-ViT. 图12:UniDiffuser具有较强的扩展性,能够实现多种功能图文转换..............................9 图12:UniDiffuser具有较强的扩展性,能够实现多种功能图文转换 图14:Sora可生成1分钟长视频...........................................