行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

生成未必理解：基于扩散模型能否实现视觉世界模型？

2025-03-20腾讯见***

AI智能总结

核心观点：视觉生成与视觉理解目前存在割裂，生成未必理解，理解无法生成；两者建模方式、参数规模均不同，视觉理解依赖LLM，视觉生成依赖扩散模型。
发展历程：视觉生成基于扩散模型发展迅速，从DDPM到LDM，再到Stable Diffusion等，应用广泛；视觉理解则依赖LLM，如DALL-E、CogView等。
世界模型路径：未来世界模型的实现需要统一多模态理解和生成，多模态大模型是关键，代表性工作包括LanguageBind、MoH、MoE++、Flow-World、AR-World等。
Open-Sora Plan：团队提出256倍压缩的3D因果VAE、任意分辨率及时长训练等技术，开源计划获得GitHub Trending全球榜单第一，持续更新近半年，累计新增代码8万余行。
视觉世界模型探索：包括相机位姿先验4D生成和全景3D生成，前者输入相机位姿构建不同视角的4D世界，后者输入全景二维信息构建3D全景世界。
视觉生成架构：自回归Transformer可能成为统一架构的关键，但目前生成架构仍未收敛到Diffusion，存在自回归Transformer与Diffusion的竞争。
统一框架挑战：视觉理解和生成的Encoder是否需要统一、离散与连续的选择、TaskConflict和GradientsConflict的处理、视觉CoT的加入等问题需要解决。
统一框架方案：自回归Transformer统一架构，理解和生成在同一主干网络中端到端训练；MoE、MoH架构对于原生统一至关重要；高效注意力机制是关键。
多模态CoT增强：LLaVA-CoT/o1模型开源，首个视觉多模态慢思考模型，有助于提升生成和理解精度。
争议点：统一Loss还是统一建模方式？视觉模态选择连续还是离散？
研究结论：自回归Transformer可能是大统一的关键，类Sora架构意义重大，但路线之争（Loss统一或建模方式统一、视觉模态选择）仍需解决。

生成未必理解：基于扩散模型能否实现视觉世界模型？袁粒LiYuan SchoolofECE,PekingUniversityShenzhenGraduateSchool “WhatIcannotcreate,Idonotunderstand” —RichardFeynman “WhatIcangenerate,Idounderstand”“WhatIcanunderstand,Idogenerate” ? 基于扩散的生成真的理解了吗？跑步机上的人反着跑步，不符合逻辑杯子水先撒出来，后破碎，不符合事实小狼的数量时而五只，时而三只或四只 Prompt:Step-printingsceneofaperson running,cinematicfilmshotin35mm. Prompt:Glassshatteringwithredliquid andicecubes Prompt:Fivegraywolfpups frolickingandchasingeachotheraroundaremotegravelroad DiffusionsBeatGANs V.S. V.S. Dhariwal,Prafulla,andAlexanderNichol."DiffusionModelsbeatGansonImageSynthesis."NeurIPS34(2021):8780-8794.4 AcademicProgress Proposed DDIM LatentDiffusionModel(LDM)wasprocessed GoogleproposedV1ofthe VideoDiffusionModel HuaweiproposedtheT2I modelPixArt-αbasedonDiT T2I-Adapter(PKU)andControlNet(Stanford)wereproposedforpreciseT2Icontrol 基于Diffusion的视觉生成发展 ShanghaiAILabproposedLatte,aT2VmodelbasedonDiT OpenAIproposedDALL-E,basedonTransformernotDiffusion OpenAIreleasedSora,a T2Vmodel,butnoAPI accessyet MetaproposedDiffusionTransformer,replacingU-NetwithTransformer LoRAforDiffusionwasproposed,quicklyadoptedfor variousapplications CLIP:Aligningtextandimagespaces,laterwidelyusedforT2I DDPMwasproposedin June 20202021 2022 THUproposedCogView,atext-to-imagemodelbasedonTransformer,followingDALL-E OpenAIproposedDALL-E2,basedonDiffusion StabilityAIopen-sourcedStableDiffusionV1andV2 2023 2024 ApplicationProgress BasedonStableDiffusion,hitapplicationslikeMidJourneyV1-V4emerged VideogenerationappsPikaV1,RunwayGen1andGen2,andStableVideoDiffusionemerged KelingModelbyKuaishou&VidubyShengshu&OpenSora planbyPKU 5 视觉生成和视觉理解两条路线完全割裂视觉生成模型：Diffusion系列视觉理解模型：LLaVA系列 生成未必理解、理解不能（视觉）生成； 建模方式不一样：视觉生成依靠扩散模型，视觉理解依靠LLM（自回归生成）； 模型参数规模不一样：视觉理解可以千亿规模，生成模型大部分数十亿到百亿； 6 世界模型的可能路径—统一是必然 RefertoZhongyuanWang,BAAI 统一多模态代表性工作： 多模态ScalingLaw验证：LanguageBind(ICLR2024)，持续验证中 MoH、MoE++：混合注意力专家和混合专家作为统一架构基础设施 Flow-World：基于流模型的统一多模态架构(训练中) 理解AR-World：基于自回归的统一多模态大模型(训练中) 统一多模态世界模型大模型（探索中）（理解+生成）生成AI4S代表性应用： ChatExcel、ChatLaw (应用)多模态应用于Science： NCS、NC两篇子刊论文世界模型的可能路径—统一是必然理解代表性工作： 多模态视觉理解Baseline：Video-LLaVA, EMNLP’24，3.0kStar 多模态细粒度理解：Chat-UniVi,CVPR’24 多模态理解思维链：LLaVA-CoT，1.6kstar 多模态生成代表性工作： 视频生成基模型：Open-SoraPlan，11.7kstar 物理知识注入的质变生成：MagicTime(1.3kstar),ChronoMagic,NeurIPS’24 动态生成：Progressive123(ICLR’24),Repaint123(ECCV’24)，ViewCrafter 多模态可控生成：ConsisID，生成人物ID一致性多模态上述工作均开源：https://github.com/PKU-YuanGroup 趋势模型结构亮点 Open-SoraPlan视频生成开源计划总览 2月OpenAI发布了全新的文生视频模型Sora，率先开启了AI视频生成的ChatGPT时刻。AI视频生成催生了以多种创意需求，受到社会广泛关注。当前AI视频生成领域主要靠业界巨头的闭源模型推动，开源项目少。 •支持10s级高清视频生成 •兼容文生图和文生视频 •支持任意分辨率和任意时长 •支持任意帧控制注入的图生视频及视频续写 •借助昇腾基础软件与调优工具，充分释放硬件性能 •高质量数据集处理及模型评测管线发起视频生成开源计划持续的项目活跃度前沿的技术创新项目发布一周内获得14万余次访问，获得国内外上万名程序员点赞，登上GitHubTrending全球榜单第一，累计更新模型和代码数百次，融合开源社区的贡献上百次，代码被克隆上千次。 GitHubTrending 第一 Open-SoraPlan项目持续更新近半年，累计新增代码8万余行，近期单周访问近3万次，收到社区和业界的持续关注，有多项后继的视频生成开源项目和闭源模型部分借鉴了我们的实现方式。为了实现高分辨率长时长的视频内容生成，团队先后提出了256倍压缩的3D因果VAE、任意分辨率及时长训练、稀疏注意力计算加速、任意帧控制的图生视频模型等技术。昇腾异构计算架构算子开发体系，图优化引擎昇腾基础算子 DVPP/BLAS/NN/HCCL 昇腾高性能融合算子 FlashAttention支持多种内存排布去除冗余Transpose AscendC算子自定义开发原生开发RoPE3D高性能融合算子基于AscendCDebug能力快速调优 MindStudioInsight 昇腾Profiling工具套件计算/通信/内存调优分析工具Advisor自动化给出优化建议实时监控训练进程，识别异常 MindSpeed 昇腾分布式训练加速库兼容Megatron原生框架内存Swap降低FA重计算开销并行/内存/通信/计算全方位定制优化 MSProbe 昇腾精度工具分析套件支持在线监控梯度异常快速定位精度异常代码段支持异构算力精度一致性对比 TorchNPU 标准化接口，兼容开源生态源码迁移仅需两行代码多流内存复用优化内存多级流水优化调度性能借助昇腾基础软件与调优工具：充分释放硬件性能，快速支撑原生训练图1.Open-SoraPlan模型精度绝对值对比图2.Open-SoraPlan模型精度相对误差对比图3.Open-SoraPlan模型各算子耗时占比分析 Open-SoraPlan视频生成开源计划总览 Theopensourcecommunityhashighparticipation,integratingmorethan30pullrequestsfromopensourcecreatorswithinaweek,andupdatingmodelsandcodesmorethan200timeswithinaweek; 左侧是OpenSoraPlan最新一周的访问量：一周有3万多的人次的技术人员访问和使用OpenSoraPlan的代码 Theopensourcecommunityishighlyactive,withmorethan140kvisitsinasingleweek 物理先验知识作为模型输入，以相机位姿作为物理先验建模，输入视频生成模型中进行训练，构建不同视角下的4D世界(已开源) 视觉世界模型探索1：相机位姿先验4D生成相机位姿发生变化后视角变化的4D生成相机先验输入视频生成模型 Yu,W.,Xing,J.,Yuan,L.,Hu,W.,Li,X.,Huang,Z.,...&Tian,Y*.(2024).Viewcrafter:Tamingvideodiffusionmodelsforhigh-fidelitynovelviewsynthesis.arXivpreprintarXiv:2409.02048. 全景二维信息作为先验知识进行建模，输入视频生成模型中进行训练，构建不同视角下的3D全景世界，可用于游戏世界模拟和探索视觉世界模型探索2：全景3D生成 Zhou,H.,Cheng,X.,Yu,W.,Tian,Y*.(2024).Holodreamer:Holistic3dpanoramicworldgenerationfromtextdescriptions.arXivpreprintarXiv:2407.15187. 视觉生成架构是否已经收敛到Diffusion？ Autoregressionmodelbynext-resolution(next-scale)prediction Tian,K.,Jiang,Y.,Yuan,Z.,Peng,B.,&Wang,L.(2024).Visualautoregressivemodeling:Scalableimagegenerationvianext-scaleprediction.arXivpreprintarXiv:2404.029015.5 视觉生成架构是否已经收敛到Diffusion？ Sun,P.,Jiang,Y.,Chen,S.,Zhang,S.,Peng,B.,Luo,P.,&Yuan,Z.(2024).AutoregressiveModelBeatsDiffusion:LlamaforScalableImageGeneration.arXivpreprintarXiv:2406.06525. 16 视觉生成架构是否已经收敛到Diffusion？ Kondratyuk,D.,Yu,L.,Gu,X.,Lezama,J.,Huang,J.,Hornung,R.,...&Jiang,L.(2023).Videopoet:Alargelanguagemodelforzero-shotvideogeneration.arXivpreprintarXiv:2312.14125. 17 如何实现生成和理解统一的原生框架？ Decoder Aut

点击免费查看完整报告

你可能感兴趣

生成未必理解：基于扩散模型能否实现视觉世界模型？

你可能感兴趣

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

【机构龙虎榜解读】多模态+AI视频+短剧+抖音电商，与巨量引擎签署数据推广合作协议，基于自研营销领域专用的AIGC多模态模型，已实现图片、视频等多种形式的智能化内容生成，这家公司获净买入

基于物理条件约束的可信视觉生成大模型

基于物理条件约束的可信视觉生成大模型

3-4 基于事件图结构的文本-视觉理解