生成未必理解: 基于扩散模型能否实现视觉世界模型? 袁粒LiYuan SchoolofECEPekingUniversityShenzhenGraduateSchool “WhatIcannotcreateIdonotunderstand” RichardFeynman “WhatIcangenerateIdounderstand”“WhatIcanunderstandIdogenerate” 基于扩散的生成真的理解了吗? 跑步机上的人反着跑步,不符合逻辑杯子水先撒出来,后破碎,不符合事实小狼的数量时而五只,时而三只或四只 PromptStepprintingsceneofaperson runningcinematicfilmshotin35mm PromptGlassshatteringwithredliquid andicecubes PromptFivegraywolfpups frolickingandchasingeachotheraroundaremotegravelroad DiffusionsBeatGANs VS VS DhariwalPrafullaandAlexanderNicholDiffusionModelsbeatGansonImageSynthesisNeurIPS342021878087944 AcademicProgress Proposed DDIM LatentDiffusionModelLDMwasprocessed GoogleproposedV1ofthe VideoDiffusionModel HuaweiproposedtheT2I modelPixArtbasedonDiT T2IAdapterPKUandControlNetStanfordwereproposedforpreciseT2Icontrol 基于Diffusion的视觉生成发展 ShanghaiAILabproposedLatteaT2VmodelbasedonDiT OpenAIproposedDALLEbasedonTransformernotDiffusion OpenAIreleasedSoraa T2VmodelbutnoAPI accessyet MetaproposedDiffusionTransformerreplacingUNetwithTransformer LoRAforDiffusionwasproposedquicklyadoptedfor variousapplications CLIPAligningtextandimagespaceslaterwidelyusedforT2I DDPMwasproposedin June 20202021 2022 THUproposedCogViewatexttoimagemodelbasedonTransformerfollowingDALLE OpenAIproposedDALLE2basedonDiffusion StabilityAIopensourcedStableDiffusionV1andV2 2023 2024 ApplicationProgress BasedonStableDiffusionhitapplicationslikeMidJourneyV1V4emerged VideogenerationappsPikaV1RunwayGen1andGen2andStableVideoDiffusionemerged KelingModelbyKuaishouVidubyShengshuOpenSora planbyPKU 5 视觉生成和视觉理解两条路线完全割裂 视觉生成模型:Diffusion系列视觉理解模型:LLaVA系列 生成未必理解、理解不能(视觉)生成; 建模方式不一样:视觉生成依靠扩散模型,视觉理解依靠LLM(自回归生成); 模型参数规模不一样:视觉理解可以千亿规模,生成模型大部分数十亿到百亿; 6 世界模型的可能路径统一是必然 RefertoZhongyuanWangBAAI 统一多模态代表性工作: 多模态ScalingLaw验证:LanguageBindICLR2024,持续验证中 MoH、MoE:混合注意力专家和混合专家作为统一架构基础设施 FlowWorld:基于流模型的统一多模态架构训练中 理解ARWorld:基于自回归的统一多模态大模型训练中 统一多模态世界模型大模型(探索中) (理解生成) 生成AI4S代表性应用: ChatExcel、ChatLaw 应用多模态应用于Science: NCS、NC两篇子刊论文 世界模型的可能路径统一是必然 理解代表性工作: 多模态视觉理解Baseline:VideoLLaVA EMNLP’24,30kStar 多模态细粒度理解:ChatUniViCVPR’24 多模态理解思维链:LLaVACoT,16kstar 多模态 生成代表性工作: 视频生成基模型:OpenSoraPlan,117kstar 物理知识注入的质变生成:MagicTime13kstarChronoMagicNeurIPS’24 动态生成:Progressive123ICLR’24Repaint123ECCV’24,ViewCrafter 多模态可控生成:ConsisID,生成人物ID一致性 多模态 上述工作均开源:httpsgithubcomPKUYuanGroup 趋势 模型结构 亮点 OpenSoraPlan视频生成开源计划总览 2月OpenAI发布了全新的文生视频模型Sora,率先开启了AI视频生成的ChatGPT时刻。AI视频生成催生了以多种创意需求,受到社会广泛关注。当前AI视频生成领域主要靠业界巨头的闭源模型推动,开源项目少。 支持10s级高清视频生成 兼容文生图和文生视频 支持任意分辨率和任意时长 支持任意帧控制注入的图生视频及视频续写 借助昇腾基础软件与调优工具,充分释放硬件性能 高质量数据集处理及模型评测 管线 发起视频生成开源计划 持续的项目活跃度 前沿的技术创新 项目发布一周内获得14万 余次访问,获得国内外上万名程序员点赞,登上GitHubTrending全球榜单第一,累计更新模型和代码数百次,融合开源社区的贡献上百次,代码被克 隆上千次。 GitHubTrending 第一 OpenSoraPlan项目持续更新近半年,累计新增代码8万余行,近期单周访问近3万次,收到社区和业界的持续关注,有多项后继的视频生成开源项目和闭源模型部分借鉴了我们的实现方式。 为了实现高分辨率长时长的视频内容生成,团队先后提出了256倍压缩的3D因果VAE、任意分辨率及时长训练、稀疏注意力计算加速、任意帧控制的图生视频模型等技术。 昇腾异构计算架构 算子开发体系,图优化引擎 昇腾基础算子 DVPPBLASNNHCCL 昇腾高性能融合算子 FlashAttention支持多种内存排布去除冗余Transpose AscendC算子自定义开发 原生开发RoPE3D高性能融合算子基于AscendCDebug能力快速调优 MindStudioInsight 昇腾Profiling工具套件 计算通信内存调优分析工具Advisor自动化给出优化建议实时监控训练进程,识别异常 MindSpeed 昇腾分布式训练加速库 兼容Megatron原生框架内存Swap降低FA重计算开销 并行内存通信计算全方位定制优化 MSProbe 昇腾精度工具分析套件 支持在线监控梯度异常快速定位精度异常代码段 支持异构算力精度一致性对比 TorchNPU 标准化接口,兼容开源生态 源码迁移仅需两行代码多流内存复用优化内存多级流水优化调度性能 借助昇腾基础软件与调优工具:充分释放硬件性能,快速支撑原生训练 图1OpenSoraPlan模型精度绝对值对比图2OpenSoraPlan模型精度相对误差对比 图3OpenSoraPlan模型各算子耗时占比分析 OpenSoraPlan视频生成开源计划总览 Theopensourcecommunityhashighparticipationintegratingmorethan30pullrequestsfromopensourcecreatorswithinaweekandupdatingmodelsandcodesmorethan200timeswithinaweek 左侧是OpenSoraPlan最新一周的访问量:一周有3万多的人次的技术人员访问和使用OpenSoraPlan的代码 Theopensourcecommunityishighlyactivewithmorethan140kvisitsinasingleweek 物理先验知识作为模型输入,以相机位姿作为物理先验建模,输入视频生成模型中进 行训练,构建不同视角下的4D世界已开源 视觉世界模型探索1:相机位姿先验4D生成 相机位姿发生变化后视角变化的4D生成 相机先验输入视频生成模型 YuWXingJYuanLHuWLiXHuangZTianY2024ViewcrafterTamingvideodiffusionmodelsforhighfidelitynovelviewsynthesisarXivpreprintarXiv240902048 全景二维信息作为先验知识进行建模,输入视频生成模型中进行训练,构建不同视角 下的3D全景世界,可用于游戏世界模拟和探索 视觉世界模型探索2:全景3D生成 ZhouHChengXYuWTianY2024HolodreamerHolistic3dpanoramicworldgenerationfromtextdescriptionsarXivpreprintarXiv240715187 视觉生成架构是否已经收敛到Diffusion? Autoregressionmodelbynextresolutionnextscaleprediction TianKJiangYYuanZPengBWangL2024VisualautoregressivemodelingScalableimagegenerationvianextscalepredictionarXivpreprintarXiv24040290155 视觉生成架构是否已经收敛到Diffusion? SunPJiangYChenSZhangSPengBLuoPYuanZ2024AutoregressiveModelBeatsDiffusionLlamaforScalableImageGenerationarXivpreprintarXiv240606525 16 视觉生成架构是否已经收敛到Diffusion? KondratyukDYuLGuXLezamaJHuangJHornungRJiangL2023VideopoetAlargelanguagemodelforzeroshotvideogenerationarXivpreprintarXiv231214125 17 如何实现生成和理解统一的原生框架? Decoder AutoregressiveTransformerVQAExperts GenerationExpertsT2IorT2V VisionGenerationEncoder 视觉理解部分 orTextPrompts 促进 视觉生成部分 增强 WhatIcancreateIdounderstand 如何实现生成和理解统一的原生框架? TeamC2024ChameleonMixedmodalearlyfusionfoundationmodelsarXivpreprintarXiv24050981819 如何实现生成和理解统一的原生框架? ChenXWuZLiuXPanZLi