您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[云栖大会]:通义万相:视觉生成大模型的进化与应用 - 发现报告
当前位置:首页/行业研究/报告详情/

通义万相:视觉生成大模型的进化与应用

2023-11-14刘宇云栖大会G***
通义万相:视觉生成大模型的进化与应用

通义万相:视觉生成大模型 的进化与应用 刘宇 通义实验室通义万相负责人 视觉生成大模型的进化曲线 阶段 第一阶段 萌芽 第二阶段 逐步渗透 第三阶段 逐步成熟 第四阶段 全面发展 阶段特征 •GAN技术热度逐渐达峰,但效果依旧单一 •自回归和扩散模型技术萌芽,生成能力逐渐凸显 •OpenAI和Google分别输出自研方案,Midjourneyv1上线 •StableDiffusion开源,成本可控生成 •WebUI上线,插件多样层出 •Dreambooth、Lora定制生 •ControlNet面世,初探可控生成之道 •LLM驱动视觉生成,渐显精准语义理解与多模生成 •行业落地,AI原生应用 百花齐放,崭露头角 •深度可控,能够根据任务自我规划和创作,大幅提升内容生成生成力 •视频和3D生成技术效果向实际应用靠拢 •视觉生成成为普惠化的信息生产和传播方式 成,训练方式灵活 目前所处阶段 阶段核心能力 技术萌芽到开源生态的繁荣 初步可控的生成技术能力 深度可控,成为普惠化能力 通义万相:从模型到应用生态 应用 工具 模型 通义万相主站 电商等行业解决方案 文生图 相似图 风格迁移涂鸦作画 写真馆 虚拟模特 商品展示图 创意文字生成 魔搭开源社区 模型下载创空间 模型训练 模型评测 模型资产库 模型推理 高效微调 多概念定制化 规模化Finetune 评测体系建立 Prompt评测集 人类偏好打分 资产管理 推理优化 模型服务DashScope 通义万相基础模型 通义万相-视觉表征大模型 通义万相-图像生成大模型 通义万相-视频生成大模型 通义万相:图像生成 • • 高效多概念定制 化Cones1 组合式多概念定制 Cones2 微调定制化 • 视觉AI任意门Anydoor • 相似图、风格迁 移、X-painting、 任意分辨率超分等 零样本定制化 • 高效微调算法 Res-Tuning • 轻量级微调推理框架 Swift 高效微调框架 深度挖掘数据价值和用户需求 通义万相图像生成基础大模型:Composer系列 组合生成 知识先验 高度可控 基础模型:Composer1.0 文生图 风格迁移 相似图生成 组合式生成框架,提供高度可控性和极大创作自由度,ICML 2023 2023.7.7 通义万相发布以来 500,000+ 累计用户数 10Million 累计生成图片数 *截止2023.10.30通义万相统计数据 基础模型:Composer1.X 基于大语言模型、细粒度图文对齐的图像生成新范式,Comingsoon 实体 属性 … 文本布局图像 精确语义理解 属性绑定 空间关系 复杂场景 AI生成 AI生成 桌子上有10个苹果 一只麻雀、一只鸽子、一只鹦鹉和一只猫头鹰 AI生成 AI生成 戴着蓝色贝雷帽、黄色太阳镜和红色围巾的金毛犬 一只金属小鸟站在木制金字塔上 AI生成 AI生成 宇航员骑马 马骑宇航员 AI生成 AI生成 一只戴着白色VR眼镜的大猫走在上海的城市街道上。背景中,左边是东方明珠电视塔,右边是城皇庙 一只大猩猩坐在办公室桌子前,手里拿着一杯葡萄酒,后面的墙上挂着一个鹿头 微调定制化:多概念定制化Cones Cones1 •高度轻量化、高质量、可扩展、鲁棒性的多概念定制化生成,ICML2023Oral。 定制化生成示例 AI生成 Cones2 •首个做到超多概念同时定制化生成的方法,支持定制化概念数量超过此前SOTA一倍; •与现有方法进行对比,从训练的计算复杂度,以及生成效果,均有显著提升,NeurIPS2023,已在ModelScope、GitHub开源。 零样本定制化:视觉AI任意门 •零样本物体级图像合成技术,将目标传送至特定场景、特定位置,无需微调,轻松生成高质量、高保真的合成图像。 •广泛应用于图像定制化、多目标组合、虚拟试衣、物体移动换位等多项任务,无限创意尽在掌握。技术细节可参考AnyDoorarXiv论文,即将推出创新应用,敬请期待! AI合成 AI合成 AnyDoor框架图单目标合成 多目标合成物体移动、换位 AI合成 AI合成 AI合成 模型高效微调:Res-Tuning Res-Tuning微调算法SWIFT轻量级训练推理框架 •可扩展的轻量级一站式训练推理框架;集成了各种高效的微调方法,如LoRA、QLoRA、以及自研的Res-TuningBypass等; •无缝兼容ModelScope生态系统,打通数据集读取、模型下载、模型训练、模型推理、模型上传等流程 Res-TuningBypassBasiccomponent •在CV、多模态等领域均经过了系列验证,在训练效果和其他微调方法相当的情况下,可以做到显存节省30%~60%,NeurIPS2023,已在ModelScopeSWIFT库开源。 https://github.com/modelscope/swift 通义万相:视频生成 数据 基础模型 可控组合模型 应用 图像 视频 ModelScope T2V I2VGen-XL FaceComposer VideoComposer 通用视频生成人像视频生成视频编辑 个性化视频生成 低分辨率高分辨率 低可控性高可控性 短视频长视频 图像生成视频:I2VGenXL •高清图像生成视频大模型-I2VGen-XL,两阶段模型,分别解决语义一致性和清晰度的问题,参数量共计约37亿; •大规模混合训练:在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,兼具泛化性和生成质量;已在ModelScope开源。 AI生成 AI生成 AI生成 AI生成 I2VGenXL框架图像生成视频 AI生成 运动强度控制 输入低强度 AI生成 AI生成 中强度高强度 视频可控生成:VideoComposer •VideoComposer将视频分解成空间、时序、文本条件,通过组合生成方式提升可控性; •论文发表在NeurIPS2023,已在ModelScope、GitHub开源。 VideoComposer框架图 MotionTransfer AI生成 AI生成 AI生成 AI生成 AI生成 SketchtoVideoVideoTranslation AI生成 AI生成 ImagetoVideoVideoInpainting AI生成 AI生成 通义万相:发展丰富AI创作应用生态 涂鸦作画 虚拟模特 MotionAgent 商品展示图 写真馆 文生图 风格迁移 相似图 AnyDoor VideoComposer I2VGenXL 趣味应用:涂鸦作画 •能力:手绘涂鸦,叠加简单文字描述, 一键生成创意大作; •技术:Composer文本+涂鸦组合生成,同时满足涂鸦和文本输入约束; •支持多种风格化,已经上线通义万相 -应用广场,欢迎体验! https://tongyi.aliyun.com/wanxiang/app/doodle 电商行业应用:虚拟模特 •支持配置模特与场景,智能 生成商品展示图; •降低商品展示环节的场地、模特、修图等拍摄成本,一步到位获得专属模特大片。 https://tongyi.aliyun.com/wanxiang/app/virtual-model 魔搭开源社区:MotionAgent •剧本生成 •剧照生成 •视频生成 •配乐生成 AI生成 https://modelscope.cn/studios/damo/MotionAgent/summary 中国邮政x阿里云AIGC亚运邮票 金山 钉钉魔点 乐言科技LeyanTech ImageStory 应用场景:办公软件中生成配图使用能力:文生图、图生图业务价值:提高文档编辑效率,降低图文插画的门槛 应用场景:考勤机使用能力:生成式动漫化业务价值:增加办公场景的趣味性,传递年轻、轻松、有趣的企业文化 应用场景:电商使用能力:电商背景图生成业务价值:降低商品拍摄成本,降低制作商品海报的门槛 应用场景:儿童绘本生成使用能力:文生图业务价值:降低绘本制作的门槛 通义万相,持续进化,促进视觉AIGC普惠化 https://tongyi.aliyun.com/wanxiang THANKS