行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

通义万相：视觉生成大模型的进化与应用

2023-11-14 刘宇云栖大会 GHK

通义万相是通义实验室的视觉生成大模型，目前处于技术萌芽到开源生态的繁荣阶段。通义万相基础模型包括通义万相图像生成基础大模型和通义万相图像生成组合生成知识模型。通义万相基础模型的Composers系列模型提供高度可控性和极大创作自由度，支持组合式生成和细粒度图文对齐的图像生成新范式。通义万相微调定制化模型包括多概念定制化Cones和视觉AI任意门，可以实现多概念同时定制化生成和零样本物体级图像合成技术。通义万相模型高效微调算法包括Res-Tuning，可以做到显存节省30%~60%。通义万相模型服务包括Dreambooth、Lora定制生成和微调定制化框架。通义万相已经应用于电商等行业解决方案，并且在魔搭开源社区有大量用户和生成图片。

刘宇通义实验室通义万相负责人视觉生成大模型的进化曲线第二阶段第一阶段第四阶段第三阶段阶段逐步成熟全面发展逐步渗透萌芽 •ControlNet面世，初探可控生成之道•LLM驱动视觉生成，渐显精准语义理解与多模生成•行业落地，AI原生应用百花齐放，崭露头角 •深度可控，能够根据任务自我规划和创作，大幅提升内容生成生成力•视频和3D生成技术效果向实际应用靠拢•视觉生成成为普惠化的信息生产和传播方式阶段特征深度可控，成为普惠化能力技术萌芽到开源生态的繁荣通义万相：从模型到应用生态通义万相：图像生成基础模型：Composer 1.0 组合式生成框架，提供高度可控性和极大创作自由度,ICML 500,000+ 2023.7.7通义万相发布以来累计生成图片数 *截止2023.10.30通义万相统计数据基础模型：Composer 1.X 基于大语言模型、细粒度图文对齐的图像生成新范式，Coming soon 精确语义理解属性绑定空间关系复杂场景一只戴着白色VR眼镜的大猫走在上海的城市街道上。背景中，左边是东方明珠电视塔，右边是城皇庙戴着蓝色贝雷帽、黄色太阳镜和红色围巾的金毛犬桌子上有10个苹果一只麻雀、一只鸽子、一只鹦鹉和一只猫头鹰一只大猩猩坐在办公室桌子前，手里拿着一杯葡萄酒，后面的墙上挂着一个鹿头一只金属小鸟站在木制金字塔上微调定制化：多概念定制化Cones Cones 1 定制化生成示例 •高度轻量化、高质量、可扩展、鲁棒性的多概念定制化生成，ICML 2023 Oral。 Cones 2 •首个做到超多概念同时定制化生成的方法，支持定制化概念数量超过此前SOTA一倍；•与现有方法进行对比，从训练的计算复杂度，以及生成效果，均有显著提升， NeurIPS2023，已在ModelScope、GitHub开源。零样本定制化：视觉AI任意门 •零样本物体级图像合成技术，将目标传送至特定场景、特定位置，无需微调，轻松生成高质量、高保真的合成图像。 •广泛应用于图像定制化、多目标组合、虚拟试衣、物体移动换位等多项任务，无限创意尽在掌握。技术细节可参考AnyDoorarXiv论文，即将推出创新应用，敬请期待！ 单目标合成 AnyDoor框架图 物体移动、换位模型高效微调：Res-Tuning SWIFT轻量级训练推理框架 Res-Tuning微调算法 •可扩展的轻量级一站式训练推理框架；集成了各种高效的微调方法，如LoRA、QLoRA、以及自研的Res-Tuning Bypass等； •无缝兼容ModelScope生态系统，打通数据集读取、模型下载、模型训练、模型推理、模型上传等流程 •在CV、多模态等领域均经过了系列验证，在训练效果和其他微调方法相当的情况下，可以做到显存节省30%~60%，NeurIPS 2023，已在ModelScopeSWIFT库开源。 https://github.com/modelscope/swift 通义万相：视频生成图像生成视频：I2VGen XL •高清图像生成视频大模型-I2VGen-XL，两阶段模型，分别解决语义一致性和清晰度的问题，参数量共计约37亿； •大规模混合训练：在大规模视频和图像数据混合预训练，并在少量精品数据上微调得到，兼具泛化性和生成质量；已在ModelScope开源。 I2VGen XL框架视频可控生成：VideoComposer •VideoComposer将视频分解成空间、时序、文本条件，通过组合生成方式提升可控性；•论文发表在NeurIPS2023，已在ModelScope、GitHub开源。 VideoComposer框架图 Motion Transfer 通义万相：发展丰富AI创作应用生态趣味应用：涂鸦作画 •能力：手绘涂鸦，叠加简单文字描述，一键生成创意大作；•技术：Composer文本+涂鸦组合生成，同时满足涂鸦和文本输入约束；•支持多种风格化，已经上线通义万相-应用广场，欢迎体验！ https://tongyi.aliyun.com/wanxiang/app/doodle 电商行业应用：虚拟模特 •支持配置模特与场景，智能生成商品展示图；•降低商品展示环节的场地、模特、修图等拍摄成本，一步到位获得专属模特大片。 https://tongyi.aliyun.com/wanxiang/app/virtual-model 魔搭开源社区：MotionAgent •剧本生成•剧照生成•视频生成•配乐生成通义万相行业标杆范例通义万相，持续进化，促进视觉AIGC普惠化 https://tongyi.aliyun.com/wanxiang THANKS

点击免费查看完整报告

通义万相：视觉生成大模型的进化与应用

你可能感兴趣

传媒行业周观察：阿里通义万相发布视频生成模型，字节豆包亦发布在即；国庆档电影排片丰富

基于物理条件约束的可信视觉生成大模型

基于物理条件约束的可信视觉生成大模型

互联网传媒行业周报：GPT-4 API全面开放使用，国产Midjourney阿里通义万相上线

互联网行业周报（23年第27周）：金融管理部门工作重点转入常态化监管，阿里云发布通义万相

AIGC行业快评：Meta发布视觉大模型SAM，持续看好内容与应用产业机遇

智感跃迁——机器人激光雷达在三维视觉革命中的技术进化与市场重构

2024年大模型服务平台百炼与通义听悟产品实操演示

阿里巴巴-黎槟华-通义灵码-基于代码大模型的智能编码助手

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战