热门搜索：

快手可图大模型的技术演进与应用探索

文化传媒2024-10-28李岩全球人工智能开发与应用大会，

AI智能总结

快手可图大模型技术揭秘与应用探索

可图大模型介绍

可图大模型：快手自主研发的文生图大模型，支持中英文双语，生成效果媲美Midjourney-v6，支持长达256字符的文本输入，具备英文和中文写字能力。
开源情况：7月6日，快手高级副总裁盖坤宣布可图Kolors全面开源，已在Hugging Face平台和GitHub上线，提供模型权重和完整代码。

技术讨论

文本表征选择
- CLIP文本表征：优势为图文对比学习，降低扩散模型训练难度，但存在细粒度语义理解能力不足的问题。
- Encoder-Decoder文本表征：适合理解问题训练，但训练数据集中文本语料占比少，影响中文语义理解能力。
- Decoder-only LLM文本表征：模型容量大，文本理解和生成能力强，但在复杂文本理解任务上表现不足。
- General Language Model：适用于文本理解和生成，模型架构灵活，但训练时采用Causal Attention，复杂文本理解不够高效。
RLHF关键因素
- Quality Tuning (QT)：通过高质量标注数据提升图像生成效果，但只能看到正例数据，缺乏对自身缺陷的改进。
- Reinforcement Learning from Human Feedback (RLHF)：利用基于人类反馈的奖励模型优化扩散模型，能够更好地对齐人类审美偏好，但存在数据收集成本高、训练难度大的问题。
大模型写好中国字
- 写字能力：大模型在开放域的中文写字能力仍需改进，目前仅适用于娱乐场景。
- 训练数据：
  - 一类训练数据：数据规模大，文字覆盖广，但合成数据真实感弱，主要用于把字写对。
  - 二类训练数据：数据真实，美感高，但规模小，主要用于把字写好。
- 技术要点：
  - 双重可控：结合Text Adapter和ControlNet提高文字绘制准确性。
  - 辅助损失：引入文字感知损失确保文字准确性。
  - 训练策略：先合成数据训练，再自然数据训练，提高文字绘制精度。
虚拟试穿
- 虚拟试穿概念：通过扩散模型实现模特和服装的无缝融合，提升用户体验。
- 技术进展：
  - AIGC模特：真实模特上装和下装，展示长款服装。
  - 虚拟试穿：概念示意，展示虚拟试穿的多种应用场景。

视觉生成方向的未来展望

多模态大语言模型：未来将结合更多模态数据，进一步提升生成质量和多样性。
持续开源：快手将继续推动可图大模型的开源生态，促进社区共同发展。

总结

快手可图大模型在文本表征选择、RLHF优化、中文写字能力和虚拟试穿等方面进行了深入研究和技术创新，并已全面开源，推动了视觉生成技术的发展。未来将继续探索多模态大语言模型的应用，提升生成质量和多样性。

快手可图大模型技术揭秘与应用探索专题：多模态大语言模型的前沿应用与创新 2024.08.18中国上海主讲人：快手可图大模型负责人李岩 1 2 主要内容 可图大模型介绍 可图大模型技术讨论一：怎样选择合适的文本表征 可图大模型技术讨论二：什么是RLHF的关键因素 可图大模型技术讨论三：怎样让大模型写好中国字 可图大模型技术讨论四：怎样做好虚拟试穿 视觉生成方向的未来展望 3 主要内容 可图大模型介绍 可图大模型技术讨论一：怎样选择合适的文本表征 可图大模型技术讨论二：什么是RLHF的关键因素 可图大模型技术讨论三：怎样让大模型写好中国字 可图大模型技术讨论四：怎样做好虚拟试穿 视觉生成方向的未来展望 4 可图大模型介绍(1/11)–快手自研大模型体系全景图 5 可图大模型介绍(2/11)–可图可灵傻傻分不清楚 =+ 可灵AI平台国内版：https://klingai.kuaishou.com；可灵AI平台海外版：https://klingai.com 6 可图大模型介绍(3/11)–最懂中文的文生图大模型 7 可图大模型介绍(4/11)–内外部人工评测结果 内部评测结果：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 外部评测结果：https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=t2i8 可图大模型介绍(5/11)–可图大模型正式开源 官网地址：https://kwai-kolors.github.io/ Github项目地址：https://github.com/Kwai-Kolors/Kolors HuggingFace模型地址：https://huggingface.co/Kwai-Kolors/Kolors 技术报告地址：https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 7月6日，快手高级副总裁、主站业务与社区科学负责人盖坤（于越）在世界人工智能大会（WAIC）上宣布，快手旗下的文生图大模型可图（Kolors）将全面开源。可图（Kolors）支持中英文双语，生成效果比肩Midjourney-v6水平，支持长达256字符的文本输入，具备英文和中文写字能力。目前，可图（Kolors）已在HuggingFace平台和GitHub上线，包括模型权重和完整代码，供个人开发者免费使用。WAIC2024官网 9 可图大模型介绍(6/11)–国内外开源社区反响 GitHub平台Fork和Starred情况HuggingFace平台Kolors基座模型下载情况 10 可图大模型介绍(7/11)–国内外开源社区反响 HuggingFace平台Model和Space趋势热榜Bilibili平台有关可图Kolors的教程 11 可图大模型介绍(8/11)–国内外开源社区反响微信用户群创作者反馈Bilibili平台部分可图内容封面 12 可图大模型介绍(9/11)–可图插件生态逐步完善可图Kolors大模型插件生态逐步完善，目前IP-Adapter-Plus，IP-Adapter-FaceID-Plus，ControlNet-Canny，ControlNet-Depth，ControlNet-Pose，Inpainting模型，Dreambooth-LoRA训推代码均已发布 13 可图大模型介绍(10/11)–可图开源背后的思考逻辑李彦宏：开源模型是智商税 “有些个外行甚至混淆了模型开源和代码开源这两个概念。模型开源你拿到的是一大堆的参数，你还是要去做SFT，还是要去做安全对齐，你不知道这些参数是怎么来的，你是无法做到“众人拾柴火焰高”的，即使你拿到对应的源代码，你也不知道他用了多少数据，用了什么比例的数据去训练这些个参数，所以拿到这些东西并不能够让你站在巨人的肩膀上去迭代和开发。” stability.ai 一季度收入不足500万美元 亏损超过3,000万美元 欠云计算提供商和其他公司近1亿美元 全球知名图片提供商GettyImages起诉stability.ai 创始人兼CEOEmadMostaque宣布离职 RobinRombach、AndreasBlattmann、Dominik Lorenz等主要技术核心离职扎克伯格：OpenSourceAIIsthePathForward 如果Meta是唯一一家使用Llama的公司，那么这个生态系统就不会发展； 开源任何给定模型并不会失去当时相对于下一个最佳模型的巨大优势； Meta与封闭模型供应商之间的一个关键区别是，出售AI模型访问权限不是我们的商业模式； Meta拥有悠久的开源项目和成功历史。让供应链在我们的设计上实现标准化，节省了数十亿美元。 14 可图大模型介绍(11/11)–可图开源背后的思考逻辑图像生成大模型 2023.07stability.ai开源SDXL 2024.04北大&字节开源VAR 2024.05腾讯开源混元DiT 2024.07快手开源可图Kolors 2024.08BlackForestLabs开源FLUX 视频生成大模型 2023.07CUHK等开源AnimatedDiff 2023.11stability.ai开源SVD 2024.03Colossal-AI开源Open-Sora 2024.08智谱开源CogVideoX 大语言模型 2023.02Meta开源Llama1 2023.06智谱开源ChatGLM2-6B 2023.07Meta开源Llama2 2023.08阿里开源Qwen 2024.04Meta开源Llama3 2024.06智谱开源GLM-4-9B 多模态大模型 2023.04微软开源LLaVA 2023.08阿里开源Qwen-VL 2023.10智谱开源CogVLM 2024.01上海AILab开源InternVL 2024.03面壁智能&清华开源MiniCPM 大模型开源不是“一锤子买卖”，可图会持续开源，和创作者一起共同繁荣社区生态。 15 主要内容 可图大模型介绍 可图大模型技术讨论一：怎样选择合适的文本表征 可图大模型技术讨论二：什么是RLHF的关键因素 可图大模型技术讨论三：怎样让大模型写好中国字 可图大模型技术讨论四：怎样做好虚拟试穿 视觉生成方向的未来展望 16 可图大模型技术讨论一：怎样选择合适的文本表征(1/2) ①CLIP文本表征 优势：图文对比学习，预先进行图文空间的表征对齐，降低扩散模型的训练难度，能够加快扩散模型收敛 劣势：图文全局特征对齐，细粒度语义理解能力较弱，存在概念压缩、属性混淆、多主体空间关系理解不足等问题，复杂文本结构或语义关系处理能力有限 ②Encoder-Decoder文本表征 优势：面向理解问题训练，英文场景T5是非常好的选择 劣势：T5模型于2019年发布，后来又发布了多语言版本的mT5和uMT5，其训练数据集C4里中文语料占比少于2%，且数据实效性较差，中文语义理解能力不足 ③Decoder-onlyLLM文本表征 优势：百亿千亿参数规模，TB级Token语料训练，模型Capacity更大，在文本理解和生成任务上表现出色，擅长处理长文本、复杂文本结构或语义关系 劣势：主流的Decoder-onlyLLM主要面向文本生成任务，模型训练时采用CausalAttention优化NextTokenPrediction能力，复杂文本理解任务上不够高效和精准，尤其是在需要对整个输入序列进行深度双向理解的情况下 ④GeneralLanguageModel：自回归完形填空，同时适用于文本理解+文本生成 模型架构：模型架构类似Encoder-Decoder，但与T5不同的是，GLM的Encoder和Decoder共享一个Transformer结构，在Transformer内部通过AttentionMask机制来隐式区分编解码器 模型训练：双向注意力Encoder，提取PartA的全局文本表征；单向注意力Decoder，对Masked字段进行自回归预测 Du,Zhengxiao,etal.,Glm:Generallanguagemodelpretrainingwithautoregressiveblankinfilling,inarXiv:2103.10360 17 可图大模型技术讨论一：怎样选择合适的文本表征(2/2) CLIPGLMCLIPGLM 一个绿色的苹果和一个橘色的书包怎样选择合适的文本表征 原则一：英文场景无脑选T5 满月下的街道，熙熙攘攘的行人正在享受繁华夜生活。街角摊位上，一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子，正在和脾气暴躁的老小贩讨价还价。这个脾气暴躁的小贩身材高大、老道，身着一套整洁西装，留着小胡子，用他那部蒸汽朋克式的电话兴致勃勃地交谈 原则二：多文本表征不差于单文本表征，且大小搭配，生态可玩 原则三：LLM可以作为文本表征，但需要PromptEngineering与Connector/TokenRefiner 原则四：端到端训练效果好于FrozenTextEncoder 原则五：大模型时代多考虑MultilingualTextEncoder “AlthoughLLaMA3-8Bexhibitsmuchstrongerlanguageunderstandingability,itstillfailstocatchuptotheperformanceofthesmallermodelT5-XLontheimage-to-textalignmentbenchmark.Meanwhile,thelargervariantT5-XXLachievesasignificantadvantageoverT5-XL.ThepowerfulcapabilitiesofLLMsintextcomprehensionandlogicalreasoninghavenotbeendemonstratedinsuchascenario.” Ma,Bingqi,etal.,ExploringtheRoleofLargeLanguageModelsinPromptEncodingforDiffusionModels,inarXiv:2406.1183118 主要内容 可图大模型介绍 可图大模型技术讨论一：怎样选择合适的文本表征 可图大模型技术讨论二：什么是RLHF的关键因素 可图大模型技术讨论三：怎样让大模型写好中国字 可图大模型技术讨论四：怎样做好虚拟试穿 视觉生成方向的未来展望 19 可图大模型技术讨论二：什么是RLHF的关键因素(1/3) QualityTuning(QT)vs.ReinforcementLearningfromHumanFeedback(RLHF) QT：通过构建高质量、高美感的人工标注数据精调模型，从而提升图像生成效果，具备数据收集成本低、训练效率高等优点，但缺点是只能看到正例数据的模式，模型无法发现和改进自己的缺点。通过近似Log-Likelihood目标进行训练，仅能建模匹配训练数据集的原始分布，并不能完全对齐人类感知中生成图像质量的提升。 RLHF：通过模型产生不同的结果，用基于人类反馈的RewardModel来打分，能同时提供正负反馈，帮助模型发现自身缺陷，不断提升模型效果。利用强化学习算法来优化扩散模型的训练，让模型不仅能够建模匹配训练集的数据分布，也能够最大化奖励模型的输出，从而使得图像生成效果与人类审美偏好更加有效的对齐

点击免费查看完整报告

你可能感兴趣

快手可图大模型的技术演进与应用探索

快手可图大模型技术揭秘与应用探索

可图大模型介绍

技术讨论

视觉生成方向的未来展望

总结

你可能感兴趣

书生万象大模型的技术演进与应用探索

2024大模型技术及其在金融行业的应用探索报告

国金互联网传媒快手可灵大模型网测效果优秀AI应用落地加速中

传媒互联网行业周报：快手发布可灵大模型，国产AI生视频技术再进一步

传媒互联网行业周报：关注百度萝卜快跑产业链投资机会，快手将开源文生图大模型可图