快手可图大模型 技术揭秘与应用探索 专题:多模态大语言模型的前沿应用与创新 2024.08.18中国上海 主讲人:快手可图大模型负责人李岩 1 2 主要内容 可图大模型介绍 可图大模型技术讨论一:怎样选择合适的文本表征 可图大模型技术讨论二:什么是RLHF的关键因素 可图大模型技术讨论三:怎样让大模型写好中国字 可图大模型技术讨论四:怎样做好虚拟试穿 视觉生成方向的未来展望 3 主要内容 可图大模型介绍 可图大模型技术讨论一:怎样选择合适的文本表征 可图大模型技术讨论二:什么是RLHF的关键因素 可图大模型技术讨论三:怎样让大模型写好中国字 可图大模型技术讨论四:怎样做好虚拟试穿 视觉生成方向的未来展望 4 可图大模型介绍(1/11)–快手自研大模型体系全景图 5 可图大模型介绍(2/11)–可图可灵傻傻分不清楚 =+ 可灵AI平台国内版:https://klingai.kuaishou.com;可灵AI平台海外版:https://klingai.com 6 可图大模型介绍(3/11)–最懂中文的文生图大模型 7 可图大模型介绍(4/11)–内外部人工评测结果 内部评测结果:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 外部评测结果:https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=t2i8 可图大模型介绍(5/11)–可图大模型正式开源 官网地址:https://kwai-kolors.github.io/ Github项目地址:https://github.com/Kwai-Kolors/Kolors HuggingFace模型地址:https://huggingface.co/Kwai-Kolors/Kolors 技术报告地址:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf 7月6日,快手高级副总裁、主站业务与社区科学负责人盖坤(于越)在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩Midjourney-v6水平,支持长达256字符的文本输入,具备英文和中文写字能力。目前,可图(Kolors)已在HuggingFace平台和GitHub上线,包括模型权重和完整代码,供个人开发者免费使用。WAIC2024官网 9 可图大模型介绍(6/11)–国内外开源社区反响 GitHub平台Fork和Starred情况HuggingFace平台Kolors基座模型下载情况 10 可图大模型介绍(7/11)–国内外开源社区反响 HuggingFace平台Model和Space趋势热榜Bilibili平台有关可图Kolors的教程 11 可图大模型介绍(8/11)–国内外开源社区反响 微信用户群创作者反馈Bilibili平台部分可图内容封面 12 可图大模型介绍(9/11)–可图插件生态逐步完善 可图Kolors大模型插件生态逐步完善,目前IP-Adapter-Plus,IP-Adapter-FaceID-Plus,ControlNet-Canny,ControlNet-Depth,ControlNet-Pose,Inpainting模型,Dreambooth-LoRA训推代码均已发布 13 可图大模型介绍(10/11)–可图开源背后的思考逻辑 李彦宏:开源模型是智商税 “有些个外行甚至混淆了模型开源和代码开源这两个概念。模型开源你拿到的是一大堆的参数,你还是要去做SFT,还是要去做安全对齐,你不知道这些参数是怎么来的,你是无法做到“众人拾柴火焰高”的,即使你拿到对应的源代码,你也不知道他用了多少数据,用了什么比例的数据去训练这些个参数,所以拿到这些东西并不能够让你站在巨人的肩膀上去迭代和开发。” stability.ai 一季度收入不足500万美元 亏损超过3,000万美元 欠云计算提供商和其他公司近1亿美元 全球知名图片提供商GettyImages起诉stability.ai 创始人兼CEOEmadMostaque宣布离职 RobinRombach、AndreasBlattmann、Dominik Lorenz等主要技术核心离职 扎克伯格:OpenSourceAIIsthePathForward 如果Meta是唯一一家使用Llama的公司,那么这个生态系统就不会发展; 开源任何给定模型并不会失去当时相对于下一个最佳模型的巨大优势; Meta与封闭模型供应商之间的一个关键区别是, 出售AI模型访问权限不是我们的商业模式; Meta拥有悠久的开源项目和成功历史。让供应链在我们的设计上实现标准化,节省了数十亿美元。 14 可图大模型介绍(11/11)–可图开源背后的思考逻辑 图像生成大模型 2023.07stability.ai开源SDXL 2024.04北大&字节开源VAR 2024.05腾讯开源混元DiT 2024.07快手开源可图Kolors 2024.08BlackForestLabs开源FLUX 视频生成大模型 2023.07CUHK等开源AnimatedDiff 2023.11stability.ai开源SVD 2024.03Colossal-AI开源Open-Sora 2024.08智谱开源CogVideoX 大语言模型 2023.02Meta开源Llama1 2023.06智谱开源ChatGLM2-6B 2023.07Meta开源Llama2 2023.08阿里开源Qwen 2024.04Meta开源Llama3 2024.06智谱开源GLM-4-9B 多模态大模型 2023.04微软开源LLaVA 2023.08阿里开源Qwen-VL 2023.10智谱开源CogVLM 2024.01上海AILab开源InternVL 2024.03面壁智能&清华开源MiniCPM 大模型开源不是“一锤子买卖”,可图会持续开源,和创作者一起共同繁荣社区生态。 15 主要内容 可图大模型介绍 可图大模型技术讨论一:怎样选择合适的文本表征 可图大模型技术讨论二:什么是RLHF的关键因素 可图大模型技术讨论三:怎样让大模型写好中国字 可图大模型技术讨论四:怎样做好虚拟试穿 视觉生成方向的未来展望 16 可图大模型技术讨论一:怎样选择合适的文本表征(1/2) ①CLIP文本表征 优势:图文对比学习,预先进行图文空间的表征对齐,降低扩散模型的训练难度,能够加快扩散模型收敛 劣势:图文全局特征对齐,细粒度语义理解能力较弱,存在概念压缩、属性混淆、多主体空间关系理解不足等问题,复杂文本结构或语义关系处理能力有限 ②Encoder-Decoder文本表征 优势:面向理解问题训练,英文场景T5是非常好的选择 劣势:T5模型于2019年发布,后来又发布了多语言版本的mT5和uMT5,其训练数据集C4里中文语料占比少于2%,且数据实效性较差,中文语义理解能力不足 ③Decoder-onlyLLM文本表征 优势:百亿千亿参数规模,TB级Token语料训练,模型Capacity更大,在文本理解和生成任务上表现出色,擅长处理长文本、复杂文本结构或语义关系 劣势:主流的Decoder-onlyLLM主要面向文本生成任务,模型训练时采用CausalAttention优化NextTokenPrediction能力,复杂文本理解任务上不够高效和精准,尤其是在需要对整个输入序列进行深度双向理解的情况下 ④GeneralLanguageModel:自回归完形填空,同时适用于文本理解+文本生成 模型架构:模型架构类似Encoder-Decoder,但与T5不同的是,GLM的Encoder和Decoder共享一个Transformer结构,在Transformer内部通过AttentionMask机制来隐式区分编解码器 模型训练:双向注意力Encoder,提取PartA的全局文本表征;单向注意力Decoder,对Masked字段进行自回归预测 Du,Zhengxiao,etal.,Glm:Generallanguagemodelpretrainingwithautoregressiveblankinfilling,inarXiv:2103.10360 17 可图大模型技术讨论一:怎样选择合适的文本表征(2/2) CLIPGLMCLIPGLM 一个绿色的苹果和一个橘色的书包 怎样选择合适的文本表征 原则一:英文场景无脑选T5 满月下的街道,熙熙攘攘的行人正在享受繁华夜生活。街角摊位上,一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子,正在和脾气暴躁的老小贩讨价还价。这个脾气暴躁的小贩身材高大、老道,身着一套整洁西装,留着小胡子,用他那部蒸汽朋克式的电话兴致勃勃地交谈 原则二:多文本表征不差于单文本表征,且大小搭配,生态可玩 原则三:LLM可以作为文本表征,但需要PromptEngineering与Connector/TokenRefiner 原则四:端到端训练效果好于FrozenTextEncoder 原则五:大模型时代多考虑MultilingualTextEncoder “AlthoughLLaMA3-8Bexhibitsmuchstrongerlanguageunderstandingability,itstillfailstocatchuptotheperformanceofthesmallermodelT5-XLontheimage-to-textalignmentbenchmark.Meanwhile,thelargervariantT5-XXLachievesasignificantadvantageoverT5-XL.ThepowerfulcapabilitiesofLLMsintextcomprehensionandlogicalreasoninghavenotbeendemonstratedinsuchascenario.” Ma,Bingqi,etal.,ExploringtheRoleofLargeLanguageModelsinPromptEncodingforDiffusionModels,inarXiv:2406.1183118 主要内容 可图大模型介绍 可图大模型技术讨论一:怎样选择合适的文本表征 可图大模型技术讨论二:什么是RLHF的关键因素 可图大模型技术讨论三:怎样让大模型写好中国字 可图大模型技术讨论四:怎样做好虚拟试穿 视觉生成方向的未来展望 19 可图大模型技术讨论二:什么是RLHF的关键因素(1/3) QualityTuning(QT)vs.ReinforcementLearningfromHumanFeedback(RLHF) QT:通过构建高质量、高美感的人工标注数据精调模型,从而提升图像生成效果,具备数据收集成本低、训练效率高等优点,但缺点是只能看到正例数据的模式,模型无法发现和改进自己的缺点。通过近似Log-Likelihood目标进行训练,仅能建模匹配训练数据集的原始分布,并不能完全对齐人类感知中生成图像质量的提升。 RLHF:通过模型产生不同的结果,用基于人类反馈的RewardModel来打分,能同时提供正负反馈,帮助模型发现自身缺陷,不断提升模型效果。利用强化学习算法来优化扩散模型的训练,让模型不仅能够建模匹配训练集的数据分布,也能够最大化奖励模型的输出,从而使得图像生成效果与人类审美偏好更加有效的对齐