您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [西南证券]:GPT4-Turbo技术原理研发现状及未来应用潜力分析报告 - 发现报告

GPT4-Turbo技术原理研发现状及未来应用潜力分析报告

信息技术 2024-05-09 - 西南证券 Angie
报告封面

2023年深度行业分析研究报告 目录 1技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 1.1图像理解能力提升:三大视觉学习方法 1.2视觉生成:多模态内容理解和生成的闭环 2当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 2.1GPT-4Turbo:多模态能力增强,使用成本降低 2.2GPTs:加入Agents战场,与开发者共享收益 2.3AssistantAPI:解决API开发者痛点,拓展OpenAI收入来源 3未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.1算力&存力端:流量激增+多模态生成拉大算力缺口,同时带动存力需求 3.2应用端:强化垂类属性&满足长尾需求,数量有望实现快速增长 3.3数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 1技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 章节小结 图像理解 视频Q&A应用 ImageBind STAIR HiCLIP CLIP 标签监督 语言-图像编辑 技术原理 仅图像自监督 对比学习 非对比学习 遮盖图像建模 视觉生成 文本到图像(T2I) 基于文本的图像编辑 资料来源:西南证券 1.1图像理解能力提升:三大视觉学习方法 为打造视觉大模型,建立高效视觉预训练体系以提升图像理解能力至关重要,这影响到从图像整体 (如分类、图文检索、标注)到部分区域(如物体识别、短语定位)及到像素细节(如语义、实例 、全景分割)的各项任务。 通用视觉预训练方法主要可归纳为三大类。1)标签监督:此方法在每张图片都配有对应标签的数据集上进行训练,如图像分类中,一张狗的照片会对应“狗”的标签,模型的核心任务是准确预测此标签。2)语言-图像监督:利用完整的文本描述来引导模型学习,使模型能够深入挖掘图像内容与文本语义间的关联。3)仅图像自监督:利用图像本身固有的结构和信息来学习有意义的表示,而不依赖于显式的人工注释标签。 三大视觉学习方法 模型的目标是在给出图片时正确预测标签标签 图像 图像编码器ImageEncoder 语言监督利用图像&完整的文本描 述之间关联来训练模型 图像既作为输入又作为监督信号 图像编码器 Image Encoder 文字编码器 Text Encoder 图像编码器 Image Encoder 图像编码器 Image Encoder 图像 文字 图像 (1)监督学习(2)语言-图像监督 (CLIP) (3)仅图像自监督学习 1.1.1图像理解能力提升:标签监督 监督式预训练已成为机器学习和计算机视觉领域的核心技术。在这种策略中,模型首先在大规模标注数据集上进行预训练,随后针对特定任务进行精细调整。这种方法充分利用了如ImageNet这样的大型人工标注数据集,为模型赋予了高度可迁移的视觉特征。 其核心原理是将图像与预设的标签相对应 ,这些标签往往代表某一视觉物体。多年来,这种策略在各类视觉基础架构,如AlexNet、ResNet以及ViT的发展中都发挥了不可或缺的作用。监督式预训练为计算机视觉领域带来了革命性的进步,从基础的图像分类和物体检测,到更为高级的视觉问答和图像标注任务。受限于人工标注的高成本,这些模型所学习到的特征会受到预训练数据集的规模和多样性的制约。 ImageNet数据集 超过1,000万个手工标注的高分辨率图像,涵盖2万多个类别 AlexNet深度神经网络 每个图像都被详细地标注为某一特定的类别,如“狗”、“猫”或“汽车” 2.1.1图像理解能力提升:语言-图像监督预训练——CLIP CLIP(对比性语言-图像预训练)利用图像的“alt-text”(一种为图像提供文字描述的方法,常用于网页以增强无障碍访问)来进行训练。此阶段的训练涵盖了大量图像与其相关文本描述的匹配对,确保模型精确捕捉到文本与图像间的关联性。如果图片和文字有对应关系,那么在高维特征空间中代表两者的点就会非常接近。经过无数图像-文本配对训练的文本编码器可以接受任何给定的文本标签并产生一个独特的向量表示。当提供一个图像时,其对应的向量表示将与这些文本向量进行比较,以分配最合适的类别。 CLIP(对比性语言-图像预训练) CLIP在零样任务中展现出卓越的泛化性能和对于领域偏移的高度鲁棒性。CLIP不仅能够应对视觉识别和图像-文本的联合检索任务,更在接受适当的提示后表现出强大的视觉-语言推断能力。由于CLIP基于简单的跨模态交互,它在推理效率上超越了基于交叉注意力的视觉-语言模型。 (1)对比预训练 (2)从标签文本创建数据集分类器 文本 编码器 处理相应的文本描述 (3)零样本推理 图像 编码器 图像 编码器 生成图像的特征表示 文本 编码器 优化编码器,使相关的图像-文本对在嵌入空间中的表示比不相关的对更为接近 假设有三个文本注释:"狗"、"猫"和"鸟"。你的模型中的文本编码器可以接受这些标签并将它们转换为独特的向量表示。可以将这些向量视为每个单词的独特签名或指纹。 给定一个新的动物图像,图像编码器为这个图像产生一个向量表示。为了对这个图像进行分类,模型将比 较图像的向量与文本注释的向量。假设图像的向量最接近"狗"的向量。那么,模型将把图像分类为"狗"。 资料来源:《LearningTransferableVisualModelsFromNaturalLanguageSupervision》,6 《Zero-ShotText-to-ImageGeneration》,西南证券整理 2.1.2图像理解能力提升:图像自监督预训练——对比/非对比学习 在没有标签的无监督学习场景中,对比学习通过将正例(相似的样本)和负例(不相似的样本)对比,强化模型对于相似性和差异性的判别能力。通过这种方法,即便在没有明确的类别标签的情况下,模型也能够被训练成可识别出哪些特征更有可能来自同一分布或类别。对比学习的成功归功于其能够捕捉到数据的内部结构和模式。在图像处理中,对比学习可以用来学习视觉表征,这些表征能够区分不同的物体和场景。一旦模型学习有区分性的特征,它将可以被用于多种下游任务,如分类、检索和聚类,并展现出强大的泛化能力。 视觉表征对比学习框架 近年来,非对比学习逐渐崭露头角,不再重视明确的样本对比,而是致力于挖掘数据的内在结构和不变特性。例如基于Siamese架构的模型,可以有效处理多个数据视图,而不必过多地依赖样本之间的对比性质,这为模型训练带来效率与扩展性的双重优势。 最大化一致性(Maximizeagreement):确保两个相似或增强版本的输入(例如图像)的表示在嵌入空间中接近。相反,不相似输入的表示应该相距较远。通过最大化一致性,模型旨在将相似输入的表示拉近,同时将不相似输入的表示推开。 g(.):代表一个投影头。在获得表示(h_i或h_j)之后,这个函数进一步将表示转化或投影到另一个空间,实际的对比比较就发生在这里。 从同一数据增强族中分别采样两 种不同的数据增强操作 (t~T和t'~T) 2.2视觉生成:多模态内容理解和生成的闭环 在多模态大型模型的发展过程中,视觉生成技术是整合视觉内容与文本信息的关键手段。拥有理解和生成视觉内容的能力使模型能够参与到更深层次和细致的任务中 ,如图像标注、视觉叙事以及复杂的设计任务。由于人类的理解和沟通本质上是多模态的,通过整合视觉生成功能,模型能够以更接近人类认知的方式处理和生成信息。此外,多模态融合也为虚拟现实、增强现实以及交互式数字平台等领域奠定基础,未来将实现更为自然、无缝且高效的用户界面。 “人类行为对齐”旨在融合人类的认知过程和AI驱动的视觉内容生成。传统视觉生成模型仅依赖数据,导致输出内容往往缺乏人类的逻辑思维和行动模式。例如,在生成‘繁忙的街道’图像时,传统模型只机械地排列车辆、行人和商店,无法捕捉人类对‘繁忙’的深刻理解,例如行人的匆忙步伐、车辆的密集流动和商店的热闹场景。而通过引入人类行为对齐,模型可确保生成的视觉内容不仅准确,更与人类的感知和期望相符合,推动模型向更以用户为中心的方向转变,使系统在‘思考’和‘感知’方面更符合人类需求。在遵循人类意图合成所需视觉内容的图像生成模型方面,主要涉及四个方向:1)空间可控的T2I生成;2)基于文本的图像编辑;3)更好地遵循文本提示;4)在T2I生成中实现物体定制化。 (1)空间可控的T2I生成 (2)基于文本的图像编辑 (3)更好地遵循文本提示 (4)在T2I生成中实现物体定制化 2.1.3视觉生成:文本到图像(T2I) 在人工智能领域,文本到图像(T2I)生成技术的目标是根据输入的文本语义生成视觉质量高的图像。目前主流的图 像生成技术包括生成对抗网络(GAN)、变分自编码器(VAE)、离散图像标记预测和扩散模型。 ①GAN:包括生成器和判别器两个关键组件。生成器从随机噪声输入创建合成图像,并根据文本条件调整噪声输入以 生成与文本语义相关的图像。判别器的任务是区分合成生成的图像和真实图像。 ②VAE:通过编码器和解码器网络模块来生成图像。编码器优化将图像编码成潜在表示,解码器则将采样的潜在表示转换回新图像。VQ-VAE通过离散的潜在空间和向量量化进一步改进VAE。 ③离散图像标记预测方法:核心是图像标记器和去标记器的配对。VQ-GAN将连续的视觉信号转换成离散标记,进而转化为离散标记预测任务。自回归Transformer逐行生成视觉标记,最终通过去标记化得到图像预测结果。 ④扩散模型:通过随机微分方程将随机噪声变为图像,经过多次迭代的去噪过程,基于输入文本的条件精炼图像。 T2I生成技术发展历程 资料来源:《Position-EnhancedVisualInstructionTuningforMultimodalLargeLanguageModels》,9 《EnablingMultimodalGenerationonCLIPviaVision-LanguageKnowledgeDistillation》西南证券整理 2.1.4视觉生成:基于文本的图像编辑 基于文本的图像编辑技术依赖于已有的图片和文本描述来合成新图像。其核心目的是维持图像的主体视觉内容,对特定区域进行微调,如局部物体的调整或全局的风格改变,以更准确地满足用户的意图。 将篮子换成锅 将篮子换成盒 将篮子换成碗 原始图像 基于文本的编辑领域有3种主流功能。1)针对图像的特定区域进行修改:如物体的增减或属性更改。用户所提供的区域蒙版与图像生成中的空间潜在变量操作结合。2)针对图像的特定区域进行修改2.0:用户简单描述所需区域外观,即可作为明确的编辑指示,例如指导“将图像中的A物体替换为B物体”。3)专业模块融合:相较于单一T2I模型的编辑扩展,某些编辑系统已开始融合多种专业模块,包括图像分割模型和大型语言处理模型。 基于文本的图像编辑示例 原始图像 指令: 塑料材质 的蘑菇 针对区域修改 效果 指令 指令: 或 潮湿环境 下的蘑菇 指令:“将房间变成彩色的” 大模型自动调整权重给“彩色的”指令 资料来源:《Promptto-promptimageeditingwithcross-attentioncontrol》,西南证券整理10 目录 1技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 1.1图像理解能力提升:三大视觉学习方法 1.2视觉生成:多模态内容理解和生成的闭环 2当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 2.1GPT-4Turbo:多模态能力增强,使用成本降低 2.2GPTs:加入Agents战场,与开发者共享收益 2.3AssistantAPI:解决API开发者痛点,拓展OpenAI收入来源 3未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.1算力&存力端:流量激增+多模态生成拉大算力缺