多模态能力跃迁,GPT-4V开启视觉交互时代。1)9月25日,OpenAI官方宣布,其开始在ChatGPT中推出新的语音和图像功能;同日,OpenAI发布《GPT-4V(ision) system card》,探索并展示此次大模型在视觉上的能力及其边界,类似于GPT-4,GPT-4V的训练在2022年完成,OpenAI从2023年3月开始提供早期访问;9月29日,微软团队发布《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》,详细测评GPT-4V在多类任务上的表现。2)具体而言,支持图像输入并理解分析为GPT-4V的主要革新。在输入方式上,GPT-4V支持图像、子图像、文本、场景文本、视觉指针及其混合集;在能力上,GPT-4V在视觉理解和解释、视觉参考提示、时间序列与视频理解、抽象视觉推理与智力测试、情商测试等实验中均表现优秀。3)未来,GPT-4V应用场景广阔,其在理解视觉世界上的卓越能力,可应用于缺陷检测、安全检查、杂货结账、医疗影像、汽车保险相关评估、定制化图像生成、智能机器、GUI导航等多个场景。 CLIP打开图文对齐大门,或为实现多模态的核心基础。1)目前,视觉+语言多模态大模型相对主流的实现方法为:借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。根据OpenAI及微软目前官方发布的GPT-4V相关信息,我们并不能详细了解其实现视觉模型的具体方法,但或许可以从OpenAI发布的CLIP系统,初步了解多模态大模型的实现方式。2)CLIP由OpenAI于2021年1月提出,其通过超大规模模型预训练提取视觉特征,进行图片和文本之间的对比学习,即将一张图片与能较好表达这张图片内容的一段文字联系起来,该模型训练完毕后即使不微调直接进行推理,即可达到良好的效果。为了训练CLIP,OpenAI构建了一个4亿容量的数据集,彼时在2021年,最优的模型大约需要256张V100、训练12天,效果即可显著优于传统视觉分类器。3)我们认为,通过将图像和文本的特征对齐,CLIP充当了图像-文本编码器,在视觉和文本之间架起一座桥梁,将其整合到同一个潜在空间(一种矢量化的数据关系网)中,这种技术或可以让ChatGPT跨文本和图像进行上下文推理,CLIP以及后续迭代的BLIP、BLIP2等为实现大模型视觉功能的核心基础。 多模态应用空间广阔,算力需求或呈量级式提升。1)训练阶段:GPT4可能是在10000-25000张A100上训练的;而对于GPT5,其可能需要25000-50000张H100进行训练。相比GPT3.5约数千张H100的需求量,GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。2)推理阶段:数据量角度而言,图片、视频、语音均相对于文字交互有数个量级的提升,或对应算力需求的高速扩张。文字:Outlook等主流邮箱已可利用OpenAI技术及GPT自动生成格式化的电子邮件回复,考虑全球每天超3000亿封的电子邮件发送量、Outlook约8%的市占率、每个单词数据量约为5B等因素,我们预计,接入Outlook邮件场景后,Chatgpt每日生成数据量或为261GB,相比ChatGPT官网问答式场景约33GB的数据量有数倍提升。语音:Teams与OpenAI已正式开展合作,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能,官方定价为10美元/月。相比文字,音频数据量明显更大,约为2B/秒;参考Teams每日约60亿分钟的总会议时长,考虑相关功能使用比例,Teams每日新增数据量需求约为336GB。图片:根据文字描述、标签点击等自动生成图片的功能已有商业化落地,万兴科技Filmora也已接入OpenAI,为视频创作者提供更定制化的图片素材。根据我们估算,以Filmora现有场景为基础,OpenAI图片素材输出数据量约为每日586GB。视频:《犬与少年》是AIGC技术辅助商业动画片的发行级别作品,由Netflix、小冰公司日本分部(rinna)、WIT STUDIO共同创作。在视频领域,单秒输出数据量或达到1MB,是目前最为复杂的应用场景之一。随着AIGC技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。 相关标的: 1)多模态应用:大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。 2)办公应用:金山办公、万兴科技、福昕软件、科大讯飞等。 3)落地快&估值性价比:大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。 4)算力侧:英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。 5)机器人:硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。 风险提示:AI技术迭代不及预期风险;假设与实际情况不符风险;经济下行超预期风险;行业竞争加剧风险。 1.多模态能力跃迁,GPT-4V开启图像时代 9月25日起,ChatGPT正式具备图像与语音能力。1)9月25日,OpenAI官方宣布,其开始在ChatGPT中推出新的语音和图像功能。它们提供了一种新的、更直观的界面,允许用户进行语音对话或向ChatGPT显示正在谈论的内容。2)简单的使用例子包括,在旅行时拍摄地标的照片,并实时讨论其中的有趣之处;当回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取逐步食谱);晚餐后,通过拍照、圈出问题集,并让它与用户分享提示来帮助孩子解决数学问题。3)9月25日起接下来两周内向Plus和Enterprise用户推出ChatGPT中的语音和图像。其中,语音将在iOS和Android上提供(在设置中选择加入),并且图像将在所有平台上提供。 图表1:与ChatGPT语音交谈 图表2:与ChatGPT谈论图像 核心视觉模型GPT-4V细节一并放出,其已于2022年3月训练完成、2023年3月开始早期访问。1)9月25日晚,OpenAI发布《GPT-4V(ision) system card》,探索并展示此次大模型在视觉上的能力及边界。2)类似于GPT-4,GPT-4V的训练在2022年完成,OpenAI从2023年3月开始提供早期访问。由于GPT-4是GPT-4V视觉能力的技术基础,其训练过程基本相同:首先,预训练模型使用来自互联网和许可数据源的大量文本和图像数据来预测文档中的下一个单词;然后,使用RLHF算法对额外数据进行微调,以产生人类训练者更喜欢的输出。 支持图像输入并分析为GPT-4V的主要革新,其在视觉理解、描述、推理等诸多方面表现出了类似人类水平的能力,前景广阔。9月29日,微软团队发布《The Dawn of LMMs:Preliminary Explorations withGPT-4V(ision)》,详细测评GPT-4V在多类任务上的表现,并传授整套多模态大模型提示词使用技巧。 1、输入方式:图像、子图像、文本、场景文本、视觉指针等。 仅文本输入:GPT-4V强大的语言能力使其能够作为有效的单模式语言模型使用,在输入和输出中仅使用文本,GPT-4V能够执行各种语言和编码任务。 P.3 图像-文本对:1)单个图像-文本对:接受图像和文本作为输入以生成文本输出,其中图像-文本对中的文本可以用作类似于“描述图像”的指令,或者用作视觉问题回答中问题的查询输入。2)交错图像-文本对:交错的图像-文本输入可以是视觉为中心的,例如带有简短问题或指令的多个图像;或者是文本为中心的,例如带有两个插入图像的长网页;或者是图像和文本的平衡混合。 图表3:图像-文本对输入 视觉指向与视觉参考提示:“指向”可以表示为数值空间坐标,如框坐标和图像裁剪、或者覆盖在图像像素上的视觉标记,如箭头、框、圆和手绘图;视觉参考提示编辑图像像素,而不是常规的文本提示,以执行感兴趣的任务。 图表4:GPT-4V支持的的不同输入形式的视觉指针 以上图像、子图像、文本、场景文本和视觉指针等输入方式可任意混合,GPT-4V均表现出来较好的通用性。 2、能力:视觉语言能力、视觉参考提示、时间序列和视频理解等。 视觉语言能力:理解和解释视觉世界,即阐释图片信息。1)名人识别、地标识别、食物识别、医学图像理解、图标识别、场景理解等;2)对象定位、计数和密集标注; 3)多模态知识和常识推理:笑话和梗图、科学与知识、多模态常识;4)场景文本识别、视觉数学推理、图表理解与推理、表格理解与推理、文档理解;5)多种语言理解与推理;6)视觉编码能力,如根据手写数学方程生成LaTeX代码的能力。 图表5:地标识别 图表6:表格理解与推理 视觉参考提示:指向特定的空间位置是与多模态系统进行人机交互的基本能力,核心思想是直接编辑图像像素空间以绘制视觉指针或场景文本作为人类的指示指令,包括理解指向输入、视觉指示提示、生成指向输出等。GPT-4V能够解构问题,生成不同的视觉标记以在每个子步骤中迭代地聚焦于不同的图像区域,最终整合信息以制定最终答案。 图表7:GPT-4V可理解并分析视觉指向提示 时间序列和视频理解:尽管GPT-4V主要关注图像,但它能够以类似于人类的方式理解视频和时间序列,输入方式可以为多个选定的视频帧。1)多图像序列:GPT-4V理解了各种姿势的序列和上下文,并且聪明地将它们与正在进行的活动关联起来; 2)视频理解:时间排序、后续动作预测、时间定位和推理;3)用于基于时间理解的视觉引用提示。 图表8:GPT-4V可理解并排序一系列视频帧 另外,GPT-4V在抽象视觉推理与智力测试、情商测试等实验中均展现了良好的表现,其在理解视觉世界上的卓越能力,可应用于缺陷检测、安全检查、杂货结账、医疗影像、汽车保险相关评估、定制化图像生成、智能机器、GUI导航等多个场景。 2.CLIP打开图文对齐大门,或为实现多模态的核心基础 目前,视觉+语言的多模态大模型相对主流的方法为,借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。 根据OpenAI及微软目前官方发布的GPT-4V相关新闻与论文,我们并不能详细了解其实现多模态,尤其是视觉模型的具体方法,但我们或许可以从OpenAI发布的CLIP以及其迭代后的BLIP、BLIP2等模型上,初步了解多模态大模型的实现方式。 CLIP模型实现了图像与文本的特征对齐,基础架构已于2021年发布。1)在CLIP提出之前,计算机视觉系统被训练成分类系统,这严重影响了其在未见类别上的泛化性和可用性,因为其需要用额外的有标注数据。因此直接从原始文本中学习是一个更有前景的可替代方法,其能带来大量广泛的有监督数据。2)CLIP由OpenAI于2021年1月发布,其通过超大规模模型预训练提取视觉特征,进行图片和文本之间的对比学习,即将一张图片与能较好表达这张图片内容的一段文字联系起来。该模型训练完毕后不微调直接进行推理,即可达到良好的效果。 图表9:代表性视觉大模型发布时间 CLIP的输入是配对好的图片-文本对,输出为对应特征,然后在特征上进行对比学习,即可以实现zero-shot的图像分类。 1)CLIP的输入是一对对配对好的的图片-文本对(例如输入是一张狗的图片,对应文本也表示这是一只狗),这些文本和图片分别通过TextEncoder和ImageEncoder输出对应的特征。然后在这些输出的文字特征和图片特征上进行对比学习。结合CSDN解释:假如模型输入的是n对图片-文本对,那么这n对与相配对的图像-文本对是正样本(即对角线部分),其它n-n对样本都是负样本,这样模型的训练过程就是最大化n个正样本的相似度,同时最小化n-n个负样