您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:DeepSeek:基于内容的图像搜索与检索 - 发现报告

DeepSeek:基于内容的图像搜索与检索

信息技术2025-02-28--报***
DeepSeek:基于内容的图像搜索与检索

DeepSeek:基于内容的图像搜索与检索 坦尼亚皮普拉尼 加州大学伯克利分校信息学院tanyapiplaniberkeleyedu 大卫巴曼 信息学院,加州大学伯克利分校dbammanberkeleyedu 摘要 今天,互联网的大部分内容由数字媒体组成,包括视频和图片。随着像素成为互联网上大多数交易使用的货币 ,以相对轻松的方式浏览这浩瀚的信息海洋变得越来越重要。YouTube每分钟上传400小时的视频,Instagram 、Facebook等平台上浏览的图片数以百万计。受到深度学习领域最近进展的启发,以及它在诸如图像标题等问题的成功应用,KarpathyandFeiFei 2015(和)徐等2015括号内,机器翻译(巴哈纳乌等人2014词向量模型跳转想法模型Kiros等人2015等,我们提出了DeepSeek,这是一个基于自然语言处理和深度学习的模型,允许用户输入他们想要搜索的图像的描述。作为回应,系统检索出所有与查询在语义和上下文中相关的图像。以下几节描述了两种方法。 1引言 图像搜索是一个极具挑战性的问题,目前也是研究的热点。像亚马逊、谷歌、苹果等所有主要玩家都提供了相应的解决方案。然而 ,这些解决方案都存在局限性。例如,亚马逊的图像搜索利用计算机视觉检索相似图像 。虽然大多数情况下准确度较高,但最大的问题是用户需要输入基于图像的查询,而这在大多数情况下可能并不容易获得。苹果在其设备中提供了通过短语(如)搜索图像的选项。 食品,生日等。由于受限于可准确处理的token数量,表达性受到严重限制。此外,这种搜索当然也受限于设备上的图像数量。一些其他解决方案,如谷歌的图片搜索,使用可能相当误导性的元数据。 为了克服所有这些问题,我们提出了一种端到端的方法,通过基于文本的查询和自然语言处理来实现图像搜索和检索。在下一节中 ,我们将描述我们将要使用的数据和方法。 2相关工作 在基于内容的图像检索领域已做了大量工作 。()周等2017特别地,两篇开创性的作品为大规模多媒体数据库中基于内容视觉检索的重大进步铺平了道路。第一篇作品是引入了不变局部视觉特征SIFT()。洛氏2004第二项工作是引入了视觉单词 包(BoW)模型()SivicandZisserman2003从信息检索中借鉴,BoW模型基于包 含的局部特征的量化,对图像进行紧凑表示 ,并易于适应经典的倒排文件索引结构,以实现可扩展的图像检索。图像表示源于这样一个事实:基于内容视觉检索的内禀问题是图像比较。为了便于比较,将图像转换成某种特征空间。其动机是实现隐式对齐,以消除背景以及潜在的变换或变化的影响,同时保持内在视觉内容的可区分性。传统上,视觉特征是启发式设计的,可以分为局部特征和全局特征。 图1:不同查询方案及其对应检索结果的示意图。 除了那些手工制作的功能之外,近年来还见证了基于学习的功能的开发。这些系统的最大问题是查询表述是以输入图像为基础,该图像被转换成特征表示;基于这个表示,数据集中的图像被排序。这种方法从根本上是有缺陷的,因为它要求用户一开始就有一个相似的图像。也有一些方法被概述,它们将文本作为输入用于在网络上搜索图像,如Google。但这里的大部分重点实际上是在进行文本检索(谢等。2014)并返回与检索文本相关的图像。这本质上是一种弱学习方法,其中问题是通过间接方式来解决的。 因此,上述所有系统在提供基于文本的语义图像检索有效解决方案的努力上都存在不足 。因此,我们提出了一种方法,将文本和图像在相同的空间中进行语义嵌入,以便我们可以更高效、更准确地根据文本查询检索图像。 我们的方法 在本节中,我们描述了两种我们想要尝试的解决上述问题的方法。 31基于标题的检索 在图像字幕生成领域已经进行了大量研究工作。图像字幕生成问题涉及生成一个短语来描述图像中的场景。一种最先进的卷积神经网络架构被用于提取图像特征并将输入转换为语义丰富的嵌入向量。该向量可用于训练不同的任务,如分类、检测,或作为其他任务的流水线的一部分。为了我们的目的,我们将用它来初始化语言模型。语言模型是一个基于长短期记忆架构,试图模拟 PShxSS 在哪里是“attime”这个词 tt1tt1t th 是LSTM在时间点t的隐藏状态 t1 t1x 并且是时间点的LSTM单元格的输入 t t 在每一步,使用softmax输出词汇表中所有单词的概率。 图2:基于图像检索管道文本描述图像端到端检索系统。 在我们实验中,我们使用了ResNet101(他等。2015)作为特征提取主干。我们用 从MSCOCO物体检测(预训练权重初化了网络。林等2014对任务进行初步处理,然后针对MSCOCO数据集上标题生成任务进行了微调。一旦生成标题,我们 Vx这个向量iVxCNNxi 1 使用了跳转思维(skipthought)方法。Kiros等人2015模型将字幕转换为向量嵌入 。一旦字幕被转换为向量,我们对用户提供 查询也进行同样处理。然后通过最小化查询向量与图像相关联字幕向量之间L2距离来执行图像检索。 i1省略号表示内容缺失,无法进行翻译。请提供完整英文文本。 在哪里是该图像之一 2与N此图像相关标题也使用skipthoughts模图型像投数影据到集语。义特征表示空间中。 32嵌入空间检索 本模型由以下组件组成: c第k个 Uck)( )c i i 2 1使用预先初化最先进卷积神经网络 哪里是与以下相关: captionrelatedtothe (ResNet101)从图像帧中提取语义信息 3然i后对这两个特征应用一个预测,以创 以构建代表图像内容特征。我们称之为 建一个可以通过最小化这些向量L2距离来学图习片是嵌sk入ip空tho间u。ghts模型。 图3:标题生成 EVxWVxbviviv 并且 EWckWUck b uuu 3 4 4实验 41标题生成 对于我们第一种方法,我们首先训练一个标题生成模型。这里想法是将图像转换为语义丰富等价文本表示。生成标题随后通过skipthoughts(稍后解释)转换为向量 。因此,每张图像间接地被转换为其语义丰 在何处,i两iR无效输入 者E无都效V输x入i 并且E uWcki 富特征表示。 4目标函数定义为: LEUck,EVx EUckEVx u无效输入i 5 6 411数据集 我们在MSCOCO数据集上训练了一个标题生成模型( 林等2014该数据集包含复杂日常场景 图像,其中包含在自然环境中常见物体 。使用实例分割对物体进行标注,以帮助精 i2 无效输入iU 因此,i我们最终得到一个空间,其中图像及其相关标题彼此靠近。这个空间可以用来从用户那里接收查询,并根据它们L2距离检索图像。 确定位物体。数据集包含91种物体照片,这些物体对于一个4岁孩子来说很容易识别,总共有250万个标注实例分布在32800张图像中。每张图像由人类标注了5个标题。该数据集2014版本有80000张图像。 图4:嵌入空间图像检索全流程检索系统 训练数据集为80k张图像,验证数据集为40k张图像,测试数据集为20k张图像。我们遵循相同设置。在图像检索方面,我们使用与标题生成相同测试集,即MSCOCO数据集20k张图像。对于基于标题检索,除了训练标题生成模型本身之外,没有训练阶段。对于基于嵌入检索模型,使用MSCOCO数据集80k张图像作为训练集。一旦提取了向量,我们定义它们之间L2损失5根据方程式给出。 运行70000次迭代以获得07CIDEr分数。对于嵌入空间学习问题,设置与上述相似。第5个方程中定义损失函数与上述相同。使用Adam优化器和128个向量批次大小最小化损失。整个训练集包含80000张图像,与MSCOCO数据集用于标题生成训练集相同。学习率被定义为1e3,并在训练过程中指数衰减。训练允许运行直到收敛。我们1e3 也发现将梯度裁剪至范数为有用,并且可以提前稳定训练。 412安装与培训 对于标题生成模型,我们使用批处理大小为128,图像尺寸为224x224。训练在NvidiaTitanXGPU上进行。我们使用具有动量Adam优化器,并使用默认设置。 09909999 并且学习率 12 参数设置为1e3并按指数衰减。CNN学习率设置为小一个数量级。LSTM梯度被截断在10。训练允许进行直到收敛。在本报告发布时,我们能够 42跳过思维向量 Skipthought向量是一种用于通用、分布式句子编码无监督学习方法。利用书籍文本连续性,首先训练一个编码器解码器模型,尝试重构编码段周围句子。具有语义和句法属性句子因此被映射到相似向量表示 。接下来,引入了一种简单词汇扩展方法来编码单词。 图5:嵌入学习任务训练集和验证集L2损失曲线 这些并非被视为培训内容,使我们能够将词汇量扩展至一百万词。最终结果是现成编码器,可以生成高度通用句子表示,这些表示在实践中鲁棒性强且表现良好。对于SkipThought向量生成,我们使用 与原论文中设置完全相同。我们也没有自己训练skipthought向量,目前使用是作者在官方github页面提供模型。关于此模型训练信息可以在他们论文中找到。( )Kiros等人2015 43用于检索嵌入空间 学习图像和文本联合嵌入空间是一个困难 任务,但之前在几项工作中也已经得到了解决。我们从(Frome等人2013并通过两个并行网络学习联合空间嵌入,这两个网络接收标题生成模型中CNN输出。这 些向量已经非常语义丰富,但随后还会嵌入 专业嵌套空间。训练时间中使用skipthoughtvectors取自由标题生成模型生成标题 。 EWc 矢量kR无效输入对于生成cap ui c 5ti评on估ki 图像在我们训练集中也是 无效输入 5i1定量分析 嵌为入了到评维估度管空道间中不。同部分,使用了不同量化指标。使用包括BLEU、Meteor、RougeL和CIDEr指标在内MSCOCO服务器对标题生成进行了评估。我们根据MSCOCO标题生成排行榜,将我们模型与现有最先进系统进行了比较。 为了相互评估我们图像检索系统,我们提 EVx 由于向量作用R在维度(方面) 无效输入i 无效输入 无效输入 出了以下最相关指标。我们计算在处精确度。kk 在三个不同级别上。精确度(p)是去 ssss 图6:跳转思维模型。给定一个元组连续句子,其中第i个 i1ii1i ss 句子来自一本书,该句子被编码并试图重建前一句和下一句。 ii1 s 中,模输型入BL句UE子1三M元E组TEOR我R回O到UG了E家L。C我ID看Er到D猫在 句子在这个例子 i1 我们模型:0928032006931092 OS句尾标记。 这些步骤。这很奇怪。SOTA未0连9接530箭37头5连0接73到4编12码7器0输出。颜色表示哪些组件共享参数。E 表1:与本文描述标题生成模型相比定量评估当前MSCOCO排行榜上技术水平现状。 如下定义: tpk tpkpk tpkfpk ESR68385791221 CBR72984990517 模型p1p3p5次(秒) 表2:对两种方法定量评估 在真正阳性事件((被定义为 k 当系统检索到图像之外图像中,检索到正确图像。并且,错误定位为: fpkk 积极事件定义为当系统被允许从图像中检索出没有任何一个正确时候。正确图像标题对包括MSCOCO中提供标题。 c 数据集。因此,给定一个与之相关标题, j x 测试集中20k图像中图像 j MSCOCO,我们执行基于标题检索和嵌入空间检索,如下所述: c 低点。我们采用与以下相关标题: j x 图片,并嵌入标题。所有图片在 j 检索数据集,该数据集由MSCOCO数据集 p测试集1所有图像组成,也经过我们流程 从进上行表处2理中以我生们成可其以看出,基于嵌入检索 本报告中描述了图像检索方法。每。 但首次检索到图像可能并非最接近图像 ,因此正确图像可能会出现在前五张图像中,但可能不第一个检索到图像。请注意,上述检索操作 非GP