您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:INS MMBench : 评测 LVLMs 保效果的 合基准 ( 汉 ) - 发现报告
当前位置:首页/行业研究/报告详情/

INS MMBench : 评测 LVLMs 保效果的 合基准 ( 汉 )

信息技术2024-06-25Chenwei Lin、Hanjia Lyu、Xian Xu、Jiebo Luo-张***
INS MMBench : 评测 LVLMs 保效果的  合基准 ( 汉 )

INS - MMBench : 评估 LVLM 在保险方面表现的综合基准林晨伟复旦大学韩佳 Lyu罗切斯特大学Xian Xu复旦大学罗杰波罗切斯特大学Abstract大型视觉语言模型 ( LVLM ) 在各种通用多模态应用 ( 如图像识别和视觉推理 ) 中表现出了出色的性能,并且在特定领域也显示出了有希望的潜力。然而,LVLM 在保险领域的应用潜力 — — 以丰富的应用场景和丰富的多模态数据为特征 — — 尚未得到有效挖掘。没有对保险领域的多模式任务进行系统审查,也没有专门设计用于评估 LVLM 在保险中的能力的基准。这种差距阻碍了 LVLM 在保险领域的发展。在本文中,我们系统地回顾和提炼出四个具有代表性的保险类型的多模式任务 : 汽车保险,财产保险,健康保险和农业保险。我们提出 INS - MMBech,这是第一个为保险领域量身定制的全面 LVLM 基准。INS - MMBech 总共包含 2.2 K 精心设计的多项选择题,涵盖 12 个元任务和 22 个基本任务。此外,我们评估了多个代表性的 LVLM,包括 GPT - 4o 等闭源模型和 BLIP - 2 等开源模型。此评估不仅验证了我们基准的有效性,而且还提供了对当前 LVLM 在保险领域各种多式联运任务上的深入性能分析。我们希望 INS - MMBech 将促进 LVLM 在保险领域的进一步应用,并激发跨学科的发展。我们的数据集和评估代码可在。https: / / github. com / FDU - INS / INS - MMBench.1Introduction近年来,大型语言模型 ( LLM ) 已经证明了非常强大的语义理解和对话能力 [66,33,81,58,80],深刻地影响了人类的工作和生活。在此基础上,大型视觉语言模型 ( LVLM ) 通过映射和对齐视觉和文本特征采取了进一步的步骤,实现了与多模态数据的处理和交互 [7,83,63,74] 。研究人员发现,LVLM 在图像识别、文档解析和 OCR 处理等一般任务中表现出卓越的性能 [72, 37, 69] 。除了探索一般功能外,研究人员还开始将 LVLM 应用于各种专业领域,如医疗保健 [30, 61] 、自动驾驶 [20, 41] 和社交媒体内容分析 [50, 79] 。通过定性和定量方法探索 LVLM 在专业领域的能力,这些研究已经证明了各种应用潜力。预印本。正在审查中。arXiv: 2406.09105v1 [cs. CV] 2024 年 6 月 13 日 2图 1 : INS - MMBench 概述。 INS - MMBench 在四种保险类型中构建了 12 个元任务 ( 在内圈表示 ) 和 22 个基本任务 ( 在外圈表示 ) , 以四种主要颜色区分 : 蓝色 , 红色 , 黄色和绿色。对于每个基本任务 , 我们提供了图像 - 问题对的示例。保险,作为一个学科,包括众多的多模式应用场景,涉及广泛使用多模式数据和计算机视觉算法在其实际操作 [27,57,77,40] 。这为 LVLM 与保险业的整合提供了巨大的潜力。例如,在汽车保险中,分析受损车辆的图像可以快速评估和准确估计损坏 [51] 。同样,在财产保险中,分析建筑物的图像可以帮助评估潜在风险 [70] 。然而,现有的研究 [44] 仅定性分析了 LVLM 在保险领域的应用,没有系统地组织相关的多模式任务或构建特定领域的基准。这阻碍了在保险领域对 LVLM 能力的深入评估和推广。为了应对这一挑战,我们引入了 INS - MMBech,这是保险领域的第一个综合 LVLM 基准 ( 见图 1 ) 。对于任务设计,我们系统地组织和完善了四个具有代表性的保险类型的多模式任务 : 汽车,财产,健康和农业保险。使用自下而上的分层任务定义方法,我们构造了总共 12 个元任务和 22 个基本任务,涵盖了关键的保险阶段,例如承保,风险监控和索赔处理。对于数据收集,我们从多个开源渠道搜索和处理数据集,选择具有高场景相关性、任务相关性和数据可用性的数据集。对于基准结构,INS - MMBech 包括总共 2.2 K 经过精心设计的多项选择视觉问题。这种格式便于对评价结果进行方便和客观的分析。这些问题是手动制定的,干扰者选项是在 GPT - 4o 的帮助下生成的。此外,我们选择 10 个 LVLM 进行评估,并对结果进行综合分析。评估的关键发现如下 : ( 1 ) GPT - 4o 在所有模型中表现最好,得分 72.91 / 100 。它也是唯一得分超过 70 分的模型,反映了 INS - MMBech 的挑战性 ; ( 2 ) LVLM 在不同保险类型中的表现存在显着差异 ,与财产保险和农业保险相比,汽车保险和健康保险的结果更好 ; ( 3 ) LVLM 在不同的元任务中表现出明显的性能差异,与任务类型和图像类型密切相关 ; ( 4 ) 开源和闭源 LVLM 之间的差距正在缩小,一些开源模型现在在某些任务中接近甚至超过了闭源模型的能力 ; ( 5 ) 主要原因。 3LVLM 在 INS - MMBench 上的错误是缺乏保险领域的知识和理解 , 以及感知错误。总体而言 , 我们的工作贡献如下 :•我们提出了 INS - MMBench , 这是保险领域的第一个 LVLM 基准 , 其中包括总共 2.2 K 多项选择题视觉问题 , 涵盖了四种保险类型 ( 汽车 , 财产 , 健康和农业保险 ) , 12 个元任务和 22 个基本任务。•我们对 10 个 LVLM 进行了深入评估 , 包括 7 个专有模型和 3 个开源模型 , 代表了对 LVLM 在保险领域能力的首次定量评估。•We conduct a further analysis of the evaluation results, providing insights to the potential application - tions of LVLM in the insurance domain. This analysis also offers a reference for understanding the opportunities and challenges associated with LVLM in this sector.2相关工程2.1大型视觉语言模型随着大型语言模型 ( LLM ) [9,66,31] 的快速发展,研究人员正在利用这些预先训练的 LLM 的强大泛化能力来处理和理解多模态数据 [73,82,19] 。重点关注的关键领域是将大型视觉语言模型 ( LVLM ) 用于视觉输入。LVLM 采用视觉编码器和视觉到语言适配器来编码来自图像数据的视觉特征并将这些特征与文本特征对齐。然后,组合的特征由预先训练的 LLM 处理,导致视觉识别和理解的显着进步 [74,68] 。各种开源和闭源 LVLM 不断涌现。在开源模型领域,值得注意的例子包括 LLaMA - Adapter [76] 、 LLaVA [47] 、 BLIP - 2 [38] 、 MiiGPT - 4 [83] 和 IterVL [12] 。这些模型成功地整合了视觉和文本模式,取得了值得称赞的结果。在闭源领域,代表性的模型包括 GPT - 4o [53],GPT - 4V [2],GemiiProVisio [29] 和 Qwe - VL [60],所有这些都在许多测试和评估中表现出了出色的性能 [72,28,43] 。我们打算评估开源和闭源 LVLM,以验证不同模型在保险领域的能力。2.2大型视觉语言模型的基准随着对 LVLM 的研究的加强 , 越来越多的研究人员提出了评估模型能力的基准 [73 , 78 , 45 , 11] 。根据能力评估的范围 , 这些研究可以分为三种类型 : 特定任务基准 , 综合基准和特定领域基准。全面的基准代表性研究包括 LVLM - eHub [69] 、 SEED - Bench [37, 36] 、 MMBench [48] 、 MME 和 MMT - Bench [75] 。特定于任务的基准专注于特定的任务和视觉数据类型 , 提供详细的任务定义。示例包括用于科学图像的 SciFIBench [55] , 用于图表的 MMC - Benchmark [46] , 用于视频的 MVBench [39] ( 使用视频帧作为输入 ) 以及用于网页 , 图表和地图的 SEED - Bench - 2 - Plus [35] 。特定领域的基准测试专为特定专业领域内的视觉任务而设计。由于这些领域的专业知识和独特任务,通用基准无法完全满足评估这些领域的 LVLM 的需求。因此,研究人员已经开始为医疗保健 ( OmiMedVQA [30] ),数学 [49,62],自动驾驶 ( Tal2BEV - Bech [20] ) 和地理 [56] 等领域提出专门的基准。但是,如前所述,保险领域甚至金融领域目前都缺乏相应的特定领域。 4LVLM 的基准 [10 , 42 , 44] 。我们的工作引入了 INS - MMBench 来解决这一差距 , 旨在实现 LVLM 在保险领域应用的重大进步。3INS - MMBench3.1任务鉴于各险种在实际操作中工作流程的差异 , 我们选择了四个核心类型来构建这一基准 : 汽车保险、商业 / 家庭财产保险、健康保险和农业保险。这些类别既涵盖了保险市场上最普遍、代表性很强的人寿保险和财产保险 [65 , 21] 。图 2 : 我们自下而上的分层任务定义方法的图示。首先 , 我们识别和分类不同的保险阶段。接下来 , 我们列举每个阶段所需的关键视觉元素。基于这些关键视觉元素 , 我们定义基本任务。最后 , 我们将基本任务聚类以形成元任务。为了确保我们的评估任务与保险领域的实际应用紧密一致,并在此背景下充分展示 LVLM 的功能,我们开发了自下而上的分层任务定义方法。使用这种方法,我们构建了专门为保险业量身定制的系统视觉任务框架。例如,我们讨论了汽车保险的详细任务构建过程 ( 见图 2 ) 。最初,基于保险价值链理论 [23,24],我们选择了富含多式联运数据和任务的三个关键阶段 : 车辆承保,车辆风险监控和车辆索赔处理。在每个阶段,我们都会确定保险运营商需要提取的关键视觉元素。例如,在车辆承保阶段,运营商必须确认诸如车牌信息,车辆型号,仪表板读数和车辆状况之类的元素,这些元素对于信息收集,状况验证和承保决策至关重要。此外,基于这些关键的视觉元素,我们定义了基本任务。例如,需要提取车牌信息导致了车牌识别任务的定义,而需要监控危险驾驶行为导致了车内驾驶行为检测任务。通过遵循此过程,我们总共定义了汽车保险的九个基本任务。最后,我们根据这些基本任务的特征对它们进行聚类,形成四个元任务。经由过程这一办法,我们构建了跨越四种保险类型的 12 个元任务和 22 个根本任务的综合集。3.2数据集集合任务定义完成后 , 我们开始收集数据并构建多选题视觉问题。我们的数据收集和基准构建过程 ( 见图 3 ) 如下 : 5图 3 : 我们的数据收集和基准构建过程的示意图。首先,我们从多个公共来源收集数据集。接下来,我们对数据集进行手动过滤和随机抽样,然后进行必要的数据处理。最后,利用手工劳动和 GPT - 4o 来构造任务问题和多项选择选项,从而创建多项选择视觉问题数据集。数据源。我们在几个流行的数据源中使用与基本任务相关的关键字搜索数据集 , 包括 Google 、 Kaggle 、 Github 和 Roboflow 。对于有多个公共数据集的任务 , 我们下载并比较这些数据集以执行初步筛选。我们为保险场景选择具有高适应性和可用性的数据集 , 如表 1 所示。数据处理。为了便于 LVLM 评估,我们将每个基本任务的图像和问题数量设置为 100 。这 100 张图像是从我们选择的数据集中随机抽样的,考虑到测试样本类型的平衡,我们对带有分类标签的数据集进行平衡抽样。