INS-MMBench:评估LVLM在保险方面表现的综合基准 林晨伟 复旦大学 韩佳Lyu 罗切斯特大学 XianXu 复旦大学 罗杰波 罗切斯特大学 arXiv:2406.09105v1[cs.CV]2024年6月13日 Abstract 大型视觉语言模型(LVLM)在各种通用多模态应用(如图像识别和视觉推理)中表现出了出色的性能,并且在特定领域也显示出了有希望的潜力。然而,LVLM在保险领域的应用潜力——以丰富的应用场景和丰富的多模态数据为特征——尚未得到有效挖掘。没有对保险领域的多模式任务进行系统审查,也没有专门设计用于评估LVLM在保险中的能力的基准。这种差距阻碍了LVLM在保险领域的发展。在本文中,我们系统地回顾和提炼出四个具有代表性的保险类型的多模式任务:汽车保险,财产保险,健康保险和农业保险。我们提出INS-MMBech,这是第一个为保险领域量身定制的全面LVLM基准。INS-MMBech总共包含2.2K精心设计的多项选择题,涵盖12个元任务和22个基本任务。此外,我们评估了多个代表性的LVLM,包括GPT-4o等闭源模型和BLIP-2等开源模型。此评估不仅验证了我们基准的有效性,而且还提供了对当前LVLM在保险领域各种多式联运任务上的深入性能分析。我们希望INS-MMBech将促进LVLM在保险领域的进一步应用,并激发跨学科的发展。我们的数据集和评估代码可在。https://github.com/FDU-INS/INS-MMBench. 1Introduction 近年来,大型语言模型(LLM)已经证明了非常强大的语义理解和对话能力[66,33,81,58,80],深刻地影响了人类的工作和生活。在此基础上,大型视觉语言模型(LVLM)通过映射和对齐视觉和文本特征采取了进一步的步骤,实现了与多模态数据的处理和交互[7,83,63,74]。研究人员发现,LVLM在图像识别、文档解析和OCR处理等一般任务中表现出卓越的性能[72,37,69]。除了探索一般功能外,研究 人员还开始将LVLM应用于各种专业领域,如医疗保健[30,61]、自动驾驶[20,41]和社交媒体内容分析 [50,79]。通过定性和定量方法探索LVLM在专业领域的能力,这些研究已经证明了各种应用潜力。 预印本。正在审查中。 图1:INS-MMBench概述。INS-MMBench在四种保险类型中构建了12个元任务(在内圈表示)和22个基本任务(在外圈表示),以四种主要颜色区分:蓝色,红色,黄色和绿色。对于每个基本任务,我们提供了图像-问题对的示例。 保险,作为一个学科,包括众多的多模式应用场景,涉及广泛使用多模式数据和计算机视觉算法在其实际操作[27,57,77,40]。这为LVLM与保险业的整合提供了巨大的潜力。例如,在汽车保险中,分析受损车辆的图像可以快速评估和准确估计损坏[51]。同样,在财产保险中,分析建筑物的图像可以帮助评估潜在风险[70]。然而,现有的研究[44]仅定性分析了LVLM在保险领域的应用,没有系统地组织相关的多模式任务或构建特定领域的基准。这阻碍了在保险领域对LVLM能力的深入评估和推广。 为了应对这一挑战,我们引入了INS-MMBech,这是保险领域的第一个综合LVLM基准(见图1)。对于任务设计,我们系统地组织和完善了四个具有代表性的保险类型的多模式任务:汽车,财产,健康和农业保险。使用自下而上的分层任务定义方法,我们构造了总共12个元任务和22个基本任务,涵盖了关键的保险阶段,例如承保,风险监控和索赔处理。对于数据收集,我们从多个开源渠道搜索和处理数据集,选择具有高场景相关性 、任务相关性和数据可用性的数据集。对于基准结构,INS-MMBech包括总共2.2K经过精心设计的多项选择视觉问题。这种格式便于对评价结果进行方便和客观的分析。这些问题是手动制定的,干扰者选项是在GPT-4o的帮助下生成的。 此外,我们选择10个LVLM进行评估,并对结果进行综合分析。评估的关键发现如下:(1)GPT-4o在所有模型中表现最好,得分72.91/100。它也是唯一得分超过70分的模型,反映了INS-MMBech的挑战性;(2)LVLM在不同保险类型中的表现存在显着差异,与财产保险和农业保险相比,汽车保险和健康保险的结果更好;(3)LVLM在不同的元任务中表现出明显的性能差异,与任务类型和图像类型密切相关;(4)开源和闭源LVLM之间的差距正在缩小,一些开源模型现在在某些任务中接近甚至超过了闭源模型的能力;(5 )主要原因。 LVLM在INS-MMBench上的错误是缺乏保险领域的知识和理解,以及感知错误。总体而言,我们的工作贡献如下: •我们提出了INS-MMBench,这是保险领域的第一个LVLM基准,其中包括总共2.2K多项选择题视觉问题 ,涵盖了四种保险类型(汽车,财产,健康和农业保险),12个元任务和22个基本任务。 •我们对10个LVLM进行了深入评估,包括7个专有模型和3个开源模型,代表了对LVLM在保险领域能力的首次定量评估。 •Weconductafurtheranalysisoftheevaluationresults,providinginsightstothepotentialapplication-tionsofLVLMintheinsurancedomain.ThisanalysisalsooffersareferenceforunderstandingtheopportunitiesandchallengesassociatedwithLVLMinthissector. 2相关工程 2.1大型视觉语言模型 随着大型语言模型(LLM)[9,66,31]的快速发展,研究人员正在利用这些预先训练的LLM的强大泛化能力来处理和理解多模态数据[73,82,19]。重点关注的关键领域是将大型视觉语言模型(LVLM)用于视觉输入。LVLM采用视觉编码器和视觉到语言适配器来编码来自图像数据的视觉特征并将这些特征与文本特征对齐。然后,组合的特征由预先训练的LLM处理,导致视觉识别和理解的显着进步[74,68]。 各种开源和闭源LVLM不断涌现。在开源模型领域,值得注意的例子包括LLaMA-Adapter[76]、LLaVA [47]、BLIP-2[38]、MiiGPT-4[83]和IterVL[12]。这些模型成功地整合了视觉和文本模式,取得了值得称赞的结果。在闭源领域,代表性的模型包括GPT-4o[53],GPT-4V[2],GemiiProVisio[29]和Qwe-VL[60],所有这些都在许多测试和评估中表现出了出色的性能[72,28,43]。我们打算评估开源和闭源LVLM,以验证不同模型在保险领域的能力。 2.2大型视觉语言模型的基准 随着对LVLM的研究的加强,越来越多的研究人员提出了评估模型能力的基准[73,78,45,11]。根据能力评估的范围,这些研究可以分为三种类型:特定任务基准,综合基准和特定领域基准。 全面的基准代表性研究包括LVLM-eHub[69]、SEED-Bench[37,36]、MMBench[48]、MME和MMT -Bench[75]。 特定于任务的基准专注于特定的任务和视觉数据类型,提供详细的任务定义。示例包括用于科学图像的 SciFIBench[55],用于图表的MMC-Benchmark[46],用于视频的MVBench[39](使用视频帧作为输入 )以及用于网页,图表和地图的SEED-Bench-2-Plus[35]。 特定领域的基准测试专为特定专业领域内的视觉任务而设计。由于这些领域的专业知识和独特任务,通用基准无法完全满足评估这些领域的LVLM的需求。因此,研究人员已经开始为医疗保健(OmiMedVQA [30]),数学[49,62],自动驾驶(Tal2BEV-Bech[20])和地理[56]等领域提出专门的基准。但是,如前所述,保险领域甚至金融领域目前都缺乏相应的特定领域。 LVLM的基准[10,42,44]。我们的工作引入了INS-MMBench来解决这一差距,旨在实现LVLM在保险领域应用的重大进步。 3INS-MMBench 3.1任务 鉴于各险种在实际操作中工作流程的差异,我们选择了四个核心类型来构建这一基准:汽车保险、商业/家庭财产保险、健康保险和农业保险。这些类别既涵盖了保险市场上最普遍、代表性很强的人寿保险和财产保险[65,21]。 图2:我们自下而上的分层任务定义方法的图示。首先,我们识别和分类不同的保险阶段。接下来,我们列举每个阶段所需的关键视觉元素。基于这些关键视觉元素,我们定义基本任务。最后,我们将基本任务聚类以形成元任务。 为了确保我们的评估任务与保险领域的实际应用紧密一致,并在此背景下充分展示LVLM的功能,我们开发了自下而上的分层任务定义方法。使用这种方法,我们构建了专门为保险业量身定制的系统视觉任务框架。例如,我们讨论了汽车保险的详细任务构建过程(见图2)。最初,基于保险价值链理论[23,24],我们选择了富含多式联运数据和任务的三个关键阶段:车辆承保,车辆风险监控和车辆索赔处理。在每个阶段,我们都会确定保险运营商需要提取的关键视觉元素。例如,在车辆承保阶段,运营商必须确认诸如车牌信息,车辆型号,仪表板读数和车辆状况之类的元素,这些元素对于信息收集,状况验证和承保决策至关重要。此外,基于这些关键的视觉元素,我们定义了基本任务。例如,需要提取车牌信息导致了车牌识别任务的定义,而需要监控危险驾驶行为导致了车内驾驶行为检测任务。通过遵循此过程,我们总共定义了汽车保险的九个基本任务。最后,我们根据这些基本任务的特征对它们进行聚类,形成四个元任务。经由过程这一办法,我们构建了跨越四种保险类型的12个元任务和22个根本任务的综合集。 3.2数据集集合 任务定义完成后,我们开始收集数据并构建多选题视觉问题。我们的数据收集和基准构建过程(见图3)如下: 图3:我们的数据收集和基准构建过程的示意图。首先,我们从多个公共来源收集数据集。接下来,我们对数据集进行手动过滤和随机抽样,然后进行必要的数据处理。最后,利用手工劳动和GPT-4o来构造任务问题和多项选择选项,从而创建多项选择视觉问题数据集。 数据源。我们在几个流行的数据源中使用与基本任务相关的关键字搜索数据集,包括Google、Kaggle、Github和Roboflow。对于有多个公共数据集的任务,我们下载并比较这些数据集以执行初步筛选。我们为保险场景选择具有高适应性和可用性的数据集,如表1所示。 数据处理。为了便于LVLM评估,我们将每个基本任务的图像和问题数量设置为100。这100张图像是从我们选择的数据集中随机抽样的,考虑到测试样本类型的平衡,我们对带有分类标签的数据集进行平衡抽样。例如,在车辆损坏严重程度检测任务中,我们确保标签数量-未损坏,轻微损坏,中度损坏和严重损 坏-是平衡的,以保持评估的有效性。同时,我们处理注释内容,将其转换为基于文本的标签,为后续的问答生成做准备。 问题和答案生成。对于每个基本任务,我们设置与任务直接明确相关的问题。例如,车牌识别任务的问题是“图片中车辆的车牌是什么?”问题的选项数量设置为2到4。对于带有yes/o标签的任务,我们将yes /o标签保留为选项。对于其他任务,我们使用GPT-4o模型生成干扰者选项,最后将这些选项组合成多选视觉问题格式。在每个基本任务中,我们都确保正确的期权头寸的平衡分配。 4实验 4.1实验设置 选定的LVLM。我们选择一组具有代表性的10个LVLM进行评估。该组包括七个闭源LVLM:GPT-4o、GPT-4V、GeminiProVision、QwenVLPlus、QwenVLMax、Claude3V_Sonnet和Claude3V_Haiku以及三个开源LVLM,包括LLaVA、BLIP-VL和Qwen-Chat。 表1:IN