热门搜索：

INS MMBench ：评测 LVLMs 保效果的合基准（汉）

信息技术2024-06-25Chenwei Lin、Hanjia Lyu、Xian Xu、Jiebo Luo-张***

AI智能总结

报告主要介绍了INS-MM Bench基准，这是一个针对保险行业的首个全面的大型视觉语言模型（LVLM）评估基准。基准包含2,200个经过精心设计的多项选择题，覆盖了12个元任务和22个基本任务，涉及汽车保险、财产保险、健康保险和农业保险四个主要保险类型。研究团队通过对比多个代表性的LVLM模型（包括GPT-4o、BLIP-2等）在该基准上的表现，揭示了LVLM在保险领域的应用潜力及其面临的挑战。

关键点如下：

基准设计：基准基于自下而上的分层任务定义方法，旨在确保任务与保险领域的实际应用紧密相关。共构建了12个元任务和22个基本任务，涵盖从车辆承保到索赔处理的保险业务全流程。
数据集：数据集通过多源收集，包括Google、Kaggle、GitHub和Roboflow等平台，确保了与任务高度相关性和可用性。数据处理过程中确保了任务类型间的平衡，如在车辆损坏检测任务中，确保不同损坏程度的图片均衡抽取。
评估方法：使用VLMEvalKit工具包进行评估，该工具支持闭源和开源模型的集成测试，并提供两种评估方法：精确匹配和基于大型语言模型的答案提取。
评估结果：GPT-4o在所有模型中表现最佳，得分72.91/100，是唯一得分超过70分的模型，显示出其在保险领域应用的挑战性。结果还显示了LVLM在不同保险类型和元任务上的性能差异，开源和闭源模型之间的性能差距在缩小，但仍有显著差异。
错误分析：LVLM的主要错误类型包括感知错误（无法识别或检测图像中的对象）、缺乏保险领域的知识或推理能力（能够识别视觉内容，但缺乏必要的保险知识）以及拒绝回答（模型拒绝回答问题）。
贡献：INS-MM Bench的引入旨在促进LVLM在保险领域的进一步应用和发展，为未来研究提供了坚实的基础。

这项研究不仅验证了LVLM在保险领域应用的有效性，也为未来在特定领域开发更专业化和针对性的LVLM模型提供了方向。

INS-MMBench：评估LVLM在保险方面表现的综合基准林晨伟复旦大学韩佳Lyu 罗切斯特大学 XianXu 复旦大学罗杰波罗切斯特大学 arXiv:2406.09105v1[cs.CV]2024年6月13日 Abstract 大型视觉语言模型（LVLM）在各种通用多模态应用（如图像识别和视觉推理）中表现出了出色的性能，并且在特定领域也显示出了有希望的潜力。然而，LVLM在保险领域的应用潜力——以丰富的应用场景和丰富的多模态数据为特征——尚未得到有效挖掘。没有对保险领域的多模式任务进行系统审查，也没有专门设计用于评估LVLM在保险中的能力的基准。这种差距阻碍了LVLM在保险领域的发展。在本文中，我们系统地回顾和提炼出四个具有代表性的保险类型的多模式任务：汽车保险，财产保险，健康保险和农业保险。我们提出INS-MMBech，这是第一个为保险领域量身定制的全面LVLM基准。INS-MMBech总共包含2.2K精心设计的多项选择题，涵盖12个元任务和22个基本任务。此外，我们评估了多个代表性的LVLM，包括GPT-4o等闭源模型和BLIP-2等开源模型。此评估不仅验证了我们基准的有效性，而且还提供了对当前LVLM在保险领域各种多式联运任务上的深入性能分析。我们希望INS-MMBech将促进LVLM在保险领域的进一步应用，并激发跨学科的发展。我们的数据集和评估代码可在。https://github.com/FDU-INS/INS-MMBench. 1Introduction 近年来，大型语言模型（LLM）已经证明了非常强大的语义理解和对话能力[66，33，81，58，80]，深刻地影响了人类的工作和生活。在此基础上，大型视觉语言模型（LVLM）通过映射和对齐视觉和文本特征采取了进一步的步骤，实现了与多模态数据的处理和交互[7，83，63，74]。研究人员发现，LVLM在图像识别、文档解析和OCR处理等一般任务中表现出卓越的性能[72,37,69]。除了探索一般功能外，研究人员还开始将LVLM应用于各种专业领域，如医疗保健[30,61]、自动驾驶[20,41]和社交媒体内容分析 [50,79]。通过定性和定量方法探索LVLM在专业领域的能力，这些研究已经证明了各种应用潜力。预印本。正在审查中。图1：INS-MMBench概述。INS-MMBench在四种保险类型中构建了12个元任务（在内圈表示）和22个基本任务（在外圈表示），以四种主要颜色区分：蓝色，红色，黄色和绿色。对于每个基本任务，我们提供了图像-问题对的示例。保险，作为一个学科，包括众多的多模式应用场景，涉及广泛使用多模式数据和计算机视觉算法在其实际操作[27，57，77，40]。这为LVLM与保险业的整合提供了巨大的潜力。例如，在汽车保险中，分析受损车辆的图像可以快速评估和准确估计损坏[51]。同样，在财产保险中，分析建筑物的图像可以帮助评估潜在风险[70]。然而，现有的研究[44]仅定性分析了LVLM在保险领域的应用，没有系统地组织相关的多模式任务或构建特定领域的基准。这阻碍了在保险领域对LVLM能力的深入评估和推广。为了应对这一挑战，我们引入了INS-MMBech，这是保险领域的第一个综合LVLM基准（见图1）。对于任务设计，我们系统地组织和完善了四个具有代表性的保险类型的多模式任务：汽车，财产，健康和农业保险。使用自下而上的分层任务定义方法，我们构造了总共12个元任务和22个基本任务，涵盖了关键的保险阶段，例如承保，风险监控和索赔处理。对于数据收集，我们从多个开源渠道搜索和处理数据集，选择具有高场景相关性、任务相关性和数据可用性的数据集。对于基准结构，INS-MMBech包括总共2.2K经过精心设计的多项选择视觉问题。这种格式便于对评价结果进行方便和客观的分析。这些问题是手动制定的，干扰者选项是在GPT-4o的帮助下生成的。此外，我们选择10个LVLM进行评估，并对结果进行综合分析。评估的关键发现如下：（1）GPT-4o在所有模型中表现最好，得分72.91/100。它也是唯一得分超过70分的模型，反映了INS-MMBech的挑战性；（2）LVLM在不同保险类型中的表现存在显着差异，与财产保险和农业保险相比，汽车保险和健康保险的结果更好；（3）LVLM在不同的元任务中表现出明显的性能差异，与任务类型和图像类型密切相关；（4）开源和闭源LVLM之间的差距正在缩小，一些开源模型现在在某些任务中接近甚至超过了闭源模型的能力；（5 ）主要原因。 LVLM在INS-MMBench上的错误是缺乏保险领域的知识和理解，以及感知错误。总体而言，我们的工作贡献如下： •我们提出了INS-MMBench，这是保险领域的第一个LVLM基准，其中包括总共2.2K多项选择题视觉问题，涵盖了四种保险类型（汽车，财产，健康和农业保险），12个元任务和22个基本任务。 •我们对10个LVLM进行了深入评估，包括7个专有模型和3个开源模型，代表了对LVLM在保险领域能力的首次定量评估。 •Weconductafurtheranalysisoftheevaluationresults,providinginsightstothepotentialapplication-tionsofLVLMintheinsurancedomain.ThisanalysisalsooffersareferenceforunderstandingtheopportunitiesandchallengesassociatedwithLVLMinthissector. 2相关工程 2.1大型视觉语言模型随着大型语言模型（LLM）[9，66，31]的快速发展，研究人员正在利用这些预先训练的LLM的强大泛化能力来处理和理解多模态数据[73，82，19]。重点关注的关键领域是将大型视觉语言模型（LVLM）用于视觉输入。LVLM采用视觉编码器和视觉到语言适配器来编码来自图像数据的视觉特征并将这些特征与文本特征对齐。然后，组合的特征由预先训练的LLM处理，导致视觉识别和理解的显着进步[74，68]。各种开源和闭源LVLM不断涌现。在开源模型领域，值得注意的例子包括LLaMA-Adapter[76]、LLaVA [47]、BLIP-2[38]、MiiGPT-4[83]和IterVL[12]。这些模型成功地整合了视觉和文本模式，取得了值得称赞的结果。在闭源领域，代表性的模型包括GPT-4o[53]，GPT-4V[2]，GemiiProVisio[29]和Qwe-VL[60]，所有这些都在许多测试和评估中表现出了出色的性能[72，28，43]。我们打算评估开源和闭源LVLM，以验证不同模型在保险领域的能力。 2.2大型视觉语言模型的基准随着对LVLM的研究的加强，越来越多的研究人员提出了评估模型能力的基准[73，78，45，11]。根据能力评估的范围，这些研究可以分为三种类型：特定任务基准，综合基准和特定领域基准。全面的基准代表性研究包括LVLM-eHub[69]、SEED-Bench[37,36]、MMBench[48]、MME和MMT -Bench[75]。特定于任务的基准专注于特定的任务和视觉数据类型，提供详细的任务定义。示例包括用于科学图像的 SciFIBench[55]，用于图表的MMC-Benchmark[46]，用于视频的MVBench[39]（使用视频帧作为输入）以及用于网页，图表和地图的SEED-Bench-2-Plus[35]。特定领域的基准测试专为特定专业领域内的视觉任务而设计。由于这些领域的专业知识和独特任务，通用基准无法完全满足评估这些领域的LVLM的需求。因此，研究人员已经开始为医疗保健（OmiMedVQA [30]），数学[49，62]，自动驾驶（Tal2BEV-Bech[20]）和地理[56]等领域提出专门的基准。但是，如前所述，保险领域甚至金融领域目前都缺乏相应的特定领域。 LVLM的基准[10，42，44]。我们的工作引入了INS-MMBench来解决这一差距，旨在实现LVLM在保险领域应用的重大进步。 3INS-MMBench 3.1任务鉴于各险种在实际操作中工作流程的差异，我们选择了四个核心类型来构建这一基准：汽车保险、商业/家庭财产保险、健康保险和农业保险。这些类别既涵盖了保险市场上最普遍、代表性很强的人寿保险和财产保险[65，21]。图2：我们自下而上的分层任务定义方法的图示。首先，我们识别和分类不同的保险阶段。接下来，我们列举每个阶段所需的关键视觉元素。基于这些关键视觉元素，我们定义基本任务。最后，我们将基本任务聚类以形成元任务。为了确保我们的评估任务与保险领域的实际应用紧密一致，并在此背景下充分展示LVLM的功能，我们开发了自下而上的分层任务定义方法。使用这种方法，我们构建了专门为保险业量身定制的系统视觉任务框架。例如，我们讨论了汽车保险的详细任务构建过程（见图2）。最初，基于保险价值链理论[23，24]，我们选择了富含多式联运数据和任务的三个关键阶段：车辆承保，车辆风险监控和车辆索赔处理。在每个阶段，我们都会确定保险运营商需要提取的关键视觉元素。例如，在车辆承保阶段，运营商必须确认诸如车牌信息，车辆型号，仪表板读数和车辆状况之类的元素，这些元素对于信息收集，状况验证和承保决策至关重要。此外，基于这些关键的视觉元素，我们定义了基本任务。例如，需要提取车牌信息导致了车牌识别任务的定义，而需要监控危险驾驶行为导致了车内驾驶行为检测任务。通过遵循此过程，我们总共定义了汽车保险的九个基本任务。最后，我们根据这些基本任务的特征对它们进行聚类，形成四个元任务。经由过程这一办法，我们构建了跨越四种保险类型的12个元任务和22个根本任务的综合集。 3.2数据集集合任务定义完成后，我们开始收集数据并构建多选题视觉问题。我们的数据收集和基准构建过程（见图3）如下：图3：我们的数据收集和基准构建过程的示意图。首先，我们从多个公共来源收集数据集。接下来，我们对数据集进行手动过滤和随机抽样，然后进行必要的数据处理。最后，利用手工劳动和GPT-4o来构造任务问题和多项选择选项，从而创建多项选择视觉问题数据集。数据源。我们在几个流行的数据源中使用与基本任务相关的关键字搜索数据集，包括Google、Kaggle、Github和Roboflow。对于有多个公共数据集的任务，我们下载并比较这些数据集以执行初步筛选。我们为保险场景选择具有高适应性和可用性的数据集，如表1所示。数据处理。为了便于LVLM评估，我们将每个基本任务的图像和问题数量设置为100。这100张图像是从我们选择的数据集中随机抽样的，考虑到测试样本类型的平衡，我们对带有分类标签的数据集进行平衡抽样。例如，在车辆损坏严重程度检测任务中，我们确保标签数量-未损坏，轻微损坏，中度损坏和严重损坏-是平衡的，以保持评估的有效性。同时，我们处理注释内容，将其转换为基于文本的标签，为后续的问答生成做准备。问题和答案生成。对于每个基本任务，我们设置与任务直接明确相关的问题。例如，车牌识别任务的问题是“图片中车辆的车牌是什么？”问题的选项数量设置为2到4。对于带有yes/o标签的任务，我们将yes /o标签保留为选项。对于其他任务，我们使用GPT-4o模型生成干扰者选项，最后将这些选项组合成多选视觉问题格式。在每个基本任务中，我们都确保正确的期权头寸的平衡分配。 4实验 4.1实验设置选定的LVLM。我们选择一组具有代表性的10个LVLM进行评估。该组包括七个闭源LVLM：GPT-4o、GPT-4V、GeminiProVision、QwenVLPlus、QwenVLMax、Claude3V_Sonnet和Claude3V_Haiku以及三个开源LVLM，包括LLaVA、BLIP-VL和Qwen-Chat。表1：IN

点击免费查看完整报告