行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

弈衡：多模态大模型评测体系白皮书

信息技术 2024-10-12 中国移动我不是奥特曼

多模态大模型评测体系

发展现状：多模态大模型在图像、文本、视频和音频等信息的综合处理能力不断增强，展现出跨模态理解、高精度识别与理解、强大泛化、丰富表达和增强交互等能力，推动人工智能技术在各行业的广泛应用。图文双模态大模型发展尤为迅速，在内容创作、信息检索、智能决策等场景中取得显著成果。

评测需求：由于不同图文大模型在处理应用场景时各有专长，选择适合各行业特定应用需求的模型变得尤为重要。评测需面向不同任务类型，从各个维度进行综合全面的评测，以评估图文大模型的真实性能和用户体验。评测需求包括识别、理解、创作、推理四种任务。

评测挑战：图文大模型的高泛化性对评测任务选取提出挑战；高复杂度对评测数据构建提出更高要求；评价结果的客观性也需要重点考虑。

评测方式：主要包括客观评测和主观评测两种。客观评测利用客观评价指标对图文大模型的生成结果进行定量评估，如准确率、召回率、模型推理时间等；主观评测通过人工打分的方式对图文大模型的预测结果进行评价，主要应用于创作类任务。

评测维度：可分为模型性能、模型泛化能力、模型鲁棒性和模型一致性四个方面。

评测指标：常见指标有准确率、F1值、BLEU、IS指标、CLIP相似度、PSNR、SOA、CIDEr、mAP、IoU、FID、SSIM、RP、碳足迹等。

典型评测体系：MMBench、OCRBench、智源评测体系、LLaVA-Bench、VisIT-Bench、SEED-Bench、ConBench等。

“弈衡”评测体系：采用“2-4-6”层级架构，包含2类评测场景（基础任务和应用任务）、4项评测要素（评测方式、评测指标、评测数据、评测工具）以及6种评测维度（功能性、准确性、可靠性、安全性、交互性、应用性）。

评测场景：基础任务主要关注图文结合的各类通用任务场景，应用任务则着重考察模型在特定领域和场景下的泛化能力。

评测要素：

评测方式：包括零样本、单样本、少样本以及提示工程等评测方式，以及客观评测和主观评价两种测试结果判断方式。
评测指标：分为客观类指标（如准确率、召回率、实时性等）和主观类指标（如图片美观性、逻辑正确性等）。
评测数据：需遵循丰富性、公平性和准确性原则，分别面向基础任务和应用任务探索评测数据构造策略。
评测工具：“弈衡”大模型评测平台，提供数据与模型管理、评测流程管理、结果分析与展示等功能。

评测维度：

功能性：关注任务丰富度、多模态能力和支持完备度。
准确性：关注模型执行各类任务的性能，根据任务类型选择合适的评价指标。
可靠性：关注抗噪声能力和输出结果的一致性。
安全性：考察生成结果的毒害性和公平性，包括歧视偏见、内容毒性、违规违法等。
交互性：关注用户使用图文大模型时的交互体验，包括实时性、连续性、丰富性和规范性等。
应用性：关注产品或系统在现实应用场景中的部署、运维、支撑能力和使用效果。

未来展望：评测技术的研究重点可能聚焦于针对特定业务场景开展评测和跟踪技术演进优化评测体系。

中国移动“弈衡”评测体系的意义：为中国移动工业、政务、金融、交通、安全等十余个行业大模型的全面客观评测提供标准基线，助力中国移动AI+重塑千行百业；为业界大模型评测提供参考依据，推动国产大模型产业成熟和落地应用。

发布单位：中移智库编制单位：中国移动通信研究院 ...................................................................................................................................................1..............................................................................................................31.1多模态大模型发展现状.....................................................................................................31.2评测需求.............................................................................................................................41.3评测问题与挑战.................................................................................................................5..............................................................................................................72.1主要评测方式.....................................................................................................................72.2典型评测维度.....................................................................................................................72.3常见评测指标.....................................................................................................................8...................................................................................................10...........................................................................................134.1整体框架...........................................................................................................................134.2评测场景...........................................................................................................................144.3评测要素...........................................................................................................................164.4评测维度...........................................................................................................................22............................................................................................................25...........................................................................................................................................27 随着人工智能技术的迅猛发展，它已成为全球科技革命的核心驱动力。特别是2017年Transformer模型提出后，人工智能大模型以超凡的性能和无限的可能性，迅速成为科技界的焦点。2023年初，GPT-4[1]的问世更是在全球范围内引起了巨大反响，标志着大模型技术首次进入公众视野[2]。随着大模型技术的不断演进，其处理能力已从单一的文字信息扩展至图像、语音等多模态数据，多模态大模型进入快速发展阶段。它们不仅在日常生活中的辅助作画、图片解读等场景中展现出应用潜力，更在视频数据分析、多目标识别等生产领域发挥着重要作用。目前典型的多模态大模型有国外的GPT-4Vision、Gemini，国内的文心一言、讯飞星火、智谱清言等[3]。这些大模型算法各异，在不同的任务场景下各有优劣，如何对这些多模态大模型开展客观、科学的评测，评估特定任务场景下的最优选择，对大模型的研发迭代以及应用落地都具有重要意义。相比于语言类大模型，多模态大模型具备对文本、图像、视频和音频等数据进行综合处理的能力，在生产生活领域中具有广泛的应用前景。同时，多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。如何应对上述挑战，构建全面、客观的多模态大模型评测体系，成为业界关注的热点问题。目前，部分业界企业和研究机构，如微软、谷歌、智源研究院、上海AI实验室、腾讯优图实验室、厦门大学、南洋理工大学等，发布了相关论文、评测报告，从性能、参数量等维度对业界主流多模态大模型进行了评测，并基于评测结果形成了榜单，如MMbench、MME等。为提升多模态大模型的实际应用效果，推动大模型与生产生活的快速结合，有必要从用户视角出发，构建一套客观全面、公平公正的多模态大模型评测体系。中国移动技术能力评测中心作为中国移动的第三方专业评测机构，联合业界权威机构、头部企业，攻关多模态大模型评测难点技术，基于前期评测数据和评测经验积累构建“弈衡”多模态大模型评测体系，并编制本白皮书，旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准，为评测数据和评测工具的构建提供参考指导。本白皮书聚焦于文生图、图生文、图文理解等各类应用场景，深入分析多模态大模型的应用需求，系统总结行业典型评测体系，并创新地提出“弈衡”多模态大模型评测体系，助力大模型技术与行业应用的深度融合。具体包括如下四方面内容：一是总结梳理多模态大模型的应用需求与评测挑战，将评测需求划分为识别、理解、创作、推理四种任务；二是广泛调研业界多模态大模型评测技术和评测体系，从评测方式、评测维度和评测指标等方面进行分析总结；三是提出“弈衡”多模态大模型“2-4-6”评测框架，针对图文双模态大模型，详细阐述基础任务和应用任务两大评测场景，评测指标、评测数据等四大评测要素，以及功能性、准确性、交互性、安全性等六大评测维度；四是针对多模态大模型演进趋势，展望评测技术重点方向。未来，中国移动将持续跟进多模态大模型发展，不断优化“弈衡”多模态大模型评测体系，与业界合作伙伴一道，共同打造评测产业标准化生态，推动多模态大模型产业成熟和落地应用，为AI+赋能千行百业贡献力量。 1.1多模态大模型发展现状随着人工智能技术的快速发展，多模态大模型对图像、文本、视频和音频等信息的综合处理能力不断增强，其跨模态理解能力、高精度识别与理解能力、强大的泛化能力、丰富的表达能力、增强的交互体验，进一步推动了人工智能技术在各行业的广泛应用[4]，成为推动产业升级与生产力变革的强大引擎。目前，多模态大模型正在迅速融入到各行业的应用场景中，服务于生产生活的各方面。多模态大模型在多个领域的典型应用如下：多模态大模型中，图文双模态大模型发展尤为迅速，它在处理图像与文本及其复杂交互关系上取得了显著成果，为内容创作、信息检索、智能决策等多个应用场景带来了革命性的变化，应用范围不断拓宽，影响力日益增强。鉴于图文双模态大模型的重要性和广泛应用前景，本白皮书主要聚焦图文大模型评测，深入分析评测需求以及面临的问题和挑战，系统讨论关键评测技术，旨在为业界提供一套科学、系统、可操作的图文双模态大模型评测框架，促进技术的健康发展与广泛应用，进一步加速人工智能技术在各行各业的深度融合与创新实践。 1.2评测需求图文大模型相较于传统视觉模型和大语言模型，在图像识别、图文深度理解与推理以及图片创作等复杂图文交互任务中展现出了显著的优势。由于不同图文大模型在处理应用场景时各有专长，因此选择适合各行业特定应用需求的模型变得尤为重要。在对图文大模型进行评测时，需面向不同任务类型，从各个维度进行综合全面的评测，以评估图文大模型的真实性能和用户体验。目前，对图文大模型的评测需求包括但不限于以下几类任务：识别类任务：识别类任务主要是指对图片中的特定事物进行识别、计数等工作。识别类任务主要可分为基础任务和应用任务两类。其中基础任务包含实例识别、颜色识别、手势识别、目标检测等基础场景；应用任务则包含商品识别、垃圾满溢识别、道路安全识别、智慧养殖等更加复杂的端到端场景。识别类任务作为目前最广泛应用的任务之一，是衡量图文大模型性能的重要场景，具有极高的评测价值。在评测识别类任务时，需着重关注模型的准确性、鲁棒性、实时性和泛化能力等指标。理解类任务：理解类任务主要是指针对输入图片进行内容理解，并回答对应问题。理解类任务也可分为基础类及应用类两种。基础类理解任务侧重于考察图文大模型的通用能力，而不过分强调某一特定应用场景中的实际能力。常见的基础类任务包含场景理解、实例属性、空间关系、字幕匹配、图像质量分析等底层核心场景；而应用类任务则着重考察图文大模型在专一领域的实际能力，与目前具有智能化需求的场景结合更加紧密，如活体检测、人像属性、人脸属性、口罩检测、舞蹈艺考评分等。理解类任务相较识别类任务，不仅仅考察模型对某一特定事物的特征识别能力，更要求图文大模型对图像整体场景及各事物之间关系进行精准把控，并依据提问内容进行匹配跟踪，相较识别任务难度更大。在评测理解类任务时，需着重关注模型的准确性、上下文感知、通用性与专一性以及语义一致性等指标。创作类任务：创作类任务主要是指通过给定的文字或图像提示信息进行图片创作或图像修改。常见的创作类任务包含图像生成、图像风格转换、图像合成等，图文大模型根据要求生成相应图片，图片需要在美观上符合人类需求，在逻辑上符合基本的事物原理，在匹配度上完全实现提示词或提示图片中的内容要求。创作类任务综合考察了图文大模型的文字图像理解和图像创作能力，是目前应用最为广泛关注度最高的任务之一。在评估创作类任务时，需着重关注模型的生成质量、内容匹配度、多样性和创新性等各项指标。推理类任务：推理类任务主要是指结合输入的图像和文本信息，进行逻辑推理、归纳推理或演绎推理等。推理类任务着重考察图文大模型对图片内容中涉及的各类逻辑知识进行理解、推

点击免费查看完整报告

弈衡：多模态大模型评测体系白皮书

多模态大模型评测体系

你可能感兴趣

『弈衡』多模态大模型评测体系白皮书

“弈衡”通用大模型评测体系白皮书

高东辉：中国移动“弈衡”大模型评测体系

中国移动“弈衡”大模型评测体系研究及技术发展趋势洞察

『弈衡』人工智能大模型评测平台白皮书

2024营销大模型评测白皮书

计算中心有效算力评测体系白皮书（2022.7）

云计算行业-计算中心有效算力评测体系白皮书

文本价值觉醒赋能智能决策——多模态大模型文本智能白皮书

2024军事大模型评估体系白皮书