您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:大模型基准测试体系研究报告2024 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型基准测试体系研究报告2024

大模型基准测试体系研究报告2024

大模型基准测试体系研究报告 (2024年) 中国信息通信研究院人工智能研究所 人工智能关键技术和应用评测工业和信息化部重点实验室2024年6月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平,指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。 本研究报告首先回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架 ——“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望。面向未来,大模型基准测试仍存在诸多开放性的问题,还需要产学研各界紧密合作,共同建设大模型基准测试标准,为大模型行业健康有序发展提供有力支撑(联系人:韩旭,hanxu5@caict.ac.cn)。 目录 一、大模型基准测试发展概述1 (一)大模型基准测试的重要意义2 (二)蓬勃发展的大模型基准测试4 (三)大模型评测发展共性与差异9 二、大模型基准测试现状分析11 (一)大模型基准测试体系总体介绍11 (二)代表性的大模型基准测试体系17 (三)问题与挑战20 三、大模型基准测试体系框架23 (一)“方升”大模型基准测试体系23 (二)“方升”自适应动态测试方法27 (三)“方升”大模型测试体系实践30 四、总结与展望35 (一)形成面向产业应用的大模型评测体系35 (二)构建超自动化的大模型基准测试平台36 (三)探索AGI等先进人工智能的评测技术36 图目录 图1大模型发展历程1 图2大模型基准测试领域占比分布5 图3大模型基准测试数据集发布时间6 图4大模型基准测试数据集发布机构排名7 图5大模型基准测试数据集发布国家分布8 图6大模型基准测试数据集开源分布9 图7大模型基准测试体系构成11 图8大模型基准测试流程13 图9大模型基准测试工具LLMeBench框架图17 图10大模型评测基准HELM原理图18 图11“方升”大模型基准测试体系24 图12自适应动态测试方法原理图27 图13大模型基准测试标签体系28 图14“方升”大模型首轮试评测模式31 图15开源大模型评测榜单结果33 表目录 表1代表性大模型官方发布结果中使用的评测数据集6 附表1语言大模型通用能力的代表性评测数据集38 附表2语言大模型行业能力的代表性评测数据集39 附表3语言大模型应用能力的代表性评测数据集40 附表4语言大模型安全能力的代表性评测数据集41 附表5多模态大模型通用能力的代表性评测数据集41 一、大模型基准测试发展概述 近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。如图1所示,2018年,谷歌公司提出基于Transformer实现的预训练模型BERT,在机器阅读理解水平测试SQuAD中刷新记录。同年,OpenAI公司发布了第一代生成式预训练模型GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。2022年11月,OpenAI发布的ChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多模态大模型GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等200多个通用和行业大模型产品。 图1大模型发展历程 来源:中国信息通信研究院 随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。1950年代提出的图灵测试(TuringTesting)作为一种经典的人工智能测试方法,一直被认为是衡量机器智能水平的“试金石”。2023年7月《自然(Nature)》发表文章《ChatGPTbroketheTuringtest—theraceisonfornewwaystoassessAI》,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。 大模型基准测试(Benchmark)的目标是通过设计合理的测试任务和数据集来对模型的能力进行全面、量化的评估。大模型基准测试体系涵盖了大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。 (一)大模型基准测试的重要意义 当前,基准测试已赋能大模型“建用管”全生命周期的多个阶段,在大模型研发、应用和管理中扮演重要角色,主要表现在: 一是指引学术研究。过去一年,在ChatGPT的引领下,国内外 的大模型企业也从最初摸索和尝试,逐渐步入研发和应用深水区。大模型研发迭代周期正在缩短,OpenAI在一年时间内先后发布ChatGPT、GPT4、GPT-4V等多款大模型,Meta的LLaMA大模型一经发布便迅速带动了Alpaca、Vicuna等几十个开源大模型,形成“羊驼”开源大模型生态圈。在如此高的迭代频率下,大模型基准测试可以验证模型研发效果,快速挖掘大模型当前的不足与痛点问题,推动大模型能力持续提升。并且,大模型评测不应该是开发流程的终点, 而应该作为起点驱动模型开发。构建以能力提升为目标的评估 (Enhancement-OrientedEvaluation)策略对大模型发展十分重要,建立“开发-部署-应用-测试”的闭环流程将缩短产品迭代周期。 二是指导产品选型。近期,商业公司和研究机构等纷纷推出大模型榜单来对大模型的能力进行排序,大模型“打榜”逐渐成为各界关注的话题。国外大模型榜单OpenLLMLeaderboard使用4个公开数据集对大模型进行综合测评。加州大学伯克利分校借鉴Elo评分系统推出了ChatbotArena,采用众包方式对大模型进行匿名、随机化的对战,得到模型的能力分级。斯坦福大学的AlpacaEval使用强大的语言模型(如GPT-4)对大模型进行评估,提升评测效率。国内的OpenCompass、FlagEval、SuperCLUE、SuperBench等分别发布大模型评测榜单,对中文大模型进行重点评测。大模型能力“榜单”确实能够在一定程度上反映出大模型能力,对于大模型的科学研究和能力提升提供正向借鉴意义。此外,在大模型的实际应用中,大模型的使用方需要综合考虑业务需求、花费成本、系统架构、安全要求等因素进行大模型的产品选型(POC)测试。大模型基准测试利用客观数据集对模型能力进行全面、客观的验证,这已经成为POC测试的主要落地方式,在大模型行业和应用落地中扮演重要角色。 三是支撑行业应用。近期,“人工智能+”行动的开展驱动了大模型在各应用场景中落地。大模型已经在金融、医疗、软件工程、教育、法律、科研、政务、电信、能源、工业、汽车、机器人等行业领域中取得一定的应用成果。同时,面向行业的大模型基准测试也取得 显著进展,目前已推出多种面向行业应用的评测数据集,例如金融领域的FinEval,医疗领域的PubMedQA,软件领域的MBPP、HumanEval等。用户在进行大模型行业应用时,无论通过外部采购或自主研发的方式构建大模型能力,都需要利用基准测试对备选大模型进行量化评估,才能保障大模型的行业应用效果。 四是辅助监管治理。随着大模型性能的不断提升,安全隐患和威胁的阴影始终如达摩克里斯之剑悬在人类头顶。近期,人工智能专家GeoffreyHinton在接受《60分钟》公开采访中表示了对人工智能存在的安全隐患的担忧,并担心人类将会被其接管。目前随着TOXIGEN、CVALUES等数据集推出,对大模型的内容合规评测等已经取得一定进展,但在大模型的诚实性、自主意识和隐私保护等方面仍缺乏高质量基准。大模型基准测试对保障模型内容安全和能力监控发挥重要作用,可以引导其朝着更健康、更安全的方向发展,让大模型的成果惠及全人类。 (二)蓬勃发展的大模型基准测试 据中国信息通信研究院(以下简称“中国信通院”)统计,截止到2023年底,产学研各界已经报道325个大模型基准测试的相关数据集、方法和榜单等研究成果。其中,使用频次较高的评测数据集包括加州大学伯克利分校的MMLU、OpenAI的GSM8K、上海交通大学的C-Eval等;大模型基准测试体系和工具包括美国斯坦福大学的HELM和HEIM、上海AI实验室的OpenCompass、北京智源研究院的FlagEval、ChineseGLUE的SuperCLUE、清华大学的SuperBench 等;大模型评测榜单包括HuggingFace推出的OpenLLMLeaderboard、加州大学伯克利分校的ChatbotArena、斯坦福大学的AlpacaEval等。通过对现有成果进行梳理,观察到如下现象。 6% 7% 语言行业多模态安全其它 21% 53% 13% 一是从测试领域占比来看,如图2所示,由于大语言模型是当前产业应用的主流,因此针对大模型的通用语言类评测数据集最多,占比超过50%,多模态大模型评测数据集数量仅占13%。面向行业类的评测数据集2023年也迎来爆发式发展,其中80%也针对语言类任务构建。而对于模型安全、可靠性和鲁棒性评测的数据集较少,需要持续投入。此外,当前对大模型产业应用效果的评测数据集和方法论相对缺乏,亟需产学研各界重点关注。 来源:中国信息通信研究院 图2大模型基准测试领域占比分布 二是从发布时间来看,2023年不但是大模型的涌现年,也是大模型基准测试的爆发年。如图3所示,仅2023年一年出现的大模型基 准测试数据集的数量远远超过之前5年,达到209个。预计在2024 年,大模型基准测试数据集的数量仍会持续攀升。 250 200 150 100 50 0 2018 2019 2020 2021 2022 2023 年份(年) 数量(个) 来源:中国信息通信研究院 图3大模型基准测试数据集发布时间 三是从大模型基准测试数据集的使用频次来看,如表1所示,通过对GPT-4、LLaMA2、LLaMA3、Gemini、Claudes3、Mixtral8x7B、GLM4等大模型官方发布结果中使用的评测数据集进行统计,MMLU、GSM8K、ARC、HumanEval、Math、BBH、WinoGrande、HellaSwag等基准的使用频次较高,其中大部分为传统的自然语言处理评测数据集,并主要针对大模型的英文能力进行测试。对于多模态大模型,LLaVA-Bench、VisIT-Bench、MMBench等使用较为广泛。 表1代表性大模型官方发布结果中使用的评测数据集 □模模模模模模 GPT-4 LlaMA2 LlaMA3 Gemini Claude3 Mixtral8x7B GLM4 MMLU √ √ √ √ √ √ √ GSM8K √ √ √ √ √ √ ARC √ √ √ √ √ √ HumanEval √ √ √ √ √ √ Math √ √ √ √ √ BBH √ √ √ √ √ WinoGrande √ √ √ √ √ H