SuperBench大模型综合能力评测报告 (2024年3月) SuperBench团队 大模型能力重点迁移历程 2021年-2023年 随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。 2023年-2024年 基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。 语义 对齐 安全 2018年-2021年 代码 2022年-2023年 智能体 2023年-future 早期的语言模型主要关注自然语言的理解任务(e.g.分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、GPT、T5等。 随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。 随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI可持续发展”的关键问题。 大模型评测原则标准 大模型评测的必要性 动态性 要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真 开放性 在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题 大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。 优质大模型评测的标准 权威性 评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰 科学性 大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需要科学研究的支撑 目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。 SuperBench评测模型列表 本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下: 模型所属机构调用方式说明 GPT-4TurboOpenAI API gpt-4-0125-preview GPT-4网页版OpenAI 网页 GPT-4官方网页 Claude-3Anthropic API AnthropicClaude-3-opus-20240229API GLM-4智谱华章 API GLM-4开放平台API Baichuan3网页版百川智能 网页 Baichuan3官方网页 KimiChat网页版月之暗面 网页 KimiChat官方网页 Abab6稀宇科技 API MiniMax开放平台Abab6API 文心一言4.0百度 API 百度千帆平台Ernie-bot-4API 通义千问2.1阿里巴巴 API 通义千问qwen-max-longcontextAPI qwen1.5-72b-chat阿里巴巴 API 通义千问开源qwen1.5-72b-chat qwen1.5-14b-chat阿里巴巴 API 通义千问开源qwen1.5-14b-chat 讯飞星火3.5科大讯飞 API 讯飞SparkDesk-v3.5API 云雀大模型字节跳动 API 火山引擎skylark2-pro-4kv1.2API Yi-34b-chat零一万物 API Yi开源Yi-34b-chat模型 *注:评测过程中我们发现部分网页版模型性能高于官方API SuperBench介绍 评测框架 评测流程 评测数据 大模型 评测 提问 待评测模型 获取回复 评测工具 评测平台 评测规则/评测模型 裁判模型检测算法 基准数 据集 ExtremeGLUENaturalCodeBenchAlignBenchAgentBenchSafetyBench SuperBench能力评测报告 评测 评测结果 优势 开放性 SuperBench评测数据集结合开源数据集与闭源数据集,后续版本将推出公开的验证集与封闭的测试集,既有助于模型优化,又防止刷题。 SuperBench简介 动态性 SuperBench将定期发布评测结果与报告,每个周期刷新评测数据集的题目与类型,以避免静态考题导致的过拟合现象,可以有效防止作弊。 SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布,致力于为大模型领域提供客观、科学的评测标准,促进大模型技术、应用和生态的健康发展。 发中处于领先位置。基于公正、公 科学性 SuperBench团队基于公平、公正、公开的原则,专门设计了一整套评测体系,包含五大原生评测基准、并在此基础上构建了SuperBench检测平台,研发了裁判模型CritiqueLLM等在内的自研评测算法,确保评 测结果科学可靠。 SuperBench团队具有多年的大模型研究经验,在大模型核心技术研 平、公开的原则,设计了大模型评测框架,推出了多个测试基准数据集,并开发了多个评测工具。 权威性 SuperBench由清华大学和中关村实验室联合发布,为独立的第三方非盈利性评测机构,评测体系公开透明,评测过程可追溯。 SuperBench评测体系-评测数据集 SuperBench评测数据集涵盖语义、对齐、代码、智能体和安全五大类,28个子类 包含ExtremeGLUE(语义)、NaturalCodeBench(代码)、AlignBench(对齐)、AgentBench(智能体)和SafetyBench(安全)五个基准数据集。 语义 代码 对齐 智能体 安全 对大模型语义理解维度进行多方面的评估 阅读理解 数学计算 知识掌握:科学类知识掌握:常识类 对模型的代码能力进行多方面的评估,包括基础编程、算法逻辑和多语言代码生成与翻译 python(user) java(user) 全面评测大模型在中文领域与人类意图的对齐度,衡量模型的指令遵循和有用性 逻辑推理 数学计算 基本任务中文理解综合问答文本写作角色扮演专业能力 在多个环境下,测试大模型作为智能体的能力 操作系统 数据库知识图谱 情景猜谜具身智能 网上购物网页浏览 评估大模型的安全性、隐私保护和向善性等 攻击冒犯 偏见歧视隐私财产 身体健康心理健康 违法活动伦理道德 数学计算 数学计算能力评估语言模型解数学题的表现。中文数据如gsm8k、aqua-rat和numglue的翻译版,以及大规模的ape-210k和高难度的agieval中的sat-math和MATH。英文数据包括aqua_rat、math_qa、sat-math以及针对通用问题的gsm8k、numglue和大规模的ape_210k。 知识掌握:常识类 常识类知识任务测试模型对日常常识的应用。英文数据如BBH的因果、日期理解和电影推荐,以及SWAG的情境理解。中文则使用BBH三个数据集的翻译和特修改版的CMRC2018,直接依靠常识回答问题。 SuperBench评测体系-语义理解能力 大语言模型评测数据集 评测方法示例 语义 代码 对齐 智能体 安全 评测方法&流程 •评测方式:收集了72个中英双语传统数据集,提取其中高难度的题目组成4个维度的评测数据集,采取零样本cot评测方式,各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值 •评测流程:根据不同题目的形式和要求,对于模型的零样本cot生成的结果进行评分 •问题: 小花妈妈打算将20000元定期存入银行3年,如果按年利率 3.69%计算,到期时小花妈妈实际的本息共有多少元?(另记利息税10%) •回答: 21992.6 •打分原则: 与答案数值绝对误差小于0.001则得分,否则不得分 ExtremeGLUE是一个包含72个中英双语传统数据集的高难度集合,旨在为语言模型提供更严格的评测标准,采用零样本cot评测方式,并根据特定要求对模型输出进行评分。我们首先使用了超过20种语言模型进行初步测试,包括了gpt4、claude、vicuna、wizardlm和chatGLM等。我们基于所有模型的综合表现,决定了每个分类中挑选出难度最大的10%~20%数据,将它们组合为"高难度传统数据集"。 阅读理解 阅读理解任务测试模型对文本的理解。英文数据来自“race”(中学阅读理解)和 “super_gluemultirc”(句子级多选,强调推理)。中文数据则包括“cail”(法律问题与答案)、“dcrd”(定义性问题)和“webqa”(基于网页的问题-答案对)。 知识掌握:科学类 科学类知识任务评估模型在科学领域的理解与应用。英文数据涵盖自然科学至医学,如ARC、openbookqa等。中文部分采用这些英文数据集的翻译版。 SuperBench评测结果-语义理解能力 整体表现:在语义理解能力评测中,各模型形成了三个梯队,70分档为第一梯队,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型;其中Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0则超过GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。 分类表现: •知识-常识:Claude-3以79.8分领跑,国内模型GLM-4表现亮眼,超过GPT-4网页版位居第二;文心一言4.0表现不佳,距离榜首Claude-3有12.7分差距。 •知识-科学:Claude-3依然领先,并且是唯一一个80分以上模型;文心一言4.0、GPT-4系列模型以及GLM-4模型均在75分以上,为第一梯队模型。 •数学:Claude-3和文心一言4.0并列第一,得65.5分,GLM-4领先GPT-4系列模型位列第三,其他模型得分在55分附近较为集中,当前大模型在数学能力上仍有较大提升空间。 •阅读理解:各分数段分布相对较为平均,文心一言4.0超过GPT-4Turbo、Claude-3以及GLM-4拿下榜首。 Claude-3GLM-4 文心一言4.0GPT-4网页版GPT-4Turbo qwen1.5-72b-chatKimiChat网页版 各大模型语义理解能力表现 76.7 73.7 73.0 72.0 70.4 67.6 64.1 各大模型语义理解能力分类表现 Abab6Baichuan3网页版 通义千问2.1qwen1.5-14b-chat 云雀大模型Yi-34b-chat讯飞星火3.5 55.0 53.4 63.2 60.8 60.5 60.2 60.2 knowledge- knowledge- math reading- common science comprehension Claude-3 79.8 80.6 65.5 80.8 GLM-4 77.3 75.2 61.6 80.8 文心一言4.0 67.1 77.3 65.5 82.2 GP