中文大模型基准测评2024年上半年报告 —2024年度中文大模型阶段性进展评估 2 0 2 4 . 0 7 . 0 9SuperCLUE团队 精准量化AGI进展,定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 报告核心结论摘要 •国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:OpenAI最新模型GPT-4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。 •国内开源模型崛起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,并且超过了众多国内外闭源模型。 •各任务表现:在文科、理科和Hard任务中,GPT-4o综合最佳,Claude-3.5在Hard任务表现突出,Qwen2-72B在文科任务表现优异。 •端侧小模型表现惊艳:端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。 1.国内大模型关键进展及趋势 •2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图•2023-2024年度国内外大模型技术发展趋势 2. SuperCLUE通用能力测评 •中文大模型基准SuperCLUE介绍•SuperCLUE测评体系及数据集•总榜、理科榜单、文科榜单、Hard榜单及模型象限•开源榜单及端侧小模型榜单•大模型对战胜率、成熟度指数•评测与人类一致性分析 3. SuperCLUE多模态能力测评 •AIGVBench视频生成测评•SuperCLUE-Image文生图测评•SuperCLUE-V多模态理解测评 4. SuperCLUE专项与行业基准测评 •各行业、专项测评•未来两个月基准发布计划 5.优秀模型案例介绍 •优秀模型案例介绍 第1部分 国内大模型关键进展及趋势 1.2023-2024大模型关键进展2.中文大模型全景图3.国内外大模型发展趋势 2023-2024大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 2023-2024年度国内外大模型发展趋势 •2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。 •总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年6月的4.94%。 第2部分 SuperCLUE通用能力测评 1.SuperCLUE介绍2.SuperCLUE综合测评体系及数据集3.国内外大模型总体表现4.子任务测评结果5.SuperCLUE模型象限6.国内大模型历月前三甲7.理科测评结果8.文科测评结果9.Hard测评结果10.开源及端侧小模型总体表现11.大模型对战胜率分布图12.SuperCLUE成熟度指数13.评测与人类一致性验证 SuperCLUE介绍 SuperCLUE三大特征 中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s e L a n g u a g eUnderstanding Evaluation)是致力于科学、客观、中立的语言模型评测 基 准,发 起 于2 0 1 9年 。陆 续 推 出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。 独立第三方测评,非大模型方主导 随 着 国 内 外 大 模 型的 竞 争 日 益 激 烈 , 模 型 开 发 方 主 导 的 评 测 可 能 存 在 偏 向 自 家 产品 的 风 险 。 与 之 形 成 鲜 明 对 比 的 是 ,S u p e r C L U E作 为 一 个 完 全 独 立 的 第 三 方 评测 机 构 , 承 诺 提 供 无 偏 倚 的 客 观 评 测 结 果 。S u p e r C L U E采 用 先 进 的 自 动 化 评 测技 术 , 有 效 消 除 人 为 因 素 带 来 的 不 确 定 性 , 确 保 每 一 项 评 测 都 公 正 无 私 。 SuperCLUE是 大 模 型 时 代C L U E基 准 的 发 展 和 延 续。聚 焦 于 通 用 大 模 型的 综 合 性 测 评 。S u p e r C L U E根 据 多 年 的 测 评 经 验 , 基 于 通 用 大 模 型 在 学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 测评方式与真实用户体验目标一致 不 同 于 传 统 测 评 通 过 选 择 题 形 式 的 测 评 ,S u p e r C L U E目 标 是 与 真 实 用 户 体 验 目标 保 持 一 致 , 所 以 纳 入 了 开 放 主 观 问 题 的 测 评 。 通 过 多 维 度 多 视 角 多 层 次 的 评 测体 系 以 及 对 话 的 形 式 , 模 拟 大 模 型 的 应 用 场 景 , 真 实 有 效 的 考 察 模 型 生 成 能 力 。 “live”更新,测评体系/方法与时俱进 不 同 于 传 统 学 术 领 域 的 评 测 ,S u p e r C L U E根 据 全 球 的 大 模 型 技 术 发 展 趋 势 , 不断 升 级 迭 代 测 评 体 系 、 测 评 维 度 和 方 法 , 以 保 证 尽 可 能 精 准 量 化 大 模 型 的 技 术 演进程 度 。 SuperCLUE大模型综合测评体系 SuperCLUE通用测评基准数据集 为进一步真实反应大模型能力,本次半年度测评采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成。 【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集;【Hard任务】本次测评首次纳入精确指令遵循测评集,另外复杂多步推理和高难度问题解决Hard测评集后续陆续推出。 S u p e r C L U E通 用 基 准 数 据 集 2.逻辑推理 理科 11.精确指令遵循 12.复杂任务多步推理 13.高难度问题处理 Hard SuperCLUE通用能力测评:一级总分 国 内 外 大 模 型 总 体 发 展 态 势 1 .G P T - 4o领 跑 , 国 内 大 模 型 进 展 迅 速 G P T - 4o以8 1分 的 绝 对 优 势 领 跑S u p e r C L U E基 准 测 试 , 是全 球 模 型 中 唯 一 超 过8 0分 的 大 模 型 。 展 现 出 强 大 的 语 言 、 数理 和 指 令 遵 循 能 力 。 国 内 大 模 型 上 半 年 发 展 非 常 迅 速 , 其 中 有6个 国 内 大 模 型 超 过G P T - 4- T u r b o - 0 4 0 9。 绝 大 部 分 闭 源 模 型 已 超 过G P T - 3 . 5 -T u r b o - 0 1 2 5。 2 .国 内 大 模 型 形 成 三 大梯 队 , 头 部 企 业 引 领 发 展 国 内 大 模 型 市 场 形 成 多 梯 队 格 局 , 头 部 企 业 凭 借 快 速 迭 代 、技 术 积 累 或 资 源 优 势 , 引 领 国 内 大 模 型 发 展 。 例 如 大 厂 模 型以 阿 里 的Q w e n 2 - 7 2 B、 商 汤 的S e n s e C h a t 5 . 0等 均 以75 +的分 数 位 居 国 内 大 模 型 第 一 梯 队 。 大 模 型 创 业 公 司 的 代 表 如G L M - 4、B a i c h u a n 4、K i m i、M i n i M a x - a b a b 6 . 5均 有 超 过7 0分 的 表 现 , 位 列 国 内 大 模 型 第一 梯 队 。 3 .开 源 模 型 极 大 发 展 , 有 超 出 闭 源 模 型 趋 势 开 源 模 型Q w e n 2 - 7 2 B在S u p e r C L U E基 准 中 表 现 非 常 出 色 ,超 过 众 多 国 内 外 闭 源 模 型 , 与C l a u d e - 3 . 5持 平 , 与G P T - 4 o仅 差4分 。零 一 万 物 推 出 的Y i - 1 . 5 - 3 4 B在 开 源 领 域 表 现 不 俗 , 有 超 过6 0分 的 表 现 , 较 为 接 近 部 分 闭 源 模 型 。 随 着 技 术 进 步 和 应 用 场 景 拓 展 ,2 0 2 4年 下 半 年 国 内 外 大 模 型 市场 竞 争 将 持 续加 剧 , 推 动 技 术 创 新 和 产 业 升 级 。 SuperCLUE-理科测评说明 示例 SuperCLUE-理科评测数据集 问题: 在一场马拉松比赛中,有四位跑者:艾达、贝特、卡斯和丹尼。他们分别穿着红色、蓝色、绿色和黄色的运动衣,他们的排名是1、2、3和4。以下是你知道的信息:穿红色衣服的跑者排名高于贝特,但低于卡斯。绿色衣服的跑者排名最低。艾达没有穿蓝色衣服,也没有获得第二名。丹尼穿黄色,是第一名。请问,穿红色衣服的是谁?名次是多少? 代码 计算 逻辑推理 HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。 包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。 包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。 回答: •由于丹尼是第一名并且穿黄色衣服,我们可以确定:丹尼=黄色=第一名•由于绿色衣服的跑者排名最低,即第四名,我们可以确定:绿色=第四名•由于艾达没有获得第二名,艾达的可能名次是第一名、第三名或第四名。 测评方法 但因为第一名和第四名已被丹尼和绿色衣服的跑者占据,所以艾达只能是第三名。艾达也没有穿蓝色衣服,所以艾达的衣服颜色只能是红色或黄色,但黄色已被丹尼穿着。所以,我们可以确定:艾达=红色=第三名剩下的贝特和卡斯中,穿红色衣服的跑者排名高于贝特且低于卡斯,这意味着贝特不能穿红色(因为艾达已是红色)。所以贝特只能是第二名,并穿蓝色衣服。卡斯因此是绿色衣服的跑者,并排名第四名。 评 测 流 程 : 我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。 最后整理:丹尼=黄色=第一名;贝特=蓝色=第二名;艾达=红色=第三名;卡斯=绿色=第四名;因此,穿红色衣服的是艾达,名次是第三名。 以【逻辑推理】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。 评价打分: 假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分: 打分与评价开始: 基于标准1的<符合基本要求>;模型回答完整遵循用户意图,清晰整理了已知条件并进行了推理。符合基本要求。得分:5分;基于标准2的<推理准确性>;模型回答的推理大体正确,但有些冗余和推理步骤可以优化,部分步骤显得重复。得分:3分;基于标准3的