您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE团队]:中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估 - 发现报告

中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

2024-11-11SuperCLUESuperCLUE团队惊***
AI智能总结
查看更多
中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

—2024年度中文大模型阶段性进展评估 2 0 2 4 . 1 1 . 0 8SuperCLUE团队 报告核心结论摘要 •OpenAI发布o1后,全球大模型竞争加剧 o1-preview的推出进一步拉大了与其他模型的差距。经测评,目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力,但与o1-preview在中文难任务(Hard任务)上相差约为14%,在中文通用能力上相差约8%。 •国内大模型第一梯队竞争激烈,持续迭代表现不俗 国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型,最新发布的TeleChat2-35B同样表现出色,超过了国内外众多开源模型;国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。 •国内外大模型在不同任务上表现各有优势 国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越,有较大领先性,国内大模型则更擅长理科和文科任务。 •端侧小模型表现惊艳 国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-1.5B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。 1.国内大模型关键进展及趋势 •2 0 2 3 - 2 0 2 4年 大 模 型 关 键 进 展•2 0 2 4年 值 得 关 注 的 中 文大 模 型 全 景 图•2 0 2 3 - 2 0 2 4年 度 国 内 外 大 模 型 技 术 发 展 趋 势 2. SuperCLUE通用能力测评 •中 文 大 模 型 基 准S upe r C L U E介 绍•S upe r C L U E测 评 体 系 及 数 据 集•总 榜 、 理 科 榜 单 、 文 科 榜 单 、H a r d榜 单 及 模 型 象 限•开 源 榜 单 及 端 侧 小 模 型 榜 单•大 模 型 对 战 胜 率 、 成 熟 度 指 数•评 测 与 人 类 一 致 性 分 析 3. SuperCLUE-AI产品能力测评 •S upe r C L U E - C od er代 码 助 手 产 品测 评•S upe r C L U E - A IS e a r c h搜 索 产 品测 评•S upe r C L U E - V oic e实 时 语 音 产 品 测 评 4. SuperCLUE多模态能力测评 •S upe r C L U E - V多 模 态 理 解 测 评•A IG V B e nc h视 频 生 成 测 评•S upe r C L U E - Im a g e文 生 图 测 评 5. SuperCLUE专项与行业基准测评 •各 行 业 、 专 项 测 评•未 来 两 个 月 基 准 发 布 计 划 6.优秀模型案例介绍 •优 秀 模 型 案 例 介 绍 精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 第1部分 国内大模型关键进展及趋势 1.2023-2024年大模型关键进进展2.2024年值得关注的中文大模型全景图3.2023-2024年度国内外大模型技术发展趋势 2023-2024大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为四个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)、繁荣期(更多模态能力的延伸和应用)。 •OpenAI发布Sora、GPT-4o、o1;Gemini-1.5、Claude3.5、Grok2、Llama3等发布。•Gen-3、Luma、SD3、Flux等文生视频/图模型相继发布。•语言模型:GLM4、Baichuan4、Yi-Large、MiniMax-Abab6.5、Qwen2.5、商量5.5、DeepSeekV2、Kimi发布更新。•多模态模型:字节即梦、快手可灵、智谱清影、Vidu、hunyuan-vision、InternVL2、Step-1V、PixVerse V2、智谱实时多模态交互等多模态模型发布。•AI应用:代码助手、AI搜索等AI产品广泛落地。 爆发期 •OpenAI发布GPT4 Turbo、GPT-4V•Google发布多模态大模型Gemini•闭源模型:腾讯混元、字节豆包、文心 一 言4 . 0、讯 飞 星 火3 . 0、 小 米MiLM、BlueLM、AndesGPT等模型相继发布。•开源模型:零一万物Yi、阿里Qwen、Baichuan2等模型相继开源。 成长期 2023-2024年度国内外大模型发展趋势 •2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期,其中Top1的模型经历了10次易主,不断提升国内模型的最强战力。 •总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。随着o1的发布,差距再次拉大到8.19%。 第2部分 SuperCLUE通用能力测评 1.SuperCLUE介绍2.SuperCLUE综合测评体系及数据集3.各维度测评说明4.测评模型列表5.SuperCLUE通用能力测评结果 11.大模型对战胜率分布图12.SuperCLUE成熟度指数13.评测与人类一致性验证 6.SuperCLUE模型象限7.子任务测评结果及示例8.开源模型榜单9.10B级别小模型榜单10.端侧5B级别小模型榜单 SuperCLUE介绍 SuperCLUE三大特征 中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s e L a n g u a g e U n d e r s t a n d i n gE v a l u a t i o n)是致 力 于科 学、客 观、中 立 的语 言 模 型评 测 基 准,发 起 于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。 独立第三方测评,非大模型方主导 随 着 国 内 外 大 模 型的 竞 争 日 益 激 烈 , 模 型 开 发 方 主 导 的 评 测 可 能 存 在 偏 向 自 家 产品 的 风 险 。 与 之 形 成 鲜 明 对 比 的 是 ,S u p e r C L U E作 为 一 个 完 全 独 立 的 第 三 方 评测 机 构 , 承 诺 提 供 无 偏 倚 的 客 观 评 测 结 果 。S u p e r C L U E采 用 先 进 的 自 动 化 评 测技 术 , 有 效 消 除 人 为 因 素 带 来 的 不 确 定 性 , 确 保 每 一 项 评 测 都 公 正 无 私 。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。Super CLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 测评方式与真实用户体验目标一致 不 同 于 传 统 测 评 通 过 选 择 题 形 式 的 测 评 ,S u p e r C L U E目 标 是 与 真 实 用 户 体 验 目标 保 持 一 致 , 所 以 纳 入 了 开 放 主 观 问 题 的 测 评 。 通 过 多 维 度 多 视 角 多 层 次 的 评 测体 系 以 及 对 话 的 形 式 , 模 拟 大 模 型 的 应 用 场 景 , 真 实 有 效 的 考 察 模 型 生 成 能 力 。 “Live”更新,测评体系/方法与时俱进 不 同 于 传 统 学 术 领 域 的 评 测 ,S u p e r C L U E根 据 全 球 的 大 模 型 技 术 发 展 趋 势 , 不断 升 级 迭 代 测 评 体 系 、 测 评 维 度 和 方 法 , 以 保 证 尽 可 能 精 准 量 化 大 模 型 的 技 术 演进 程 度 。 并 且 每 次 测 评 集 均 为 原 创 的 新 题 , 且 保 证 题 目 的 高 保 密 性 。 SuperCLUE大模型综合测评体系 SuperCLUE通用测评基准数据集 本次1 0月报告聚焦通用能力测评,采用多维度、多层次的综合性测评方案,由理科、文科和H ard三大维度构成。题 目 均 为 原 创 新 题 , 总 量 为2 90 0道 多 轮 简 答 题 。 【理科任务】分为计算、逻辑推理、代码、工具使用测评集;【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;【H ard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。 S u p e r C L U E通 用 基 准 数 据 集 包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。 Hard SuperCLUE-理科测评说明 示例-计算 SuperCLUE-理科评测数据集 问题: 计算 逻辑推理 模型回答: 包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。 包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。 工具使用 考察模型的函数调用能力,包括查找、调用、规划函数以及通用函数使用能力的数据集。 <篇 幅 有 限 省 略> 测评方法 评 测 流 程 : 我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。 以【计算】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。 评价打分: 假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分: 打分与评价开始: 1.基于标准1的<符合基本要求>;回答完全符合用户的提问,提供了详细的计算步骤和最终结果。基于标准1的得分:5分;2.基于标准2的<推理准确性>;回答中的推理过程准确无误,逻辑结构清晰,应用了正确的数学规则。基于标准2的得分:5分;3.基于标准3的<结论合理性>;回答得出的结论与已知的数学常识和事实一致,结果正确。基于标准3的得分:5分; 因此,该题目的具体得分为4分。 最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。 综合以上,AI助手的回答的综合得分(平均分)为[[5]]----逐项打分结束---- SuperCLUE-理科测评说明 示例-代码 SuperCLUE-理科评测数据集 问题: from typing import* 代码 <篇 幅 有 限 省 略> def find_missing_numbers(arr: List[int], k: int, n: int) -> Tuple[List[int], int, float]:""" H u m a n E v a l的 中 文 升 级 版 , 分 为 初 级 、 中 级 和 高 级 的8种 常 见 类 型 代 码 数 据 集 。 给定一个