行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估

信息技术 2024-07-09 - SuperCLUE团队善护念

根据提供的文字内容进行总结归纳，我们可以得到以下要点：

国内大模型关键进展及趋势

2023-2024年大模型关键进展：自2022年11月ChatGPT发布后，中国学术界和产业界形成了大模型共识，进入了大模型发展的快速阶段。大模型的进展大致分为三个阶段：准备期（共识形成）、成长期（数量和质量增长）、爆发期（各种开源和闭源模型涌现）。
2024年值得关注的中文大模型全景图：展示了多个具有代表性的国内大模型，包括百度文心一言、阿里云通义千问、科大讯飞星火等，以及新近发布的模型如GPT-4o、Qwen-72B-Instruct、Baichuan4等。
国内外大模型技术发展趋势：强调了国内外大模型在中文领域的通用能力差距逐渐缩小，从2023年5月的30.12%缩小到2024年6月的4.94%。

SuperCLUE通用能力测评

SuperCLUE概述：作为独立的第三方测评机构，SuperCLUE专注于通用大模型的综合性测评，其测评体系和方法不断更新以反映技术发展趋势。
测评体系与数据集：SuperCLUE测评体系涵盖通用能力、专项能力（如数学、逻辑、代码、安全、工具使用等）和行业特定任务，数据集设计旨在模拟真实应用场景。
大模型表现：报告指出，GPT-4o在SuperCLUE基准测试中表现最佳，领跑全球。同时，国内大模型如Qwen-72B-Instruct等也在多项任务中表现出色，缩小了与国际顶尖模型之间的差距。
模型象限：通过模型象限分析，区分了模型在技术探索、基础研究、场景应用和整体表现上的定位。

历届Top3国内大模型

Top3变化：展示了过去一年中国内大模型Top3的动态变化，显示了国内大模型市场的竞争激烈和快速迭代。

SuperCLUE多模态能力测评

AIGVBench视频生成测评：评估了模型在视频生成方面的表现。
SuperCLUE-Image文生图测评：考察了模型的图像生成能力。
SuperCLUE-V多模态理解测评：测试了模型在理解和处理多种模态信息的能力。

结论

综上所述，报告强调了中国大模型在2023至2024年间取得的显著进展，特别是在通用能力方面与国际顶尖模型的差距缩小。同时，报告还突出了SuperCLUE作为独立测评机构在提供客观、公正评测方面的独特价值。大模型技术的快速发展和创新不仅体现在模型性能的提升上，也体现在多模态能力的拓展和应用场景的多样化上。

中文大模型基准测评2024年上半年报告 —2024年度中文大模型阶段性进展评估 2 0 2 4 . 0 7 . 0 9SuperCLUE团队精准量化AGI进展，定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 报告核心结论摘要 •国内外大模型差距进一步缩小：国内外大模型差距进一步缩小：OpenAI最新模型GPT-4o依然是全球表现最好的模型，但国内大模型已将差距缩小至5%以内。 •国内开源模型崛起：本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct，并且超过了众多国内外闭源模型。 •各任务表现：在文科、理科和Hard任务中，GPT-4o综合最佳，Claude-3.5在Hard任务表现突出，Qwen2-72B在文科任务表现优异。 •端侧小模型表现惊艳：端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。 1.国内大模型关键进展及趋势 •2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图•2023-2024年度国内外大模型技术发展趋势 2. SuperCLUE通用能力测评 •中文大模型基准SuperCLUE介绍•SuperCLUE测评体系及数据集•总榜、理科榜单、文科榜单、Hard榜单及模型象限•开源榜单及端侧小模型榜单•大模型对战胜率、成熟度指数•评测与人类一致性分析 3. SuperCLUE多模态能力测评 •AIGVBench视频生成测评•SuperCLUE-Image文生图测评•SuperCLUE-V多模态理解测评 4. SuperCLUE专项与行业基准测评 •各行业、专项测评•未来两个月基准发布计划 5.优秀模型案例介绍 •优秀模型案例介绍第1部分国内大模型关键进展及趋势 1.2023-2024大模型关键进展2.中文大模型全景图3.国内外大模型发展趋势 2023-2024大模型关键进展 自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。 2023-2024年度国内外大模型发展趋势 •2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期，其中Top1的模型经历了8次易主，不断提升国内模型的最强战力。 •总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年6月的4.94%。第2部分 SuperCLUE通用能力测评 1.SuperCLUE介绍2.SuperCLUE综合测评体系及数据集3.国内外大模型总体表现4.子任务测评结果5.SuperCLUE模型象限6.国内大模型历月前三甲7.理科测评结果8.文科测评结果9.Hard测评结果10.开源及端侧小模型总体表现11.大模型对战胜率分布图12.SuperCLUE成熟度指数13.评测与人类一致性验证 SuperCLUE介绍 SuperCLUE三大特征中文语言理解测评基准C L U E（T h e C h i n e s e L a n g u a g eUnderstanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2 0 1 9年。陆续推出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。独立第三方测评，非大模型方主导随着国内外大模型的竞争日益激烈，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，S u p e r C L U E作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。S u p e r C L U E采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。 SuperCLUE是大模型时代C L U E基准的发展和延续。聚焦于通用大模型的综合性测评。S u p e r C L U E根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。测评方式与真实用户体验目标一致不同于传统测评通过选择题形式的测评，S u p e r C L U E目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，模拟大模型的应用场景，真实有效的考察模型生成能力。 “live”更新，测评体系/方法与时俱进不同于传统学术领域的评测，S u p e r C L U E根据全球的大模型技术发展趋势，不断升级迭代测评体系、测评维度和方法，以保证尽可能精准量化大模型的技术演进程度。 SuperCLUE大模型综合测评体系 SuperCLUE通用测评基准数据集为进一步真实反应大模型能力，本次半年度测评采用多维度、多层次的综合性测评方案，由理科、文科和Hard三大维度构成。 【理科任务】分为计算、逻辑推理、代码测评集；【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集；【Hard任务】本次测评首次纳入精确指令遵循测评集，另外复杂多步推理和高难度问题解决Hard测评集后续陆续推出。 S u p e r C L U E通用基准数据集 2.逻辑推理理科 11.精确指令遵循 12.复杂任务多步推理 13.高难度问题处理 Hard SuperCLUE通用能力测评：一级总分国内外大模型总体发展态势 1 .G P T - 4o领跑，国内大模型进展迅速 G P T - 4o以8 1分的绝对优势领跑S u p e r C L U E基准测试，是全球模型中唯一超过8 0分的大模型。展现出强大的语言、数理和指令遵循能力。 国内大模型上半年发展非常迅速，其中有6个国内大模型超过G P T - 4- T u r b o - 0 4 0 9。绝大部分闭源模型已超过G P T - 3 . 5 -T u r b o - 0 1 2 5。 2 .国内大模型形成三大梯队，头部企业引领发展 国内大模型市场形成多梯队格局，头部企业凭借快速迭代、技术积累或资源优势，引领国内大模型发展。例如大厂模型以阿里的Q w e n 2 - 7 2 B、商汤的S e n s e C h a t 5 . 0等均以75 +的分数位居国内大模型第一梯队。 大模型创业公司的代表如G L M - 4、B a i c h u a n 4、K i m i、M i n i M a x - a b a b 6 . 5均有超过7 0分的表现，位列国内大模型第一梯队。 3 .开源模型极大发展，有超出闭源模型趋势 开源模型Q w e n 2 - 7 2 B在S u p e r C L U E基准中表现非常出色，超过众多国内外闭源模型，与C l a u d e - 3 . 5持平，与G P T - 4 o仅差4分。零一万物推出的Y i - 1 . 5 - 3 4 B在开源领域表现不俗，有超过6 0分的表现，较为接近部分闭源模型。随着技术进步和应用场景拓展，2 0 2 4年下半年国内外大模型市场竞争将持续加剧，推动技术创新和产业升级。 SuperCLUE-理科测评说明示例 SuperCLUE-理科评测数据集问题：在一场马拉松比赛中，有四位跑者：艾达、贝特、卡斯和丹尼。他们分别穿着红色、蓝色、绿色和黄色的运动衣，他们的排名是1、2、3和4。以下是你知道的信息：穿红色衣服的跑者排名高于贝特，但低于卡斯。绿色衣服的跑者排名最低。艾达没有穿蓝色衣服，也没有获得第二名。丹尼穿黄色，是第一名。请问，穿红色衣服的是谁？名次是多少？代码计算逻辑推理 HumanEval的中文升级版，分为初级、中级和高级的8种常见类型代码数据集。包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。回答： •由于丹尼是第一名并且穿黄色衣服，我们可以确定：丹尼=黄色=第一名•由于绿色衣服的跑者排名最低，即第四名，我们可以确定：绿色=第四名•由于艾达没有获得第二名，艾达的可能名次是第一名、第三名或第四名。测评方法但因为第一名和第四名已被丹尼和绿色衣服的跑者占据，所以艾达只能是第三名。艾达也没有穿蓝色衣服，所以艾达的衣服颜色只能是红色或黄色，但黄色已被丹尼穿着。所以，我们可以确定：艾达=红色=第三名剩下的贝特和卡斯中，穿红色衣服的跑者排名高于贝特且低于卡斯，这意味着贝特不能穿红色（因为艾达已是红色）。所以贝特只能是第二名，并穿蓝色衣服。卡斯因此是绿色衣服的跑者，并排名第四名。评测流程：我们采用高级AI模型（例如GPT-4o）来评估不同任务的表现，根据设定的评价标准进行打分（1-5分）。最后整理：丹尼=黄色=第一名；贝特=蓝色=第二名；艾达=红色=第三名；卡斯=绿色=第四名；因此，穿红色衣服的是艾达，名次是第三名。以【逻辑推理】任务为例，设定的评价标准包括：符合基本要求、推理准确性、结论合理性。评价打分：假设在一个具体的题目中，模型A的得分如下：符合基本要求3分、推理准确性4分、结论合理性5分。首先，我们计算这一题目的平均得分：打分与评价开始：基于标准1的<符合基本要求>；模型回答完整遵循用户意图，清晰整理了已知条件并进行了推理。符合基本要求。得分：5分；基于标准2的<推理准确性>；模型回答的推理大体正确，但有些冗余和推理步骤可以优化，部分步骤显得重复。得分：3分；基于标准3的

点击免费查看完整报告

中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估

国内大模型关键进展及趋势

SuperCLUE通用能力测评

历届Top3国内大模型

SuperCLUE多模态能力测评

结论

你可能感兴趣

中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

2024中文大模型阶段性进展年度评估：中文大模型基准测评2024年度报告

中文大模型基准测评2023年度报告：AI跃迁的2023，中文大模型进展评估

中文大模型基准测评2025年上半年报告

中文大模型基准测评2024年4月报告

中文大模型基准测评2025年9月报告

中文大模型基准测评报告：ChatGPT发布一周年报告

中文大模型基准测评2025年5月报告

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

中文大模型基准测评2025年3月报告