中文大模型基准测评2024年10月报告 —2024年度中文大模型阶段性进展评估 SuperCLUE团队 2024.11.08 来源:SuperCLUE模型象限,2024年11月8日 2 报告核心结论摘要 •OpenAI发布o1后,全球大模型竞争加剧 o1-preview的推出进一步拉大了与其他模型的差距。经测评,目前国内大模型正在持续接近Claude3.5Sonnet和ChatGPT-4o-latest的能力,但与o1-preview在中文难任务(Hard任务)上相差约为14%,在中文通用能力上相差约8%。 •国内大模型第一梯队竞争激烈,持续迭代表现不俗 国内开源模型Qwen2.5-72B-Instruct、DeepSeekV2.5领跑全球开源模型,最新发布的TeleChat2-35B同样表现出色,超过了国内外众多开源模型;国内闭源模型GLM-4-Plus、SenseChat5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。 •国内外大模型在不同任务上表现各有优势 国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越,有较大领先性,国内大模型则更擅长理科和文科任务。 •端侧小模型表现惊艳 国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如 Qwen2.5-1.5B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。 1.国内大模型关键进展及趋势 •2023-2024年大模型关键进展 •2024年值得关注的中文大模型全景图 •2023-2024年度国内外大模型技术发展趋势 2.SuperCLUE通用能力测评 •中文大模型基准SuperCLUE介绍 •SuperCLUE测评体系及数据集 •总榜、理科榜单、文科榜单、Hard榜单及模型象限 •开源榜单及端侧小模型榜单 •大模型对战胜率、成熟度指数 目录 •评测与人类一致性分析 3.SuperCLUE-AI产品能力测评 •SuperCLUE-Coder代码助手产品测评 •SuperCLUE-AISearch搜索产品测评 •SuperCLUE-Voice实时语音产品测评 4.SuperCLUE多模态能力测评 •SuperCLUE-V多模态理解测评 •AIGVBench视频生成测评 •SuperCLUE-Image文生图测评 5.SuperCLUE专项与行业基准测评 •各行业、专项测评 •未来两个月基准发布计划 6.优秀模型案例介绍 •优秀模型案例介绍 精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图 AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI. 第1部分 国内大模型关键进展及趋势 1.2023-2024年大模型关键进进展 2.2024年值得关注的中文大模型全景图 3.2023-2024年度国内外大模型技术发展趋势 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为四个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)、繁荣期(更多模态能力的延伸和应用)。 SuperCLUE:AI大模型2023-2024年关键进展 (关键进展) 繁荣期 爆发期 成长期 准备期 ChatGPT发布国内迅速形成大模型共识 •OpenAI发布GPT4、Meta开源Llama •闭源模型:文心一言1.0、360智脑、讯飞星火、通义千问、商量2.0、盘古3.0、从容大模型等相继发布。 •开源模型:ChatGLM、Baichuan等模型相继开源 •OpenAI发布GPT4Turbo、GPT-4V •Google发布多模态大模型Gemini •闭源模型:腾讯混元、字节豆包、文心一言4.0、讯飞星火3.0、小米MiLM、BlueLM、AndesGPT等模型相继发布。 •开源模型:零一万物Yi、阿里Qwen、 Baichuan2等模型相继开源。 •OpenAI发布Sora、GPT-4o、o1;Gemini-1.5、Claude3.5、Grok2、Llama3等发布。 •Gen-3、Luma、SD3、Flux等文生视频/图模型相继发布。 •语言模型:GLM4、Baichuan4、Yi-Large、MiniMax-Abab6.5、Qwen2.5、商量5.5、DeepSeekV2、Kimi发布更新。 •多模态模型:字节即梦、快手可灵、智谱清影、Vidu、hunyuan-vision、InternVL2、Step-1V、PixVerseV2、智谱实时多模态交互等多模态模型发布。 •AI应用:代码助手、AI搜索等AI产品广泛落地。 2022.122023.02 2023.06 2023.122024.10时间 通用 闭源 字节豆包 AndesGPT 开源 多模态 实时交互 智谱清言APP 星火极速 山海多模态 通义APP 文生视频 多模态理解 SenseChat-Vision GLM-4v 文生图 行业 医疗 汽车 教育 金融 工业 更多行业 百度灵医 MindGPT 蚂蚁金融大模型 妙想金融大模型 奇智孔明AInno-15B 营销: 医联MedGPT 部分领域 华为盘古工业大模型 文化: 妙笔大模型 百川AI全科医生 极氪Kr大模型 轩辕大模型 易车大模型 SMoreLrMo 羚羊工业大模型 交通: 法律: 左医GPT ...... NomiGPT ...... ...... ...... COSMO-GPT ...... AI4S:深势分子大模型 ...... •2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期,其中Top1的模型经历了10次易主,不断提升国内模型的最强战力。 •总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。随着o1的发布,差距再次拉大到8.19%。 SuperCLUE基准:过去18个月国内外TOP大模型对比趋势 国内外Top1模型差距分数国内外Top1模型差距比例 模型 23年5月 23年6月 23年7月 23年8月 23年9月 23年10月 23年11月 23年12月 24年2月 24年4月 24年6月 24年8月 24年10月 GPT最新模型(GPT3.5、4、4-Turbo、 4o、o1) 76.67 78.76 70.89 81.03 83.20 87.08 89.79 90.63 92.71 79.13 81.00 79.67 75.85 国内TOP1 53.58 63.53 62.00 60.02 62.75 70.74 74.02 79.02 87.75 73.32 77.00 78.64 69.64 国内TOP2 49.52 62.58 59.35 55.70 62.61 70.42 72.88 76.54 86.77 72.58 76.00 76.24 69.00 国内TOP3 46.45 59.80 58.02 53.43 62.12 69.57 71.87 75.04 85.70 72.45 76.00 74.63 68.91 来源:SuperCLUE,2023年5月~2024年10月,期间发布的13次大模型基准测评报告。 第2部分 SuperCLUE通用能力测评 1.SuperCLUE介绍 2.SuperCLUE综合测评体系及数据集 3.各维度测评说明 4.测评模型列表 5.SuperCLUE通用能力测评结果 6.SuperCLUE模型象限 7.子任务测评结果及示例 8.开源模型榜单 9.10B级别小模型榜单 10.端侧5B级别小模型榜单 11.大模型对战胜率分布图 12.SuperCLUE成熟度指数 13.评测与人类一致性验证 中文语言理解测评基准CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于 2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 SuperCLUE 三大特征 01 随着国内外大模型的竞争日益激烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。 独立第三方测评,非大模型方主导 02 VS SuperCLUE 独立第三方 多轮 动态更新 高保密性 产业+用户视角 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生成能力。 测评方式与真实用户体验目标一致 SuperCLUE与其他测评的区别 其他测评 非独立第三方 单轮 学术 保密性低 03 不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不断升级迭代测评体系、测评维度和方法,以保证尽可能精准量化大模型的技术演进程度。并且每次测评集均为原创的新题,且保证题目的高保密性。 “Live”更新,测评体系/方法与时俱进 Safety 安全 行业 汽车 金融 工业 医疗 理科 计算 逻辑推理 Long 长文本 Math6 数学多步推理 代码 实时 语音交互 工具使用 AIGVBench 视频生成 Role 角色扮演 文科 Agent 智能体 SuperCLUE 重点专项评估 RAG 检索增强生成 知识百科生成创作 语言理解 Code3 代码 角色扮演传统安全 长文本 Math6o 小学奥数 Image 文生图 多模态 理解 CoT 链式推理 Hard 精确指令遵循复杂任务高阶推理 专项能力评估包括文本专项和多模态专项 注:专项与通用能力侧重点不同,通用侧重基础能力, 专项侧重场景应用能力 AI产品 代码助手 AI 搜索 终端消费者 SuperCLUE大模型综合测评体系 通用能力评估 专项能力评估 行业/应用评估 本次10月报告聚焦通用能力测评,采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成。题目均为原创新题,总量为2900道多轮简答题。 【理科任务】分为计算、逻辑推理、代码、工具使用测评集;【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集; 【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。 SuperCLUE通用基准数据集 4.工具使用 考察模型的函数调用能力,包括查找、调用、规划函数以及通用函数使用能力的数据集。 3.代码 HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。 2.逻辑推理 包括三段论、关系推理、朴素推理等