您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE]:中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估 - 发现报告
当前位置:首页/行业研究/报告详情/

中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估

信息技术2024-07-09-SuperCLUE善***
AI智能总结
查看更多
中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估

中文大模型基准测评2024年上半年报告 —2024年度中文大模型阶段性进展评估 SuperCLUE团队 2024.07.09 精准量化AGI进展,定义人类迈向AGI的路线图 g ai •OpenAIGPT-4o5% •SuperCLUEQwen2-72B-Instruct •HardGPT-4oClaude-3.5HardQwen2-72B • 3 SuperCLUE模型象限SuperCLUE各维度任务 来源:SuperCLUE,2024年7月9日来源:SuperCLUE,2024年7月9日 1.国内大模型关键进展及趋势 •2023-2024年大模型关键进展 •2024年值得关注的中文大模型全景图 •2023-2024年度国内外大模型技术发展趋势 2.SuperCLUE通用能力测评 •中文大模型基准SuperCLUE介绍 目录 •SuperCLUE测评体系及数据集 •总榜、理科榜单、文科榜单、Hard榜单及模型象限 •开源榜单及端侧小模型榜单 •大模型对战胜率、成熟度指数 •评测与人类一致性分析 3.SuperCLUE多模态能力测评 •AIGVBench视频生成测评 •SuperCLUE-Image文生图测评 •SuperCLUE-V多模态理解测评 4.SuperCLUE专项与行业基准测评 •各行业、专项测评 •未来两个月基准发布计划 5.优秀模型案例介绍 •优秀模型案例介绍 第1部分 国内大模型关键进展及趋势 1.2023-2024大模型关键进展2.中文大模型全景图3.国内外大模型发展趋势 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 (关键进展) SuperCLUE:AI大模型2023-2024年关键进展 爆发期 成长期 •OpenAI发布GPT-4Turbo、多模态GPT-4V •腾讯发布混元助手 •字节跳动公测大模型产品豆包 •百度升级文心一言4.0 •OPPO发布AndesGPT •vivo发布BlueLM •OpenAI发布文生视频Sora •百川智能发布Baichuan3 •智谱AI发布GLM-4 •科大讯飞发布星火3.5 •MiniMax发布ABAB6.5 •OpenAI发布GPT-4o •阿里云开源Qwen2-72B •百川智能发布Baichuan4 •科大讯飞发布星火4.0 •快手发布可灵视频生成 准备期 故事的起点:ChatGPT发布国内迅速形成大模型共识 •OpenAI发布GPT-4 •百度发布文心一言1.0 •清华开源ChatGLM •360发布360智脑 •科大讯飞发布星火 •阿里云发布通义千问 •Meta开源Llama2 •百川智能开源Baichuan •华为发布盘古3.0 •商汤科技发布商量2.0 •云从科技发布从容大模型 •西湖心辰发布西湖大模型 •零一万物开源Yi-34B •科大讯飞升级星火3.0 •阿里云开源Qwen-7B •小米发布大模型MiLM •Google发布 多模态大模型Gemini •Google发布Gemini1.5 •Claude3发布 •商汤发布SenseChat5.0 •KimiChat支持200万上下文 •Meta开源Llama3 •Runway发布Gen-3 •Claude3.5发布 •零一万物发布Yi-large •DeepSeek-V2发布 •国内大模型大幅降价 2022.122023.02 2023.06 2023.122024.042024.06时间 闭源 (语言模型) 字节豆包大模型 玉言 AndesGPT 通用大模型 开源 行业大模型 医疗 MedGPT 汽车 MindGPT 教育 金融 蚂蚁金融大模型 工业 AInno-15B 文化/零售/交通 部分领域 岐黄问道 轩辕大模型 COSMO-GPT 华佗GPT 妙想大模型 SMoreLrMo 妙笔大模型 左医GPT NomiGPT 京医千询 ...... ...... ...... ...... ...... ...... 闭源 (多模态) •2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。 •总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年6月的4.94%。 SuperCLUE基准:过去14个月国内外TOP模型对比趋势 国内外Top1模型差距分数 国内外Top1模型差距比例 23 5 23 6 23 7 23 8 23 9 23 10 23 11 23 12 24 2 24 4 24 6 GPT GPT3.54 4-Turbo 4o 76.67 78.76 70.89 81.03 83.20 87.08 89.79 90.63 92.71 79.13 81.00 TOP1 53.58 63.53 62.00 60.02 62.75 70.74 74.02 79.02 87.75 73.32 77.00 TOP2 49.52 62.58 59.35 55.70 62.61 70.42 72.88 96.54 86.77 72.58 76.00 TOP3 46.45 59.80 58.02 53.43 62.12 69.57 71.87 75.04 85.70 72.45 76.00 来源:SuperCLUE,2023年5月~2024年6月,期间发布的11次大模型基准测评报告。 第2部分 SuperCLUE通用能力测评 1.SuperCLUE介绍2.SuperCLUE综合测评体系及数据集3.国内外大模型总体表现4.子任务测评结果5.SuperCLUE模型象限 6.国内大模型历月前三甲7.理科测评结果8.文科测评结果9.Hard测评结果10.开源及端侧小模型总体表现 11.大模型对战胜率分布图12.SuperCLUE成熟度指数13.评测与人类一致性验证 中文语言理解测评基准CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、 DataCLUE等广为引用的测评基准。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型 测评方式与真实用户体验目标一致 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生成能力。 的综合性测评。SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 SuperCLUE与其他测评的区别 VS SuperCLUE 独立第三方 多轮 动态更新 高保密性 产业+用户视角 其他测评 SuperCLUE 三大特征 01 随着国内外大模型的竞争日益激烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。 独立第三方测评,非大模型方主导 02 非独立第三方 单轮 学术 保密性低 03 不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不断升级迭代测评体系、测评维度和方法,以保证尽可能精准量化大模型的技术演进程度。 “live”更新,测评体系/方法与时俱进 Math6 数学多步推理 SuperCLUE大模型综合测评体系 通用能力评估 专项能力评估 行业/应用评估 Long 长文本 AIGVBench 视频生成 Role 角色扮演 SuperCLUE 重点专项评估 RAG 检索增强生成 AI产品 代码助手 AI 搜索 Image 文生图 Safety 安全 多模态理解 理科 计算逻辑推理 代码 文科 知识百科生成创作 语言理解 角色扮演工具使用 长文本 安全 Hard 精确指令遵循复杂任务高阶推理 高难度问题解决 Agent 智能体 Code3 代码 行业 汽车 金融 工业 医疗 终端消费者 专项能力评估包括文本专项和多模态专项 注:专项与通用能力侧重点不同,通用侧重基础能力,专项侧重场景应用能力 为进一步真实反应大模型能力,本次半年度测评采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成。 【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集; 【Hard任务】本次测评首次纳入精确指令遵循测评集,另外复杂多步推理和高难度问题解决Hard测评集后续陆续推出。 3. HumanEval 8 。 SuperCLUE 1. 2. 理科 10. 5. 4. 6. API Agent 8. 7. 文科 9. 13. AI 12. 1. Hard 本次测评数据选取了SuperCLUE-6月测评结果,模型选取了国内外有代表性的33个大模型在6月份的版本。 模型 机构 简介 模型 机构 简介 1.GPT-4o OpenAI 官方于2024年5月13日发布的gpt-4o-2024-05-13 18.Llama-3-70B-Instruct(poe) Meta 在POE平台的Llama3的70B版本 2.Qwen2-72B-Instruct 阿里巴巴 官方开源:qwen2-72b-instruct 19.文心一言4.0 百度 官方公开发布的API版本:ERNIE-4.0-8K-Latest 3.Claude-3.5-Sonnet-200k Anthropic 官方在2024年6月21日发布的Claude-3.5-Sonnet 20.Gemini-1.5-Pro Google POE平台的Gemini-1.5-Pro 4.DeepSeek-V2 深度求索 官方公开发布的API版本:deepseek-chat的V2版 21.阶跃星辰step-1-32k 阶跃星辰 官方公开发布API版本:step-1-32k 5.GLM-4-0520 清华&智谱AI 官方公开发布的API版本:GLM-4-0520 22.GPT-3.5-Turbo-0125 OpenAI 2024年1月25日发布的GPT-3.5-turbo的更新版本 6.SenseChat5.0 商汤 官方公开发布的API版本:SenseChat5.0 23.Yi-1.5-34B-Chat-16K 零一万物 官方开源的Yi-1.5-34B-Chat-16K版本 7.GPT-4-Turbo-0409 OpenAI 2024年4月9日发布的GPT-4-turbo的更新版本 24.qwen2-7b-instruct 阿里巴巴 官方开源:qwen2-7b-instruct 8.AndesGPT OPPO 官方小范围内测API的6月版本 25.XVERSE-65B-2-32K 元象科技 官方开源的XVERSE-65B-2 9.GPT-4(官网) OpenAI Ope