中文大模型基准测评2023年度报告 —AI跃迁的2023,中文大模型进展评估 SuperCLUE团队 2023.12.28 01 国内大模型关键进展 •2023年大模型关键进展与中文大模型全景图 •2023年国内大模型发展趋势 02 测评体系、方法说明 目录 •中文大模型基准SuperCLUE介绍 •测评体系、层次、方法说明 03 大模型综合测评结果 •SuperCLUE模型象限 •国内外大模型总体表现及竞争格局 •大模型对战胜率分布图 04 SuperCLUE2.0升级 •行业及专项测评基准 05 四大维度测评分析及示例介绍 •四大维度测评结果及示例 06 优秀模型案例介绍 •优秀模型案例介绍 第1部分 2023全年国内大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 爆发期 •Meta开源Llama2 •OpenAI发布多模态GPT-4V•GPT-4Turbo发布 •百川智能开源Baichuan-7B •百川智能开源Baichuan2 •百度升级文心一言4.0 •清华&智谱AI开源ChatGLM2 •腾讯发布混元助手 •清华开源ChatGLM3 •华为发布盘古3.0 成长期 •字节跳动公测大模型产品豆包•OPPO发布AndesGPT •西湖心辰发布西湖大模型 •商汤科技升级商量3.0 •vivo发布BlueLM •OpenAI发布GPT4 •科大讯飞发布星火1.0 •文心一言升级V3.5 •阿里云开源Qwen-7B •零一万物开源Yi-34B 准备期 •百度发布文心一言1.0 •阿里云发布通义千问1.0 •云从科技发布从容大模型 • 小米发布大模型MiLM •科大讯飞升级星火3.0 •清华开源ChatGLM • 商汤科技发布商量1.0 •商汤科技升级商量2.0 • 360发布360智脑1.0 • • • 元语开源ChatYuan 复旦开源MOSS • 昆仑万维发布天工1.0 •理想汽车发布MindGPT 上海人工智能实验室开源 InternLM-20B • • •360升级智脑4.0 •元象科技开源XVERSE-13B 百川智能发布 Baichuan2—Turbo Google发布 多模态大模型Gemini •出门问问发布序列猴子 故事的起点:ChatGPT发布国内迅速形成大模型共识 (关键进展) SuperCLUE:AI大模型2023年关键进展 2022.122月 4月6月8月10月2023.12时间 5 BlueLM AndesGPT 序列猴子 字节云雀大模型 闭 源 孟子 云天书 玉言 通用大模型 百川Baichuan Yi-34B 开 源 行业大模型 医疗 汽车 教育 金融 工业 MindGPT 蚂蚁金融大模型 AInno-15B 文化/零售/交通 妙笔大模型 部分 领域 岐黄问道 银河大模型 轩辕大模型 COSMO-GPT ...... ...... ...... ...... SMoreLrMo ...... ...... 过去六个月国内外代表性模型的发展趋势趋势说明 部分国内代表性模型SuperCLUE基准得分(7月-12月) 模型 7月 8月 9月 10月 11月 12月 文心一言 50.48 54.18 53.72 61.81 73.62 75 通义千问 - 41.73 33.78 43.36 61.01 71.78 ChatGLM 42.46 38.49 54.31 58.53 63.27 69.91 过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。 我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。 说明: 趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。 第2部分 测评体系、方法说明 1.SuperCLUE介绍2.测评层级3.测评体系4.测评方法及示例 01 中文语言理解测评基准CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 SuperCLUE SuperCLUE始终秉持中立、客观的第三方测评理念,不会预设立场或偏向特定的模型方。同时,SuperCLUE采用自动化方式的客观评估,大大降低评测过程中的人为评估的不确定性。 第三方测评,不与模型厂商竞争 三大特征 02 VS SuperCLUE 主观题+客观题 多轮 十大维度 高保密性 产业+用户视角 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。 同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。 测评方式与真实用户体验目标一致 传统测评与SuperCLUE的区别 传统测评 选择题 单轮 学术 保密性低 03 不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。 不限于学术领域的测评,更为了服务产业界 SuperCLUE多层次基准 一级 (能力) 专业与技能语言与知识安全性AI智能体 二级 (任务) 三级 (子任务) 计算逻辑与推理 代码知识与百科 语言理解与抽取 上下文对话 生成角色 与创作扮演 传统指令 安全攻击 代数计算 应用题 常识推理条件推理 代码生成代码补全 历史地理科学技术 阅读理解信息抽取 情境对话生成对话 文学写作文本续写 名人角色职业角色 偏见歧视违法犯罪 ...... ...... ...... ...... ...... ...... ...... ...... ...... 概率统计 思维推理 代码注释 文化娱乐 摘要生成 对话记忆 广告文案 虚构角色 财产隐私 微积分 决策推理 bug解决 社会人文 情感分析 任务对话 技术报告 非人类 脏话侮辱 目标劫持 Prompt泄漏 ...... 不安全指令 反面诱导 任务规划 任务分解自我反思 ...... 思维链 工具使用 调用API检索API ...... 规划API SCLUE 中文大模型综合性评测基准 SCLUEfOPEN SCLUEfOPT SCLUEfA SCLUEfSa SCLUEfA 多轮开放式问题 多维度客观题 智能体能力评估 多轮对抗安全评估 中文汽车行业评估 10 20+ 10 500 50+ 500 通用能力测评专项能力测评行业能力测评 . 为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4273题,其中1060道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。 OPEN 持续扩充 评测反馈 人工校验 4273道评测题 •1060道多轮简答题(OPEN) •3213道客观选择题(OPT) 10万+题库 不重复抽样 5000原始评测集 在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或 平局。进而计算胜和率作为OPEN得分。 被测模型A (如文心一言) VS 多轮 基线模型B (如GPT3.5) 裁判模型 (如GPT4-Turbo) 胜(3分)、和(1分)、负(0分) OPEN分=胜和率 CLUE测评组 OPT SuperCLUE总分 = 0.77*OPEN分+0.3*OPT分 OPT主要测评选择题,包括基础能力、中文特性、专 业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。 被测模型A 选择 题库 单选 ABCD OPT分=准确率 注:多轮简答题OPEN更能反应模型真实能力,故权重设置提高。 问题及模型回答 超级模型(裁判) A:文心一言4.0B:gpt3.5-turbo 模型A的回答创造性地扩展了原有的文案,加入了 家庭安全方面的应用,如老人摔倒检测和入侵检测,并维持了主题一致的“魔法”元素,这样的文案能够有效吸引用户的注意,并且关注点转移到家庭安全这一增加的功能上。 模型B在回答中也有效地扩充了关于家庭安全功能的描述,保持了与原文案相似的格式,成功地整合了入侵检测和摔倒监测的新信息,让用户了解到产品的新应用场景。 两个模型都做到了准确地回答了问题并且保持了高度的相关性,同时也都扩展了文案来包括新的家庭安全特性,提供了实用性的信息。在这个基础上,模型A的创意元素—用“魔法”寓意来打动用户,和模型B的实用性—强调产品带来的平安感,都各有卖点。 综上所述,两个模型的回答在满足准确性和相关性的同时,从实用性和创造性的角度来看,两者提供的内容是相当的,因此我的最终评判结果是:平局 问题及模型回答超级模型(裁判) A:GPT4-TurboB:gpt3.5-turbo 第一个问题:首先对于准确性,模型A回答是正确的。他列举了所有相关人物的计算过程,逐一解释了每个人的年龄如何计算,并正确得出Frank和Dave之间的年龄差是68岁。 模型B直接给出了一个答案22岁,这是错误的。模型B似乎没有理解问题的含义,也没有提供如何得出这个答案的过程。问题是问Frank和Dave之间的年龄差,模型B的计算过程不清不楚,似乎错误地将Bob和Frank的年龄差解释为Frank和Dave的年龄差。 在相关性方面,模型A的回答与问题完全相关,它正确地解答了用户的问题,并给出了合适的计算过程。模型B的回答虽然与问题的主题(即年龄差)相关,但却没有正确回答问题,因此相关性不足。由于准确性和相关性是首要的判断标准,模型A在这两方面都表现出更好的质量,因此应该被评为更好的回答。模型B因为错误且未给出推理过程,所以被评为较差的模型。最终判决:[[A]]" 关于第二个问题:模型B的解释出现了错误,它错误地假设了“Dave的父亲是Bob”,这实际上没有给出在给定信息中。从而推理出F