您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE]:中文大模型基准测评报告2023-ChatGPT发布一周年特别报告 - 发现报告
当前位置:首页/行业研究/报告详情/

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

金融2023-12-17SuperCLUE起***
中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

中文大模型基准测评报告,2023 —ChatGPT发布一周年,中文大模型进展评估 2023.11.28 01 国内大模型关键进展 •2023年大模型关键进展 •2023年值得关注的中文大模型全景图 02 目录 测评体系、方法说明 •中文大模型基准SuperCLUE介绍 •测评体系、层次、方法说明 03 大模型测评结果 •SuperCLUE模型象限 •国内外大模型差距 •国内大模型竞争格局 •大模型对战胜率分布图 •四大维度测评结果及示例 04 优秀模型案例介绍 •优秀模型案例介绍 第1部分 国内大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 爆发期 •Meta开源Llama2 •OpenAI发布多模态GPT-4V• •百川智能开源Baichuan-7B • 百川智能开源Baichuan2 • •清华&智谱AI开源ChatGLM2 • 腾讯发布混元助手 • • 华为发布盘古3.0 • 成长期 •字节跳动公测大模型产品豆包 • •西湖心辰发布西湖大模型 •商汤科技升级商量3.0 • GPT-4Turbo发布 百度升级文心一言4.0清华开源ChatGLM3OPPO发布AndesGPTvivo发布BlueLM Yi-34B 零一万物开源 •OpenAI发布GPT4 •科大讯飞发布星火1.0 •文心一言升级V3.5 •阿里云开源Qwen-7B • • 准备期 百度发布文心一言1.0 •阿里云发布通义千问1.0 •云从科技发布从容大模型 • 小米发布大模型MiLM • •清华开源ChatGLM • 商汤科技发布商量1.0 •商汤科技升级商量2.0 故事的起点:ChatGPT发布 • 360发布360智脑1.0 • • • 昆仑万维发布天工1.0 •理想汽车发布MindGPT 上海人工智能实验室开源 InternLM-20B 国内迅速形成大模型共识 • • 元语开源ChatYuan 复旦开源MOSS •360升级智脑4.0 • 元象科技开源XVERSE-13B • • 出门问问发布序列猴子 科大讯飞升级星火3.0 元象科技开源 XVERSE-65B 百川智能发布 Baichuan2-192K 深言科技开源 LingoWhale-8B (关键进展) SuperCLUE:AI大模型2023年关键进展 2022.122月 4月6月8月10月2023.11时间 5 BlueLM AndesGPT 序列猴子 字节云雀大模型 闭 源 孟子 云天书 玉言 通用大模型 百川Baichuan Yi-34B 开 源 行业大模型 医疗 汽车 教育 金融 工业 MindGPT 蚂蚁金融大模型 AInno-15B 文化/零售/交通 妙笔大模型 部分 领域 岐黄问道 银河大模型 轩辕大模型 COSMO-GPT ...... ...... ...... ...... SMoreLrMo ...... ...... 第2部分 测评体系、方法说明 01 中文语言理解测评基准CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。 02 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 SuperCLUE 不同于传统测评针对于学术能力的测评,SuperCLUE考察通用大模型在语言理解与生成、专业技能与知识、安全性和工具使用的四大能力、十大维度的上百个任务上的效果。多维度多层次的反应大模型通用能力。 多维度 五大特征 05 为应对大模型广泛学习互联网知识的情况,减少训练集混入评测集的风险,SuperCLUE采用高保密性的测评方式,且月度测评采用完全原创且全新的评测集进行测评,保证真实、客观反应大模型能力。 高保密性 03 VS SuperCLUE 主观题+客观题 多轮 十大维度 高保密性 产业+用户视角 不同于传统测评的单轮形式的测评,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。 多轮测评 不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过对话的形式真实模拟大模型的应用场景,真实有效的考察模型生成能力。 多视角 传统测评与SuperCLUE的区别 传统测评 选择题 单轮 学术 保密性低 04 为实时跟踪国内大模型的迭代情况,及时反应国内外大模型发展现状。SuperCLUE按照月度测评形式及实时热点模型测评的模式快速跟进大模型发展情况。 月度跟踪 SuperCLUE 中文通用大模型综合性评测基准 SuperCLUE-OPEN SuperCLUE-OPT SuperCLUE-Agent SuperCLUE-Safety 多轮开放式问题 三大能力客观题 智能体能力评估 多轮对抗安全评估 十大基础能力 基础能力(10大任务) 任务规划、工具使用 四大维度(20+任务) 可测多轮、主观、开放式 中文特性(10大任务) 长短期记忆 5000道对抗性安全题目 完全自动化测评 学术与专业(50+任务) 中文5000题 多轮主观题、自动化评测 构建不同视角、不同范围的多层次评测基准,形成相对完善的评价大模型能力的测评框架 对大模型研发机构及应用开发者,为优化模型和场景应用提供了相对全面的视角。 SuperCLUE多层次基准 一级专业技能与知识语言理解与生成安全性AI智能体 二级计算逻辑与推理 代码知识与百科 语言理解与抽取 上下文对话 生成角色 与创作扮演 传统指令 安全攻击 任务工具 规划使用 代数计算 应用题 常识推理条件推理 代码生成代码补全 历史地理科学技术 阅读理解信息抽取 情境对话生成对话 文学写作文本续写 名人角色职业角色 偏见歧视违法犯罪 三级...... ...... ...... ...... ...... ...... ...... ...... ...... 概率统计 思维推理 代码注释 文化娱乐 摘要生成 对话记忆 广告文案 虚构角色 财产隐私 微积分 决策推理 bug解决 社会人文 情感分析 任务对话 技术报告 非人类 脏话侮辱 目标劫持 Prompt泄漏 ...... 不安全指令 反面诱导 任务分解自我反思 ...... 思维链 调用API检索API ...... 规划API 为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4265题,其中1052道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。 OPEN 持续扩充 评测反馈 人工校验 4265道评测题 •1052道多轮简答题(OPEN) •3213道客观选择题(OPT) 10万+题库 不重复抽样 5000原始评测集 在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或 平局。进而计算胜和率作为OPEN得分。 被测模型A VS 多轮 基线模型B (如GPT3.5) 裁判模型 (如GPT-4) 胜(3分)、和(1分)、负(0分) OPEN分=胜和率 CLUE测评组 OPT主要测评选择题,包括基础能力、中文特性、专 业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。 被测模型A 选择 题库 单选 ABCD OPT分=准确率 OPT SuperCLUE总分 = 0.66*OPEN分+0.4*OPT分 注:多轮简答题OPEN更能反应模型真实能力,故权重设置提高。 超级模型(裁判): 模型A和模型B都成功地完成了任务,创作了符合要求、引人注目且针对目标受众的广告文案。现在根据用户的指示,我们将评估两个模型在为研发新型治疗老年痴呆症药物的广告文案中的表现。 模型A的回答在修改后的广告文案中,将新药物的功能嵌入到既有的文案结构中,融合了抗癌和痴呆症药物的信息。其文案展示了同样富有希望和温暖的语调,保持了一致的主题,并且在添加记忆改善药物的特性上作了适当的阐述。 模型B的回答也创造性地修订了文案,同样融合了对两种药物的描述。在添加老年痴呆症药物后,模型B提到了药物对记忆和认知功能改善的潜力,其语言保持了文案的一贯风格,同时成功地将新加入药物的销售点融入并突出了其特性。 两者在创作和细节方面都有细致的考虑,模型A和B都延续了初始广告文案的风格和语气,并且明确提及了新药物的特性和功能。 在决定哪个模型的答案更好时,我们考虑以下因素:将新药物特性融入现有文案的流畅性、新药物特性的突出以及与原来文案的整合程度。在这个任务上,模型A和B的表现都相当优秀,没有显著差异。他们在广告文案的创作中都能达到用户的要求,都能吸引目标受众并有效展现产品的独特价值。 根据这些观察和评判标准,最终评判结果是:平局 超级模型(裁判): 模型A提供了一个结构良好的回答,首先介绍了问题的上下文和所需进行的计算。它遵循了一个逻辑性的步骤来逐一介绍推力向量和位置向量,之后使用正确的点积公式进行了计算,并得出了正确的结果。模型A也在结尾确认了点积为负意味着飞船正朝向星球飞去,这增强了回答的实用性和深度。 模型B同样提供了一个准确的点积计算,直接步入计算方法,并明确展示了各个分量相乘的结果。然后逐个分量相加得出最终的点积。模型B的回答更为简洁,但同样包含了所有必要的计算和正确的答案。 两个模型都提供了准确且相关的回答。在实用性方面,两者都解决了用户的问题。在准确性上它们都无可挑剔。根据这些观察和评判标准,最终评判结果是:平局 第3部分 大模型测评结果 1.SuperCLUE模型象限2.国内外大模型差距3.国内大模型竞争格局4.大模型对战胜率分布图 5.四大维度测评结果及示例(语言理解与生成、专业技能与知识、工具使用、传统安全) 实用主义者 Baichuan2-13B-ChatMiniMax_Abab5.5 Xverse-13B-Chat-2 卓越领导者 文心一言4.0Yi-34B-Chat MoonShot 通义千问2.0腾讯混元BlueLM ChatGLM3-Turbo GPT3.5-Turbo GPT-4 GPT-4Turbo Qwen-14B-Chat 360智脑 Chinese-Alpaca-2-13BChatGLM3-6B Llama-2-13B-Chat 潜力探索者 云雀(豆包) Claude2 讯飞星火v3.0 技术领跑者 应用能力 基础能力 注:1.基础能力包含语言理解与生成、专业技能与知识、传统安全的能力考察;应用能力主要考察对于通用工具使用和检索调用规划接口的能力;2.四象限代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在早期探索拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。3.以