行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

金融 2023-12-17 SuperCLUE团队起风了

中文大模型基准测评报告概览

国内大模型关键进展与测评体系

背景与时间线：自2022年11月ChatGPT发布后，国内学术界和产业界迅速形成了大模型共识，经历了从准备期到爆发期的发展过程。各大模型数量和质量同步增长，形成了“百模大战”的竞争局面。

关键进展与案例

重要事件：百度、阿里、腾讯等国内企业相继发布大模型产品，如百度的文心一言、阿里云的通义千问、腾讯的混元助手等。
案例介绍：包括不同领域的通用大模型，如字节云雀、360智脑、科大讯飞星火等。

测评体系与方法说明

测评基准：SuperCLUE，用于评估通用大模型的综合能力。
方法：采用多维度、多层次的测评，包括语言理解与生成、专业技能与知识、安全性等，通过客观题与多轮开放式问题进行评估。

大模型测评结果与分析

模型象限：展示模型在不同能力层面的定位，区分潜力探索者、技术领跑者、实用主义者和卓越领导者。
国内外差距：GPT4-Turbo总分89.79分，与国内最佳模型（文心一言4.0）相差15.77分。
竞争格局：创业公司与大厂竞争激烈，平均成绩接近。
胜率分布：GPT4-Turbo在多轮开放式问题基准中胜率为49.34%，显示其全面压倒性优势。

测评结果亮点

语言理解与生成：GPT-4 Turbo领先，国内模型如Yi-34B、Moonshot、BlueLM、混元、通义千问等表现出色。
专业技能与知识：国内大模型在这一领域与国际模型竞争激烈。
工具使用与安全性：评估了模型在通用工具使用和安全性方面的表现。

结论

中文大模型在关键技术领域取得了显著进展，与国际顶尖模型相比，展现出良好的竞争态势。未来，随着技术迭代和应用场景的深化，国内大模型有望在特定领域实现超越，推动人工智能技术的普及与发展。

中文大模型基准测评报告，2023 —ChatGPT发布一周年，中文大模型进展评估 2023.11.28 01国内大模型关键进展 •2023年大模型关键进展•2023年值得关注的中文大模型全景图测评体系、方法说明02 •中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明大模型测评结果03 •SuperCLUE模型象限•国内外大模型差距•国内大模型竞争格局•大模型对战胜率分布图•四大维度测评结果及示例优秀模型案例介绍04 •优秀模型案例介绍第1部分国内大模型关键进展 2023大模型关键进展 自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。 2023年值得关注的中文大模型全景图第2部分测评体系、方法说明 SuperCLUE介绍 SuperCLUE五大特征中文语言理解测评基准C L U E（T h e C h i n e s e L a n g u a g eUnderstan d i n g Eval u ati o n）是致力于科学、客观、中立的语言模型评测基准，发起于2 0 1 9年。陆续推出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。多维度不同于传统测评针对于学术能力的测评，SuperCLUE考察通用大模型在语言理解与生成、专业技能与知识、安全性和工具使用的四大能力、十大维度的上百个任务上的效果。多维度多层次的反应大模型通用能力。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题，S u p e r C L U E根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。多视角不同于传统测评通过选择题形式的测评，SuperCLUE纳入了开放主观问题的测评。通过对话的形式真实模拟大模型的应用场景，真实有效的考察模型生成能力。多轮测评不同于传统测评的单轮形式的测评，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。月度跟踪为实时跟踪国内大模型的迭代情况，及时反应国内外大模型发展现状。SuperCLUE按照月度测评形式及实时热点模型测评的模式快速跟进大模型发展情况。高保密性为应对大模型广泛学习互联网知识的情况，减少训练集混入评测集的风险，SuperCLUE采用高保密性的测评方式，且月度测评采用完全原创且全新的评测集进行测评，保证真实、客观反应大模型能力。测评体系 SuperCLUE多层次基准测评方法为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4 2 6 5题，其中1052道多轮简答题（OPEN），3213道客观选择题（OPT），以下为评测集与测评方法简述。 OPEN 在一个确定的评估标准指导下，OPEN基准使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。 SuperCLUE总分 0.6*OP EN分+0.4*OP T分 O P E N分=胜和率注：多轮简答题O P E N更能反应模型真实能力，故权重设置提高。 OPT主要测评选择题，包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用，要求模型选取ABCD中唯一的选项。测评方法-示例1 超级模型（裁判）：模型A和模型B都成功地完成了任务，创作了符合要求、引人注目且针对目标受众的广告文案。现在根据用户的指示，我们将评估两个模型在为研发新型治疗老年痴呆症药物的广告文案中的表现。模型A的回答在修改后的广告文案中，将新药物的功能嵌入到既有的文案结构中，融合了抗癌和痴呆症药物的信息。其文案展示了同样富有希望和温暖的语调，保持了一致的主题，并且在添加记忆改善药物的特性上作了适当的阐述。模型B的回答也创造性地修订了文案，同样融合了对两种药物的描述。在添加老年痴呆症药物后，模型B提到了药物对记忆和认知功能改善的潜力，其语言保持了文案的一贯风格，同时成功地将新加入药物的销售点融入并突出了其特性。两者在创作和细节方面都有细致的考虑，模型A和B都延续了初始广告文案的风格和语气，并且明确提及了新药物的特性和功能。在决定哪个模型的答案更好时，我们考虑以下因素：将新药物特性融入现有文案的流畅性、新药物特性的突出以及与原来文案的整合程度。在这个任务上，模型A和B的表现都相当优秀，没有显著差异。他们在广告文案的创作中都能达到用户的要求，都能吸引目标受众并有效展现产品的独特价值。根据这些观察和评判标准，最终评判结果是：平局测评方法-示例2 超级模型（裁判）：模型A提供了一个结构良好的回答，首先介绍了问题的上下文和所需进行的计算。它遵循了一个逻辑性的步骤来逐一介绍推力向量和位置向量，之后使用正确的点积公式进行了计算，并得出了正确的结果。模型A也在结尾确认了点积为负意味着飞船正朝向星球飞去，这增强了回答的实用性和深度。模型B同样提供了一个准确的点积计算，直接步入计算方法，并明确展示了各个分量相乘的结果。然后逐个分量相加得出最终的点积。模型B的回答更为简洁，但同样包含了所有必要的计算和正确的答案。两个模型都提供了准确且相关的回答。在实用性方面，两者都解决了用户的问题。在准确性上它们都无可挑剔。根据这些观察和评判标准，最终评判结果是：平局第3部分大模型测评结果 1.SuperCLUE模型象限2.国内外大模型差距3.国内大模型竞争格局4.大模型对战胜率分布图5.四大维度测评结果及示例（语言理解与生成、专业技能与知识、工具使用、传统安全）注：1 .基础能力包含语言理解与生成、专业技能与知识、传统安全的能力考察；应用能力主要考察对于通用工具使用和检索调用规划接口的能力；2 .四象限代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在早期探索拥有较大潜力；【技术领跑者】代表模型聚焦基础技术研究；【实用主义者】代表模型在场景应用上处于领先定位；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。3 .以上数据为截止2 0 2 3年1 1月2 8日的大模型能力数据。国内外大模型差距国内对外差距情况说明国内外差距依然明显。G P T 4 - T u r b o总分89.79分遥遥领先。高于国内所有大模型及国外代表性大模型。其中国内最好模型文心一言4.0总分74.02分，距离GPT4-T u r b o有15.77分。必须看到的是，过去1年国内大模型已经有了长足的进步。综合能力超过G P T 3 . 5的模型有8个，分别为百度的文心一言4 . 0、零一万物的Y i - 3 4 B - C h a t、月之暗面的M o o n s h o t、v i v o的B l u e L M、腾讯的混元、阿里云的通义千问2 . 0、清华&智谱A I的ChatGLM3、字节跳动的云雀。 •在S u p e r C L U E测评中，国外代表性模型的平均成绩为7 1 . 2 3分，国内代表性模型平均成绩为6 0 . 4 8分，差距在10分左右。另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的B a i c h u a n 2 -1 3 B - C h a t、元象科技的X V E R S E - 1 3 B -C h a t - 2、阿里云的Q w e n - 1 4 B、C h a t G L M 3 - 6 B的成绩均大幅优于L l a m a 2 -13B-Chat。 •可以看出，国内外的平均水平差距不是特别明显，要弱于头部模型的差距。国内大模型竞争格局国内大模型综合表现-SuperCLUE 通过S u p e r C L U E测评结果发现，国内大模型的第一梯队有了更多新的模型加入。如零一万物的Y i - 3 4 B - C h a t、腾讯的混元、阿里云的通义千问2 . 0。你方唱罢我登场，已有模型的新版本或出现的新模型，可能会进一步加剧第一梯队大模型的竞争。在新的大模型竞争中，创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势，可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。 •从国内TOP15大模型的数量来看，创业公司和大厂的占比几乎持平。 •从大厂和创业公司的平均成绩来看，大厂与创业公司差值约1分，几乎持平。这说明大模型研发不会仅仅因为公司规模的大小而受到影响。大模型对战胜率分布图结果分析多轮开放式问题基准SuperCLUE-OPEN，是使用超级模型作为评判官，用一个待评估模型与一个基准模型（GPT3.5）进行对比，从而得出胜平负的得分。从胜率来看，全球领跑者GPT4-Turbo胜率为49.34%，和率为48.19%，大幅领先于其他模型，而败率仅为2 . 4 %，足以说明G P T 4 - T u r b o对GPT3.5在各项能力上的全面压倒性优势。而国内模型中，零一万物的Y i - 3 4 B - C h a t和百度的文心一言4 . 0不相上下，胜率的趋势基本相同，并且表现均好于GP T4。胜率超过20%的还有Moonshot、BlueLM、ChatGLM3-Turbo、腾讯混元、通义千问2.0和云雀大模型。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位，展现出不俗的对战能力。排在2至3位的是Q w e n - 1 4 B - C h a t和XVERSE-13B-Chat-2，同样表现可圈可点。 SuperCLUE基准-语言理解与生成能力测评分析语言理解与生成主要考察模型在生成与创作、语言理解与抽取、上下文对话、角色扮演方面的能力。在语言理解与生成维度的

点击免费查看完整报告

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

中文大模型基准测评报告概览

国内大模型关键进展与测评体系

关键进展与案例

测评体系与方法说明

大模型测评结果与分析

测评结果亮点

结论

你可能感兴趣

中文大模型基准测评报告：ChatGPT发布一周年报告

中文大模型基准测评2025年9月报告

中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

中文大模型基准测评2025年5月报告

中文大模型基准测评2024年4月报告

中文大模型基准测评2025年上半年报告

中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估

中文大模型基准测评2025年3月报告

2024中文大模型阶段性进展年度评估：中文大模型基准测评2024年度报告

中文大模型基准测评2025年年度报告：2026开年特别版：含1月底重磅模型动态评测