行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中文大模型基准测评2024年4月报告

2024-04-30 徐老师,朱老师稀宇科技&CLUE Cc

中文大模型基准测评2024年4月报告总结

1. 国内大模型关键进展

2023-2024大模型关键进展：自ChatGPT发布以来，国内大模型发展经历了准备期、成长期和爆发期，目前处于爆发期，开源闭源大模型层出不穷，形成百模大战的竞争态势。
2024年值得关注的中文大模型全景图：国内大模型市场形成多梯队格局，头部企业引领发展，创业公司竞争力增强，开源模型崛起，技术开放与普及。

2. 测评体系

中文大模型基准SuperCLUE介绍：SuperCLUE是独立第三方评测机构，采用先进的自动化评测技术，确保评测结果客观公正。其特点包括：独立第三方测评、聚焦通用大模型综合测评、测评方式与真实用户体验目标一致、不限于学术领域的测评。
测评体系、方法及示例说明：SuperCLUE采用多维度、多视角的综合性测评方案，由十大基础任务组成，题目为多轮开放式简答题，题目数量共2194题。

3. 大模型综合测评结果

SuperCLUE模型象限：根据测评结果，模型被划分为不同象限，体现了其综合能力水平。
国内外大模型总体表现：GPT-4-Turbo领跑全球，国内大模型发展迅速，但与GPT-4仍存在差距。国内头部企业如百度文心一言4.0、阿里云通义千问2.1和腾讯Hunyuan-pro等引领发展，创业公司如百川智能Baichuan3、智谱AI GLM-4等表现优异。
大模型对战胜率、成熟度指数及开源格局：国内大模型在部分任务上胜率超过20%，开源模型竞争力增强，但在长文本、代码、计算、逻辑推理等能力上成熟度较低。
评测与人类一致性分析：SuperCLUE测评结果与人类对模型的评估具有高度一致性，自动化评价方式可靠性高。

4. 通用维度测评详细分析及示例介绍

十大能力详细测评分数：包括计算、长文本、代码、逻辑推理、安全、工具使用、语义理解、生成与创作、角色扮演、知识百科等。
测评结果及示例：国内大模型在长文本、安全能力上表现突出，但在代码、逻辑推理能力上仍有提升空间。示例展示了模型在不同任务上的表现。

5. SuperCLUE2.0专项与行业基准测评

各行业、专项、多模态测评基准：SuperCLUE2.0推出多项专项和行业基准，包括Math6数学多步推理、RAG检索增强生成、Code3代码、Agent智能体、Safety安全、200K中文超长文本、Role角色扮演、Video文生视频、Auto汽车基准、ICabin智能座舱基准、Fin金融基准、Industry工业基准等。
未来两个月基准发布计划：SuperCLUE将持续完善大模型专项能力及行业能力的测评基准，并征集大模型参与测评。

6. 优秀模型案例介绍

优秀模型：通义千问2.1（阿里云）、Baichuan3（百川智能）、Hunyuan-pro（腾讯）、GLM-4（智谱AI）、MiniMax-abab6.1（稀宇科技）等。
模型特点：各模型在多项能力上表现优异，具有较强竞争力，适用于不同应用场景。

中文大模型基准测评2024年4月报告 —2024年度中文大模型阶段性进展评估 2 0 2 4 . 4 . 3 0SuperCLUE团队精准量化AGI进展，定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 一、国内大模型关键进展 •2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图二、测评体系 •中文大模型基准SuperCLUE介绍•测评体系、方法及示例说明三、大模型综合测评结果 •SuperCLUE模型象限•国内外大模型总体表现及竞争格局•大模型对战胜率、成熟度指数及开源格局•评测与人类一致性分析四、通用维度测评详细分析及示例介绍 •十大能力详细测评分数•测评结果及示例五、SuperCLUE2.0专项与行业基准测评 •各行业、专项、多模态测评基准•未来两个月基准发布计划六、优秀模型案例介绍 •优秀模型案例介绍第1部分 2024年4月大模型关键进展 1.2023-2024大模型关键进展2.中文大模型全景图 2023-2024大模型关键进展 自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。第2部分测评体系 1.SuperCLUE介绍2.测评体系3.测评方法及示例 SuperCLUE介绍 SuperCLUE三大特征中文语言理解测评基准C L U E（T h e C h i n e s e L a n g u a g eUnderstanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2 0 1 9年。陆续推出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。独立第三方测评，非大模型方主导在人工智能大模型开发的竞争日益激烈的今天，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。通过这种方法，SuperCLUE帮助用户准确理解各种AI模型的真实性能，支持他们做出更明智的选择。 SuperCLUE是大模型时代C L U E基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题，SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。测评方式与真实用户体验目标一致不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，真实模拟大模型的应用场景，真实有效的考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。不限于学术领域的测评，更为了服务产业界不同于传统学术领域的评测，SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计，到行业大模型测评基准的推出，所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距，引导大模型提升技术落地效果，在通用能力的基础上更好的进行垂直领域的应用。测评方法为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由十大基础任务组成，题目为多轮开放式简答题。评测集共2194题，以下为评测集与测评方法简述。测评方法 SuperCLUE多轮开放式通用十大数据集理科评测流程：长文本-测评方法模型答案超级模型（裁判）问题（通义千问2.1）问题背景全面数字化生存视域下“人工智能引擎电影”（AIEM）的出现与发展2022年以来，人工智能生成内容（AIGC）迅速发展，2023年闯入大众视野。ChatGPT类的人工智能聊天工具一时激起全民试用风潮。Midjourney、StableDiffusion、DALL·E2等文生图工具更是引起广泛的创意试验，社交媒体平台上涌现大量用户创意生成的人工智能图像内容。工具的进步使创意得以解放，人们不再需要依托绘画技巧便可以制作、创造、实现脑海中的丰富意象。Gen-2为代表的文生影像工具虽不像前两者一样广为流传，但也因其便捷、快速、直观的运动影像生成能力而引起影视行业的惊叹和关注。这里提及的各种人工智能工具拥有一个普遍特点——在短时间内快速、频繁地更新、迭代，生成能力随着数据的丰富而无限向真人、真实世界、真实感官靠近。...<中间省略>... 随着全面数字化生存时代的来临，一种新型电影形态“人工智能引擎电影”（AIEM）应运而生。AIEM是数字电影发展的深化产物，其诞生与成长根植于信息的数字化与信息化进程。信息的数字化始于将传统非比特信息（如胶片电影）编码为数字信息，实现信息的传播；数字信息化则表现为在数字信息领域内完成信息的生成与传播，无需传统信息手段介入。电影产业中，从传输数字化到内容数字化、流程数字化的演进，为AIEM的孕育提供了土壤。我的思考与答案：AIEM是一种在全面数字化时代背景下出现的电影制作新形态，它涵盖了从信息数字化到数字信息化的全过程，以及电影制作中的传输、内容以及流程的数字化转型。AIEM利用人工智能和引擎技术，通过实时渲染和算法驱动等手段，降低了对现实物理世界的依赖，提高了创作自由度和生产效率。同时，三维影像数字资产、算法技术以及数字化分发平台的应用，都将成为AIEM发展的重要支撑点。 AIEM作为一种高度数字化、依赖比特信息交互构建并传播的电影形式，其核心特征体现在：（1）原子信息低依赖性，通过算法驱动实时渲染，显著降低了对现实世界物质材料的依赖，释放了创作自由度；（2）实时渲染技术使得导演能够即时观察和调整创作效果，极大提升了制作效率；（3）融合真人电影与动画电影的生产工艺，通过算法弥合了二者间的艺术界限，创造出更丰富多元的影像世界；（4）运转高效，流程再造，如引入实时渲染、非线性编辑等工具，简化并加速了电影制作过程；（5）分发渠道全数字化，AIEM内容能便捷地在各类数字化平台发行，且易于转化为VR版本，实现多维度分发。问题及改进的反馈意见：模型的回答沿用了问题中的文字结构和术语，提供了一个精确且连贯的AIEM的概念摘要，概述了其技术演进、行业应用和前景展望。模型的回答中虽然信息基本准确，但有少许内容的重复和例子的缺失，如在讲述AIEM技术特性时没有具体案例支持。 AIEM的出现与技术进步不仅革新了电影制作工艺，也对影视产业未来带来了深远影响与变革。首先，三维影像数字资产的重要性日益凸显，成为AIEM发展的重要支撑。加大对数字资产库的建设和管理力度，有利于在全面数字化时代抢占先机。其次，算法在AIEM制作中的主导地位愈发显著，掌握并研发先进的算法技术，以及培养能够驾驭算法进行影视创作的专业人才，将成为产业竞争的关键。最后，AIEM的全面数字化特性使其天然适配新兴的数字化内容分发渠道，如XR设备，有望重塑内容分发格局，催生新的盈利模式，提升传输效率，助力打击盗版现象。回顾历史，每一次内容分发渠道的变革，都将引起整个影视产业布局的重塑。移动互联时代，影视产业虽然取得了突飞猛进的发展，但在分发渠道上，依然有很多问题——盈利模式缺陷，传输效率低下，盗版横行泛滥等等，难以解决。伴随全面数字化的时代的开启，可以乐观地说，下一场变革已经到来。打分与评价开始： 1.基于“符合基本要求”：模型的回答以清晰的方式概括了AIEM的关键概念和重要性，并且紧紧围绕问题引导进行了答复，得4分；2.基于“推理准确性”：模型的回答在描述AIEM出现的原因和其对行业的潜在影响和变革时推理正确，准确地涵盖了所有相关信息，得4分；3.基于“结论合理性”：模型的回答合理地综合了AIEM当前的技术和未来的发展潜力，结论性的陈述符合文章的主旨，得4分。综合以上，AI助手的回答的综合得分（平均分）为4分。问题综上所述，人工智能引擎电影（AIEM）作为全面数字化生存背景下电影发展的新形态，凭借其原子信息低依赖性、算法驱动、实时渲染、流程再造及全数字化分发等特性，正在深刻改变电影制作工艺，推动影视产业向更高效、多元、沉浸式的方向发展。同时，对三维影像数字资产的重视、算法技术的创新与人才培养，以及顺应数字化内容分发趋势，将是AIEM引领影视产业未来变革的重要着力点。请针对所提供的文档《全面数字化生存视域下“人工智能引擎电影”（AIEM）的出现与发展_陈洪伟》，从文中抽取与“人工智能引擎电影”（AIEM）密切相关的信息，撰写一篇不超过500字的中文摘要。在摘要中，需阐明AIEM在全面数字化生存背景下的出现原因，该领域的技术进步和发展态势，以及其对影视产业未来可能带来的影响和变革。摘要应依据文章提供的论点和实例，按照逻辑顺序，先后介绍AIEM的概念基础、技术演进、行业应用和前景展望。逻辑推理-测评方法（首问）模型答案超级模型（裁判）首问（gpt4-turbo-0125）要确定W，X，Y和Z的类型（真实者或虚伪者），我们可以根据他们的说法以及给定的规则进行逻辑分析。1.首先考虑W说："X和我是同一类型。"这句话有两种可能性：我的思考与答案： -如果W是真实者，那么X也必须是真实者。-如果W是虚伪者，那么X实际上与W是不同类型。2.接着看X的话："Y和我是不同类型。"-如果X是真实者，那么Y必须是虚伪者。-如果X是虚伪者，那么Y实际上与X是同一类型。3.然后是Y说："Z是虚伪者。"-如果Y是真实者，那么Z确实是虚伪者。-如果Y是虚伪者，那么这句话是假的，所以Z是真实者。4.最后，Z说："W是虚伪者。"-如果Z是真实者，那么W确实是虚伪者。-如果Z是虚伪者，那么这句话是假的，所以W是真实者。现在，我们尝试根据这些信息找出一致性：-如果假设W是真实者，那么X也是真实者（根据1）。X是真实者意味着Y必须是虚伪者（根据2），如果Y是虚伪者，Z必须是真实者（根据3），这时Z说W是虚伪者与W真实者的假设矛盾。-因此，W不能是真实者，W必须是虚伪者。那么X与W是不同类型，所以X是真实者。-既然X是真实者，Y和X必须是不同类型，所以Y是虚伪者。- Y是虚伪者说Z是虚伪者，这意味着Y说的是谎言，因此Z是真实者。-如果Z是真实者，那么他的话“W是虚伪者”是真的，这与我们的推导相符。综上所述：依据给定的规则，可以通过对话和逻辑推断出每个居民的真实身份。W说X和他是同一类型，假设W是真实者，那么X也是真实者。X说Y与他不同类型，那么如果X是真实者，Y是虚伪者。Y说Z是虚伪者，假设Y是真实者，则Z是虚伪者，但Z说W是虚伪者，这就与假设W是真实者矛盾。因此，我们转换假设：W是虚伪者，则X是真实者，Y作为X的相反，是虚伪者，Y说Z是虚伪者，但因为Y是虚伪者，则Z为真实者，Z说W是虚伪者证实了我们的假设。所以得出W和Y是虚伪者，X和Z是真实者。假设我们有一个神奇的村庄，村庄中的居民都遵守一定的规则。这些规则是：信息1：村庄

点击免费查看完整报告

中文大模型基准测评2024年4月报告