您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[稀宇科技&CLUE]:中文大模型基准测评2024年4月报告 - 发现报告
当前位置:首页/其他报告/报告详情/

中文大模型基准测评2024年4月报告

2024-04-30徐老师、朱老师稀宇科技&CLUEC***
中文大模型基准测评2024年4月报告

中文大模型基准测评2024年4月报告 —2024年度中文大模型阶段性进展评估 SuperCLUE团队 2024.4.30 精准量化AGI进展,定义人类迈向AGI的路线图 AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI. 一、国内大模型关键进展 •2023-2024年大模型关键进展 •2024年值得关注的中文大模型全景图 二、测评体系 •中文大模型基准SuperCLUE介绍 •测评体系、方法及示例说明 目录 三、大模型综合测评结果 •SuperCLUE模型象限 •国内外大模型总体表现及竞争格局 •大模型对战胜率、成熟度指数及开源格局 •评测与人类一致性分析 四、通用维度测评详细分析及示例介绍 •十大能力详细测评分数 •测评结果及示例 五、SuperCLUE2.0专项与行业基准测评 •各行业、专项、多模态测评基准 •未来两个月基准发布计划 六、优秀模型案例介绍 •优秀模型案例介绍 第1部分 2024年4月大模型关键进展 1.2023-2024大模型关键进展2.中文大模型全景图 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 SuperCLUE:AI大模型2023-2024年关键进展 爆发期 • • • • • OpenAI发布GPT-4Turbo、多模态GPT-4V 腾讯发布混元助手 •OpenAI发布文生视频Sora•Meta开源Llama3 • 百川智能发布Baichuan3 • 商汤发布SenseChat5.0 字节跳动公测大模型产品豆包 • 智谱AI发布GLM-4 • KimiChat支持200万上下文 百度升级文心一言4.0 OPPO发布AndesGPTvivo发布BlueLM 零一万物开源Yi-34B 科大讯飞升级星火3.0阿里云开源Qwen-7B • 科大讯飞发布星火3.5 • X.AI开源Grok-1 成长期 • MiniMax发布ABAB6 • MiniMax发布ABAB6.5 • • OpenAI发布GPT-4 百度发布文心一言1.0清华开源ChatGLM360发布360智脑 科大讯飞发布星火 • Meta开源Llama2 百川智能开源Baichuan华为发布盘古3.0 商汤科技发布商量2.0 云从科技发布从容大模型 • Google发布Gemini1.5 • Claude3发布 • 准备期 • • • • Google开源Gemma • 天工3.0MOE模型发布 • • • • 阿里云开源qwen1.5 • • • • • • • • ...... 阶跃星辰发布Step系列通用大模型 ...... •阿里云发布通义千问•西湖心辰发布西湖大模型 小米发布大模型MiLM Google发布 多模态大模型Gemini • 故事的起点:ChatGPT发布国内迅速形成大模型共识 (关键进展) 2022.122023.026月 12月2024年1-2月2024年3-4月时间 BlueLM AndesGPT 闭 源 字节云雀大模型 孟子 玉言 云天书 通用大模型 开 源 Yi-34B 行业大模型 医疗 MedGPT 汽车 教育 金融 工业 文化/零售/交通 MindGPT 蚂蚁金融大模型 AInno-15B 部分 领域 岐黄问道 轩辕大模型 COSMO-GPT 华佗GPT 妙想大模型 SMoreLrMo 妙笔大模型 左医GPT NomiGPT 京医千询 ...... ...... ...... ...... ...... ...... 第2部分测评体系 1.SuperCLUE介绍2.测评体系3.测评方法及示例 01 中文语言理解测评基准CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、 DataCLUE等广为引用的测评基准。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 SuperCLUE 在人工智能大模型开发的竞争日益激烈的今天,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。通过这种方法,SuperCLUE帮助用户准确理解各种AI模型的真实性能,支持他们做出更明智的选择。 独立第三方测评,非大模型方主导 三大特征 02 VS SuperCLUE 独立第三方 多轮 十大维度 高保密性 产业+用户视角 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。 同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。 测评方式与真实用户体验目标一致 SuperCLUE与其他测评的区别 其他测评 非独立第三方 单轮 学术 保密性低 03 不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。 不限于学术领域的测评,更为了服务产业界 RAG检索增强生成 中文、单文档、多文档、对比法 Role角色扮演 中文、多任务、多应用 200K超长文本-大海捞针中文、多长度分布、多题材 知识 中文、多样性知识 行业基准 汽车 金融 工业 办公 电商 政务 教育 手机 医疗 娱乐 智能座舱 已发布 语言模型基准 专项基准 Math6数学 中文、多步推理 Code3代码 端到端、多级难度 Agent智能体 工具、规划、记忆 Safety安全 安全、负责、指令 长文本 摘要、解析、创作 推理 中文、复杂推理 多模态基准 文生图 多模态理解 文生视频 图片质量 视觉感知 中文 图文一致性 常识推理 物理引擎 内容创作 图文理解 应用潜力 即将发布 多轮开放式SuperCLUE-OPEN 三大能力客观题SuperCLUE-OPT 通用基准 学术专业 中文特性 基础能力 计算逻辑推理代码知识百科生成与创作长文本角色扮演语言理解工具使用安全 DataScientricAI 自动化评估系统 数据及平台 总体综合得分 各项任务得分 各模型/版本横向对比 分布式模型调用 高效自动化评价 •模型对战 •逐点评分 通用/行业/专项测评体系 自动化评价数据 国内外模型答案库 智能质检 海量评估集 测评方法 为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由十大基础任务组成,题目为多轮开放式简答题。评测集共2194题,以下为评测集与测评方法简述。 SuperCLUE多轮开放式通用十大数据集 代码 HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。 逻辑推理 包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。 计算 包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。 理科 测评方法 工具使用 用来评估大模型的Agent能力,包括检索、调用、规划API以及通用工具使用能力的数据集。 评测流程: 我们采用高级AI模型(例如GPT-4Turbo)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。 以【逻辑推理】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。 假设在一个具体的题目中,模型A的得分如下:符合基 本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分: 因此,该题目的具体得分为4分。 最后,将所有题目的得分进行归一化处理,以确保满分 为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。 长文本 考察长文处理能力的数据集,包括全文摘要、线索摘要、多文本创作等。 语言理解 基础语义理解数据集,包括但不限于信息抽取、意图识别、情感分析、摘要。 知识百科 基础知识类数据集,包括但不限于历史、地理、科学、体育、娱乐、艺术。 文科 角色扮演 考察模型角色模拟扮演能力,包括语言风格、行为习惯、角色背景等数据集。 生成与创作 包括但不限于广告文案、技术写作、公文写作、文学创作的数据集。 安全 包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。 问题 问题背景 全面数字化生存视域下“人工智能引擎电影”(AIEM) 的出现与发展2022年以来,人工智能生成内容(AIGC)迅速发展,2023年闯入大众视野。ChatGPT类的人工智能聊天工具一时激起全民试用风潮。Midjourney、StableDiffusion、DALL·E2等文生图工具更是引起广泛的创意试验,社交媒体平台上涌现大量用户创意生成的人工智能图像内容。工具的进步使创意得以解放,人们不再需要依托绘画技巧便可以制作、创造、实现脑海中的丰富意象。Gen-2为代表的文生影像工具虽不像前两者一样广为流传,但也因其便捷、快速、直观的运动影像生成能力而引起影视行业的惊叹和关注。这里提及的各种人工智能工具拥有一个普遍特点——在短时间内快速、频繁地更新、迭代,生成能力随着数据的丰富而无限向真人、真实世界、真实感官靠近。 ...<中间省略>... 回顾历史,每一次内容分发渠道的变革,都将引起整个影视产业布局的重塑。移动互联时代,影视产业虽然取得了突飞猛进的发展,但在分发渠道上,依然有很多问题——盈利模式缺陷,传输效率低下,盗版横行泛滥等等,难以解决。伴随全面数字化的时代的开启,可以乐观地说,下一场变革已经到来。 问题 请针对所提供的文档《全面数字化生存视域下“人工智能引擎电影”(AIEM)的出现与发展_陈洪伟》,从文中抽取与“人工智能引擎电影”(AIEM)密切相关的信息,撰写一篇不超过500字的中文摘要。在摘要中,需阐明AIEM在全面数字化生存背景下的出现原因,该领域的技术进步和发展态势,以及其对影视产业未来可能带来的影响和变革。摘要应依据文章提供的论点和实例,按照逻辑顺序,先后介绍AIEM的概念基础、技术演进、行业应用和前景展望。 模型答案 (通义千问2.1) 随着全面数字化生存时代的来临,一种新型电影形态“人工智能引擎电影” (AIEM)应运而生。AIEM是数字电影发展的深化产物,其诞生与成长根植于信息的数字化与信息化进程。信息的数字化始于将传统非比特信息(如胶片电影)编码为数字信息,实现信息的传播;数字信息化则表现为在数字信息领域内完成 信息的生成与传播,无需传统信息手段介入。电影产业中,从传输数字化到内容数字化、流程数字化的演进,为AIEM的孕育提供了土壤。 AIEM作为一种高度数字化、依赖比特信息交互构建并传播的电影