大语言模型评测 张奇 复旦大学 1 这对NLP研究来说不是好事,而是巨大的问题! 评测推动了NLP的进展,但是面临很多问题 阅读理解 Dynabench:RethinkingBenchmarkinginNLP 从2评测集合公开到算法超越人类的时间越来越短 大语言模型都有哪些种类? 3 强化学习 用户指令 十万量级用户指令 强化学习方法 1-100GPU 天级别训练时间ChatGPT、Claude RL模型 "大"语言模型的不同阶段 指令微调 标注用户指令 数十万用户指令和对应的答案 语言模型预训练 1-100GPU 天级别训练时间MOSS、ChatGLM6b、 Vicuna-13B等 SFT模型 奖励函数 标注对比对 百万量级标注对比对 二分类模型RM模型 1-100GPU 天级别训练时间 预训练阶段 原始数据 数千亿单词:图书、百科、网页等 语言模型预训练 1000+GPU 月级别训练时间 GPT3.0、LLaMa、PaLM 基础模型 数据集合 算法模型 资源需求 不同种类的大模型评测应该有不同的方法 基础语言模型不具备指令理解能力 SFT模型和RL模型可以完成多种任务、要能够服从人类指令 SFT和RL模型评测现状 6 现有大模型评测类型 评测分类维度 题目类型 评测方式 题目难度 题目范围 客观题主观题 人工GPT4评测模型 初高中本科以上 通用领域 有标准答案无标准答案 7 HELM HELM:HolisticEvaluationofLanguageModels(斯坦福,2022)提出了语言模型的整体评估,以提高语言模型的透明度“场景、任务、指标” HELM数据集与指标 应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。 评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性 (Calibrationanduncertainty)、稳健性(Robustness)、公 平性(Fairness)、偏见和刻板印象(Biasandstereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。 部分场景与评价指标 crfm.stanford.edu/helm/v0.2.2/? HELM评价方式 1.应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。 语言模型、问答、摘要三个任务的prompt设计比对 2.评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibrationanduncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Biasandstereotypes)、有毒性 (Toxicity)以及效率(Efficiency)。这些指标用 于评估语言模型在不同应用场景下的性能。 3.大规模评估方法:在42个场景下对30个语言模型进行大规模评估。评估方法是通过修改prompt并加入5个样例,将语言模型拓展到需要评估的任务上。这种评估方法可以有效评估和比较语言模型在不同应用场景下的性能,为进一步改进和优化提供参考。 HELM评价结果 HELM得到了25个结论 1.Instruction-tuning:优势在于模型参数量小的情况下取得突出结果。 2.模型准确性与获取方式的关系:开源模型相对较差,随着时间推移差距可能变大或变小。 3.校准对模型准确性的影响:取决于场景和迁移方式,可能成正比或反比。 4.鲁棒性和公平性对准确性的影响:在一些扰动下的最坏情况准确度,可能需要权衡。 5.性能差距与人口统计层面的关系:不同人群可能存在性能差距。 6.生成性损伤的固定偏差和毒性:在核心场景中平均很低,但仍对社会有危害。 7.准确性与效率的关系:模型大小和准确度成正比,但训练和推理开销增大。 8.问题回答中的生成结果差异:在不同问题回答场景中观察到明显差异。 9.信息检索任务的模型表现:比较好但未达到SOTA水平。 10.摘要任务中模型生成超越官方参考摘要:需改进摘要基准和评估指标。 11.情感分析任务的模型表现:准确性和校准性表现好,但鲁棒性和公平性下降。 12.毒性检测中模型准确性和鲁棒性差异大:大多数模型不够准确。 13.杂项文本分类中模型表现差异:在不同子集/任务上存在显著差距。 14.语义理解中模型准确性和语言建模的差异:最优模型在某些任务上可能表现最差。 15.模型大小与获取世界知识能力的关系:模型大小对知识获取能力提升重要。 16.推理能力的提高对代码模型效果的影响:代码模型比文本模型表现好。 17.长序列的版权/证件材料记忆能力:逐字记忆和准确性成正比。 18.大模型在生成支持给定论点的逼真标题方面有效:但生成鼓励特定行动的文本效果有高有低。 19.准确性与偏见之间的关系:最准确模型存在与社会一致的偏见/歧视。 20.毒性生成与核心场景的关系:核心场景中毒性生成概率很低。 21.大模型的全面性表现:超过某些专业化模型。 22.提示对模型表现的影响:对提示格式和上下文示例敏感。 23.多选择迁移方法对模型表现的影响:迁移方式影响模型表现。 24.上游复杂度与下游准确度的关系:上游复杂度不能可靠预测下游准确度。 25.模型规模的趋势与准确性的关系:模型规模可预测准确性,但效率可能不够高效。 AGI-EVAL AGI-EVAL:AHuman-CentricBenchmarkforEvaluatingFoundationModels(微软2023.4) 专门用于评估基础模型在「以人为本」(human-centric)在标准化考试,如高考、公务员考试、法学院入学考试、数学竞赛和律师资格等考试中的表现 AGI-EVAL:数据集 AGIEval数据集遵循两个设计原则 •强调人脑级别的认知任务: •与现实世界场景的相关性: AGIEVAL选择了多种标准化的高质量考试,强调人类水平的推理和现实世界的相关性 具体包括: •普通高校入学考试 •法学院入学考试 •律师资格考试 •研究生管理入学考试(GMAT) •高中数学竞赛 •国内公务员考试 AGI-EVAL:评测方式 •评估了三个模型:GPT-4,ChatGPT和Text-Davinci-003 •采用Zero-shot和Few-shot设置进行评估。在Zero-shot设置下,模型直接对问题进行评估;而在Few-shot设置下,模型在对测试样本进行评估之前,会先看到同一任务中的少量例子。 •实验中使用了CoT策略:1、接收到提示 「Let’sthinkstepbystep」为给定的问题生成解释接着2、模型会接收到另一提示 「Explanationis」,根据先前的解释生成 最终的答案。 •对于多选题,使用了标准分类准确率进行评估;对于填空题,使用了精确匹配 (EM)和F1指标进行评估。 AGI-EVAL:评测结果 •GPT-4在所有任务中都显著优于其同类产品。 •ChatGPT在需要外部知识的任务中,例如地理、生物、化学、物理和数学,明显优于Text-Davinci-003,而在依赖语言理解和逻辑推理的任务上,两者的表现相当。 •虽然这些模型的表现总体上良好,但它们在处理需要复杂推理的任务上仍有局限性。 LLM-as-a-judge JudgingLLM-as-a-judgewithMT-BenchandChatbotArena(U.C.Berkeley2023.6)使用LLM作为判别器来评估这些模型在更开放的问题上的表现 三种评判方式 •成对比较:LLM裁判被呈现一个问题和两个答案,并被任务确定哪一个更好或宣布平局。 •单个答案打分:LLM裁判直接为单个答案分配分数。 •参考引导打分:提供参考解决方案,引导LLM裁判做出判断。(适用于数学题) 两种评测基准 •MT-bench •Chatbot-arena LLM-as-a-judge 问题集 •80题 •8个常见的用户提示类别:写作,角色扮演,提取,推理,数学,编程,知识I(STEM),和知识II(人文/社会科学) •每个类别设计10个多轮问题 MT-bench问题示例 LLM评测 •每个问题都涉及到两个回合来评估 •两个完整的对话显示在一个提示中,让LLM法官专注于第二个问题 •右图是一个LLM评测MT-bench的示例prompt prompt示例 LLM-as-a-judge:评测结果 偏见 •位置偏见:更倾向第一个位置 •冗长偏见:更倾向文本更长的回答 •自我提升偏见:更倾向于自己生成的回答 一致率 •强大的LLM可以达到超过80%的一致性率,与人类专家之间的一致性水平相当 •当模型之间存在显著的性能差异时,GPT-4与人类的一致性更好 主张为未来的LLM基准采用混合评估框架 ChatbotArena ChatbotArena:BenchmarkingLLMsintheWildwithEloRatings(UCBerkeley2023.5)众包基准平台:lmsys.org/blog/2023-05-03-arena/ ChatbotArena:评测方式 1v1对战 •每次1v1对战系统都会随机拉两个chatbot上场PK 用户评测 •用户需要同时和这两个chatbot聊天,然后决定哪个更好 ELO机制 •一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动中 ChatbotArena:评测结果 评测结果截至7月1日 C-EVAL C-EVAL:AMulti-LevelMulti-DisciplineChineseEvaluationSuiteforFoundationModels (上交、清华2023.5) 旨在评估基础模型先进知识和推理能力的首个全面的中文评测套件 C-EVAL 包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别 •人文学科(humanities) •社会科学(SocialScience) •STEM •其他学科(other) 科目不同颜色代表不同水平 蓝色:初中绿色:高中黄色:大学红色:专业级 数据量与题目示例:数据的主要来源是互联网上免费提供的模拟考试,一部分大学水平的问题是中国顶尖大学过去的考试问题,由学生公开分享,一小部分大学问题是全国研究生入学考试的模拟问题,大约2000个问题来源于微普网站(收费) 数据集:https://huggingface.co/datasets/ceval/ceval-exam C-EVAL:评测方式 CoT测试示例 •仅有选择题 •专门分出C-EVAL-HARD,其中包括高等数学、离散数学、概率和统计、大学化学、大学物理、高中数学、高中化学和高中物理,中国第一个提供复杂推理问题的基准 •选择小型模拟试题为主,减轻数据污染 •用准确性作为衡量标准 •zero-shot评估 •few-shot(5-shot)评估,提供5个实例样本 •在每段中文文本下面添加英文翻译 •两种测试:AO(AnswerOnly)&&CoT(ChainofThought) AO测试示例 网站评测结果(截至7月1日) cevalbenchmark.com C-EVAL:评测结果 •低于50B参数规模的模型只能取得比随机基线不到10%的改进 •COT提示不一定能改善C-EVAL中许多科目的结果 •COT稍微提高了GPT-4在C-