全方位评测神经网络模型的基础能力 演讲人:张铭二级教授 北京大学计算机学院博士生导师 mzhang_cs@pku.edu.cn 张铭简介 •研究方向为机器学习、图神经网络、知识图谱、推荐系统、AIforScience等 •发表论文300多篇,Google学术上的论文被引19200余次,H因子48 •LINE模型@WWW2015被引6300余次,图表征学习基准模型 •获ICML2014惟一最佳论文,WWW2016最佳论文提名,ICDM2022最佳论文提名张铭主持的在研项目 2023.11–2026.12,多层次教育知识图谱构建、检索与推理,国家重点研发计划课题 2023.1–2026.12,预训练图表示学习辅助的药物发现研究,国家自然科学基金 2023.10-2026.10,北大-安克具身智能联合实验室,安克创新 2023.8–2024.8,低信噪比时序数据的可扩展式计算表征学习(二期),正仁量化 2023.11–2025.10,指导北京市自然科学基金本科生“启研”计划 •教育部计算机教指委委员,获2021年CCF杰�教育奖 •主持北京大学《数据结构与算法》,获国家级精品课程、首批国家一流本科课程 •北京大学《科技创新与创业》校友讲座课程主持人 CONT目E录NTS 01 背景与动机 02 多模态STEM能力评测 03 语言与社会规范评测 04 总结与展望 背景与动机 当前的评测指标缺少了什么? 制造一艘火箭,需要具备哪些能力? 科学 (Science) 工程 (Engineering) 技术 (Technology) 数学 (Math) •STEM能力是解决真实世界中许多重要问题的基础 •模型是否理解多模态STEM科目的能力至关重要 •过去的评测数据集常常只关注专家级别的能力,涵盖的技能过于分散 •缺少针对STEM科目的多模态数据集 我可以把瓶子扔到草地上吗? 这么做或许并不违反法律 这么做不符合社会规范 History Philosophy Language SocialNorms … Geography Civics •过去的评测数据集常常只关注于高阶的人类价值观 •缺少数据集用来评测模型对于社会规范形成过程中的基础能力的掌握 STEM数据集:评估模型的基础STEM科目的能力 发表于机器学习国际顶会ICLR2024会议 Dataset:https://huggingface.co/datasets/stemdataset/STEM Code:https://github.com/stemdataset/STEM Leaderboard:https://huggingface.co/spaces/stemdataset/stem-leaderboard Arxiv:https://arxiv.org/abs/2402.17205 Social数据集:评估模型对于基础社会规范的掌握 发表于自然语言处理国际顶会NAACL2024会议 Dataset:https://huggingface.co/datasets/socialnormdataset/social Code:https://github.com/socialnormdataset/socialagent Paper:https://arxiv.org/abs/2404.02491 多模态STEM能力评测 百万量级多模态细粒度STEM评测数据集 Dataset LeMaderboaerd aPsaperuringVision- LanguageSTEMSkillsofNeuralModels ICLR2024 https://arxiv.org/pdf/2402.17205 JianhaoShen*,YeYuan*,SrbuhiMirzoyan,MingZhang♤,ChenguangWang♤ SchoolofComputerScience,PekingUniversity NationalKeyLaboratoryforMultimediaInformationProcessing,PekingUniversityPekingUniversity-AnkerEmbodiedAILab WashingtonUniversityinSt.Louis [jhshen,yuanye_pku,mzhang_cs]@pku.edu.cn,srbuhimirzoyan@stu.pku.edu.cn,chenguangwang@wustl.edu *EqualContribution ♤CorrespondingAuthors 本报告的STEM数据主要来源于三个习题网站,通过程序爬取与人工检查筛选的方式得到约百万道题目 提出的STEM数据集包含了STEM科目(即Science/Technology/Engineering/Math)的多模态题目,涵盖了教育标准的K-12年级的难度 每道题目都需要用到图像感知能力,并包含年级与技能知识点的标签 数据集共包含了448个技能知识点,共1,073,146道选择题,在技能知识点的数目与题目数量上均是最大规模的多模态STEM科目数据集 按照6:2:2的比例分为训练集、验证集、测试集 选项数量分布 问题类型分布 数据集包含了大规模的基础STEM技能知识点 每个年级下的技能知识点数量与问题数量分布示意图 零样本模型设置 测验分数: 考虑了学生学习进展 用于评测人类对于STEM科目技能的掌握情况 高于90.0的分数被视为掌握了某个技能知识点 人类准确率:采样了80道题目,人类准确率为83.0% 利用IXL网站的测验分数来比较模型与人类的表现差异,利用模型的输出在网站测验获得分数 测验分数与模型准确率呈正相关 从准确率与测验分数上看模型表现均仍弱于人类学生的平均水平 问题变长、选项数量变多和样例数量变少,模型的表现都会下降 模型的测验分数随着题目所属年级的升高而降低 困难的技能点:抽象知识与复杂推理 困难的技能点:抽象知识与复杂推理 错误类型分析:基于Zero-ShotCLIP模型采样25个错误问题并人工分类 校准性(Calibration):微调过的模型具有更好的校准性(wellcalibrated) 规模(Scaling):更大的模型具有更好的效果 •我们提出了最大规模的视觉-语言STEM科目数据集,包含了1,073,146道选择题目,涵盖了K-12教育的448个技能知识点,包含了年级、知识点等细粒度数据 •我们评测了以CLIP为代表的多模态模型与以GPT-3.5-Turbo为代表的大语言模型两种基础模型 •我们使用了在线习题网站来评测模型的测验分数,从而和真实的人类水平做比较,发现大模型在这些基础科目上仍然落后于人类 •通过增强STEM的基础知识,帮助研究人员更好地评估模型,并通过细粒度的数据分析有针对性地改进模型 Dataset Leaderboard Paper STEM数据集:评估模型的基础STEM科目的能力 发表于机器学习国际顶会ICLR2024会议 Dataset:https://huggingface.co/datasets/stemdataset/STEM Code:https://github.com/stemdataset/STEM Leaderboard:https://huggingface.co/spaces/stemdataset/stem-leaderboard Arxiv:https://arxiv.org/abs/2402.17205 语言与社会规范评测 细粒度基础社会规范评测数据集 Dataset MCode eaPsaperuringSocialNorms ofLargeLanguageModels NAACL2024 https://arxiv.org/pdf/2404.02491 YeYuan,KexinTang,JianhaoShen,MingZhang♤,ChenguangWang♤ SchoolofComputerScience,PekingUniversity NationalKeyLaboratoryforMultimediaInformationProcessing,PekingUniversityPekingUniversity-AnkerEmbodiedAILab WashingtonUniversityinSt.Louis [yuanye_pku,jhshen,mzhang_cs]@pku.edu.cn,tkx@stu.pku.edu.cn,chenguangwang@wustl.edu ♤CorrespondingAuthors 数据来自于K-12年级,采用了两个科目:语言、社会科目 Social数据集拥有最大规模的技能知识点数量 数据来源:IXL 每个年级的技能数量分布 每个年级的问题数量分布 选项数量分布 问题类型分布 评测早期的问答模型:UnifiedQA模型与近期的大语言模型 大语言模型带来了明显的效果提升,但仍然落后于人类表现 评测早期的问答模型:UnifiedQA模型与近期的大语言模型 大语言模型带来了明显的效果提升,但仍然落后于人类表现,可以通过设计进一步的智能体框架进行提升 外部知识库(如Wikipedia)可以帮助大模型获取更精确的知识 LLM Let’sthinkstepbystep. 我们设计了一个多智能体交互的方案,增强模型在社会规范数据集上的表现 设计思路:不同的智能体可以通过相互交流的方式增强彼此的能力,并获得最终的答案 我们的多智能体交互的框架可以使LLMs达到和人类水平相当的成绩 模型效果随规模增大而提升 消融实验:推理模块至关重要 这些技能需要更准确的知识作为支撑,因此我们的多智能体方案获得了显著的效果提升 类似于人类做题时随年级提升,题目难度增大,题目准确率降低,模型在测验分数与准确率指标上也有此特征 Social数据集(NAACL2024) •我们提出了评测大语言模型对于社会规范的基础理解能力的大规模数据集,包含了K-12难度的402个技能知识点的基础题目,共包含12,383道选择题目; •我们评测了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo •我们提出了SocialAgent方案,可以增强模型的推理能力,并利用外部知识使模型更好地理解社会规范,通过该方法大模型在可以获得和人类水平相当的表现 Dataset Code Paper Social数据集:评估模型对于基础社会规范的掌握 发表于自然语言处理国际顶会NAACL2024会议 Dataset:https://huggingface.co/datasets/socialnormdataset/social Code:https://github.com/socialnormdataset/socialagent Paper:https://arxiv.org/abs/2404.02491 总结与展望 STEM数据集(ICLR2024) •提出了最大规模的视觉-语言STEM科目数据集,包含了1,073,146道选择题目,涵盖了K-12教育的448个技能知识点,包含了年级、知识点等细粒度信息 •评测了以CLIP为代表的多模态模型与以GPT-3.5-Turbo为代表的大语言模型两种基础模型 •使用了在线习题网站来评测模型的测验分数,从而和真实的人类水平作比较,发现模型在这些基础科目上仍然落后于人类 未来工作:评测近期的多模态基础模型(如LLAVA,GPT-4等)的表现 Social数据集(NAACL2024) •我们提出了评测大语言模型对于社会规范的基础理解能力的大规模数据集,包含了K