您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京大学]:全方位评测神经网络模型的基础能力 - 发现报告

全方位评测神经网络模型的基础能力

2024-10-28张铭北京大学M***
AI智能总结
查看更多
全方位评测神经网络模型的基础能力

演讲人:张铭二级教授北京大学计算机学院博士生导师 mzhang_cs@pku.edu.cn 张铭简介 •研究方向为机器学习、图神经网络、知识图谱、推荐系统、AI for Science等 •发表论文300多篇,Google学术上的论文被引19200余次,H因子48 •LINE模型@WWW2015被引6300余次,图表征学习基准模型 •获ICML2014惟一最佳论文,WWW 2016最佳论文提名,ICDM 2022最佳论文提名 张铭主持的在研项目 2023.11–2026.12,多层次教育知识图谱构建、检索与推理,国家重点研发计划课题2023.1 – 2026.12,预训练图表示学习辅助的药物发现研究,国家自然科学基金2023.10-2026.10,北大-安克具身智能联合实验室,安克创新2023.8 – 2024.8,低信噪比时序数据的可扩展式计算表征学习(二期),正仁量化2023.11–2025.10,指导北京市自然科学基金本科生“启研”计划 •教育部计算机教指委委员,获2021年CCF杰出教育奖•主持北京大学《数据结构与算法》,获国家级精品课程、首批国家一流本科课程•北京大学《科技创新与创业》校友讲座课程主持人 CONTENTS目 录 01背景与动机 02多模态STEM能力评测 04总结与展望 03语言与社会规范评测 背景与动机 当前的评测指标缺少了什么? 背景与动机:多模态STEM数据集的缺乏 制造一艘火箭,需要具备哪些能力? •STEM能力是解决真实世界中许多重要问题的基础•模型是否理解多模态STEM科目的能力至关重要 背景与动机:多模态STEM数据集的缺乏 •过去的评测数据集常常只关注专家级别的能力,涵盖的技能过于分散 •缺少针对STEM科目的多模态数据集 背景与动机:社会规范基础能力评测的缺乏 •可信可靠的AI系统应当遵循一定的社会规范与习俗(SocialNorms) 背景与动机:社会规范基础能力评测的缺乏 •大语言模型对人类基础的社会规范的理解能力在它们与人类合作过程中至关重要 背景与动机:社会规范基础能力评测的缺乏 •过去的评测数据集常常只关注于高阶的人类价值观 •缺少数据集用来评测模型对于社会规范形成过程中的基础能力的掌握 解决方案 STEM数据集:评估模型的基础STEM科目的能力 发表于机器学习国际顶会ICLR2024会议Dataset: https://huggingface.co/datasets/stemdataset/STEMCode: https://github.com/stemdataset/STEMLeaderboard: https://huggingface.co/spaces/stemdataset/stem-leaderboardArxiv: https://arxiv.org/abs/2402.17205 Social数据集:评估模型对于基础社会规范的掌握 发表于自然语言处理国际顶会NAACL2024会议Dataset: https://huggingface.co/datasets/socialnormdataset/socialCode: https://github.com/socialnormdataset/socialagentPaper: https://arxiv.org/abs/2404.02491 多模态STEM能力评测 百万量级多模态细粒度STEM评测数据集 MeasuringVision-LanguageSTEMSkillsofNeuralModelsDatasetPaperLeaderboard JianhaoShen*,YeYuan*,Srbuhi Mirzoyan,Ming Zhang︎♤,ChenguangWang♤ School of Computer Science, Peking UniversityNational Key Laboratory for Multimedia Information Processing, Peking UniversityPeking University-Anker Embodied AI LabWashington University in St. Louis{jhshen, yuanye_pku,mzhang_cs}@pku.edu.cn,srbuhimirzoyan@stu.pku.edu.cn,chenguangwang@wustl.edu *EqualContribution♤CorrespondingAuthors STEM数据集:数据收集 本报告的STEM数据主要来源于三个习题网站,通过程序爬取与人工检查筛选的方式得到约百万道题目 STEM数据集:样例 提出的STEM数据集包含了STEM科目(即Science/Technology/Engineering/Math)的多模态题目,涵盖了教育标准的K-12年级的难度 每道题目都需要用到图像感知能力,并包含年级与技能知识点的标签 STEM数据集:基本统计 数据集共包含了448个技能知识点,共1,073,146道选择题,在技能知识点的数目与题目数量上均是最大规模的多模态STEM科目数据集 按照6:2:2的比例分为训练集、验证集、测试集 STEM数据集:基本统计 STEM数据集:技能知识点 数据集包含了大规模的基础STEM技能知识点 STEM数据集:数据分布 实验设计:评测方法 人类表现评估:测验分数与准确率 测验分数: 考虑了学生学习进展 用于评测人类对于STEM科目技能的掌握情况 高于90.0的分数被视为掌握了某个技能知识点 人类准确率:采样了80道题目,人类准确率为83.0% 利用IXL网站的测验分数来比较模型与人类的表现差异,利用模型的输出在网站测验获得分数 人类表现评估:测验分数与准确率 测验分数与模型准确率呈正相关 主要实验结果 从准确率与测验分数上看模型表现均仍弱于人类学生的平均水平 主要实验结果:分学科的情况 问题变长、选项数量变多和样例数量变少,模型的表现都会下降 主要实验结果:分数与年级 模型的测验分数随着题目所属年级的升高而降低 实验分析:细粒度分数 实验分析:案例分析 困难的技能点:抽象知识与复杂推理 错误类型分析:基于Zero-ShotCLIP模型采样25个错误问题并人工分类 实验分析:模型能力 校准性(Calibration):微调过的模型具有更好的校准性(wellcalibrated) 结论 •我们提出了最大规模的视觉-语言STEM科目数据集,包含了1,073,146道选择题目,涵盖了K-12教育的448个技能知识点,包含了年级、知识点等细粒度数据 •我们评测了以CLIP为代表的多模态模型与以GPT-3.5-Turbo为代表的大语言模型两种基础模型 •我们使用了在线习题网站来评测模型的测验分数,从而和真实的人类水平做比较,发现大模型在这些基础科目上仍然落后于人类 •通过增强STEM的基础知识,帮助研究人员更好地评估模型,并通过细粒度的数据分析有针对性地改进模型 相关链接 STEM数据集:评估模型的基础STEM科目的能力 发表于机器学习国际顶会ICLR2024会议Dataset:https://huggingface.co/datasets/stemdataset/STEMCode:https://github.com/stemdataset/STEMLeaderboard:https://huggingface.co/spaces/stemdataset/stem-leaderboardArxiv:https://arxiv.org/abs/2402.17205 语言与社会规范评测 细粒度基础社会规范评测数据集 Measuring Social Normsof Large LanguageModelsDatasetPaperCode YeYuan,Kexin Tang,JianhaoShen,Ming Zhang︎♤,ChenguangWangNAACL2024https://arxiv.org/pdf/2404.02491 School of Computer Science, Peking UniversityNational Key Laboratory for Multimedia Information Processing, Peking UniversityPeking University-Anker Embodied AI LabWashington University in St. Louis{yuanye_pku,jhshen,mzhang_cs}@pku.edu.cn,tkx@stu.pku.edu.cn,chenguangwang@wustl.edu ♤CorrespondingAuthors Social数据集 Social数据集:统计信息 Social数据集拥有最大规模的技能知识点数量 Social数据集:统计信息 Social数据集:统计信息 预实验:大语言模型的表现 评测早期的问答模型:UnifiedQA模型与近期的大语言模型大语言模型带来了明显的效果提升,但仍然落后于人类表现 预实验:大语言模型的表现 大语言模型带来了明显的效果提升,但仍然落后于人类表现,可以通过设计进一步的智能体框架进行提升 Agent设计:知识抽取 Agent设计:形式计算 Agent设计:推理知识 Let’sthinkstepbystep. Agent设计:最终框架 我们设计了一个多智能体交互的方案,增强模型在社会规范数据集上的表现设计思路:不同的智能体可以通过相互交流的方式增强彼此的能力,并获得最终的答案 主要实验结果 实验分析:模型能力 实验分析:细粒度分数 实验分析:细粒度分数 结论 Social数据集(NAACL2024) •我们提出了评测大语言模型对于社会规范的基础理解能力的大规模数据集,包含了K-12难度的402个技能知识点的基础题目,共包含12,383道选择题目; •我们评测了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo •我们提出了SocialAgent方案,可以增强模型的推理能力,并利用外部知识使模型更好地理解社会规范,通过该方法大模型在可以获得和人类水平相当的表现 相关链接 Social数据集:评估模型对于基础社会规范的掌握 发表于自然语言处理国际顶会NAACL2024会议Dataset:https://huggingface.co/datasets/socialnormdataset/socialCode:https://github.com/socialnormdataset/socialagentPaper:https://arxiv.org/abs/2404.02491 总结与展望 总结 STEM数据集(ICLR2024) Social数据集(NAACL2024) •提出了最大规模的视觉-语言STEM科目数据集,包含了1,073,146道选择题目,涵盖了K-12教育的448个技能知识点,包含了年级、知识点等细粒度信息 •我们提出了评测大语言模型对于社会规范的基础理解能力的大规模数据集,包含了K-12难度的402个技能知识点的基础题目,共包含12,383道选择题目 •评测了以CLIP为代表的多模态模型与以GPT-3.5-Turbo为代表的大语言模型两种基础模型 •我们评测了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo •我们提出了SocialAgent的方案,可以增强模型的推理能力,并利用外部知识使模型更好地理解社会规范,