从游数智化研究中心 AIUCOURSEDIGITALINTELLIGENCERESEARCHCENTER AI赋能高校课程质量评价蓝皮书(2024) 1 目录 前言3 一、2024年度课程质量评价活动概况4 1、核心数据全览4 2、区域覆盖情况5 3、院校类型分布5 4、评审模式统计6 二、AI评审的实际效益分析7 1、效率提升量化分析8 2、成本效益优化分析9 三、AI评审系统(LlamaUKP)的可靠性与一致性多维验证11 1、算法有效性实证:AI专家双盲对照研究11 2、AI与专家评审结果显著性和一致性对比12 3、高校接受度与认同度调查13 四、经典案例15 1、教育部第二批人工智能案例公布,从游科技携手郑州大学联合申报15 2、“U课评”助力郑州大学智慧课程评价创新实践获新华网报道15 3、“U课评”携手昆明理工大学,获云南官方媒体和学习强国报道16 五、结论17 前言 在高等教育高质量发展进程中,课程质量评价既是人才培养的“指挥棒”,也是教学改革的“诊断仪”。然而,传统评价模式长期面临三大结构性矛盾:人工评审效率滞后、定性分析缺乏量化支撑以及静态结果难以驱动动态优化。 《深化新时代教育评价改革总体方案》(中发202019号)明确提出“构建政府、学校、社会等多元参与的评价体系,创新评价工具”,这一要求与从游科技U课评AI课程质量评价平台(LlamaUKP)的技术路径深度耦合。平台通过多模态数据融合、百万专家智库和生成式报告引擎,实现了“数据采集智能诊断精准干预”的全链条评价升级。截至2024年12月统计数据显示,平台已通过国家版权局权威认证,获得多项计算机软件著作权登记证书,部署范围已覆盖40余所高等院校,累计完成课程评审逾2万门次。实证数据显示:在效率维 度,单课程评审耗时从传统模式的40分钟压缩至3分钟;在成本维度,综合运营费用降低80;在质量维度,AI评审结果与专家人工评审结果高度一致,标志着人工智能正在将“以评促建、以评促改”的教育理念转化为可验证的数字化解决方案。 基于上述实践成果,本蓝皮书将聚焦四大核心维度,系统阐释AI如何驱动教育评价革新: (1)U课评AI课程质量评价平台的规模化落地能力; (2)全流程效率与成本的双重变革; (3)技术可靠性与教育价值的协同验证; (4)AI赋能的教育评价生态重构实践。 通过系统性分析,平台期望为高校管理者、教育技术研究者提供可复用的AI评价实施框架,推动教育评价从“经验判断”迈向“数据智能驱动”的新阶段。 一、2024年度课程质量评价活动概况 1、核心数据全览 2024年度,从游科技“U课评”平台已服务43所高校开展课程质量评价活 动,累计完成了215万门次课程评审,平台覆盖综合类、医科类、理工科类、师范类、财经类、艺术类、警官类等多类型学校,构建了“数据采集智能分析 决策支持”的闭环评价生态,为高校提供专家评审、AI评审及混合评审等多元化选择方案。基于一站式全流程管理机制,实现课程质量评价的自动化和数据驱 动。 2、区域覆盖情况 据2024年度的平台数据显示,已有43所高校使用U课评开展课程质量评价活动。其中,西南地区共21所高校使用,占比4884。华中地区以12所高 校(2791)次之,华南等多个地区合计10所高校(2326)。 表1区域覆盖数量情况 区域 学校数量(所) 西南地区 21 华中地区 12 华南地区 7 其他地区1 3 3、院校类型分布 1其他地区指服务高校数量未达到独立统计阈值(单区域3所)的区域。根据教育统计数据处理规范,为保障数据呈现的清晰性与可比性,将此类小样本数据合并为“其他地区”类别。 据2024年度的平台数据显示,平台服务的高校已全面覆盖综合类(3256)、理工科(2326)、财经类(1628)、医科类(1163)、师范类(93)、艺术 类(465)及警官类(233)七大核心院校类别,充分体现了在平台部署的高 校类型的多样性。 表2平台院校类型数量情况 学校类型 数量(所) 综合类 14 理工类 10 财经类 7 医科类 5 师范类 4 艺术类 2 警官类 1 4、评审模式统计 基于2024年度本平台高校服务数据统计,“AI专家”2双轨评审模式已在6428的部署高校中得到广泛应用。该模式通过融合智能算法的高效性与专家的 专业判断力,实现了优势互补,显著提升了评审的科学性和精准度。在特定应用场景下,1587的高校选择纯AI评审模式,以充分发挥其高效、便捷的特点,进一步优化评审流程;另有1986的高校仍保留纯专家评审模式,以确保评审 的专业性和权威性。这一多元化的评审模式选择,充分体现了高校在课程评审活 动中对效率与专业性平衡的精准把握。表3全平台累计评审模式课程情况 评审类型 课程评审数量(门次) 仅AI评审 3413 仅专家评审 4271 AI评审专家评审 13825 二、AI评审的实际效益分析 2“AI专家”双轨评审模式是指:通过U课评平台实现AI与真人专家协同评审。 1、效率提升量化分析 基于2024年度数据,U课评平台通过算法矩阵重构实现了全流程效率的范式革新。在专家协同领域,平台构建的专家知识图谱系统通过自然语言处理技术实现领域专家精准画像,结合智能推荐引擎的实时匹配功能,将专家邀约响应周 期由传统模式的35天压缩至1天,达成4倍效能跃升;在数据可视化层面,平台开发的动态报告生成系统采用生成式AI技术,通过预训练语言模型实现结构化数据的语义化转换,将单课程分析报告生成周期由传统人工模式的1周(3360 分钟)缩减至3分钟,创造1119倍时效优化率。在课程评审维度,平台研发的智能评审矩阵系统通过多模态数据融合技术,整合课程视频、教学大纲、学生反馈等23个评估维度,借助自动化评分模型将单门课程评审周期由40分钟缩短至 3分钟,效率提升1233倍。 表4平台效率提升对比表 效率提升项 专家校方 U课评平台 效率提升 邀约专家耗时 7200分钟(35天) 1440分钟(1天) 400 课程报告制作耗时 3360分钟(1星期) 3分钟 111900 单门课程评审耗时 40分钟 3分钟 123333 2、成本效益优化分析 在2024年度课程评审的费用分析中,不同评审模式的成本效益差异显著。传统专家评审的费用为500元门,而U课评AI评审的费用仅为100元门。以某高校的课程质量评级活动为例,该高校需评审800门课程,仅采用专家评审的费用为120万元;而采用U课评AI评审的费用仅为8万元,费用节省幅度高达 9333。此外,若采用“AI专家”的双轨评审模式,总费用为48万元,相比 纯专家评审模式,费用节省了60。由此可见,使用U课评平台在高校课程评审工作中能够显著降低费用成本,同时兼顾评审效率与质量,具有较高的应用价 值。 表5单门课程评审价格对比表(专家vsAI) 评审类型 单价配置 仅专家评审 仅AI评审 AI专家3 单门课程4 1门课程1位专家 500元门 100元门 600元门 批量评审5 800门课程3位专家 120万元 8万元 48万元 3在此计算的价格为平台推荐使用的“1AI1专家”配置(此模式既满足政策要求也节省60成本)。 4单门课程:适用于单门课程评审场景,提供专家或AI的独立价格。 5批量评审:针对某高校800门课程的评审活动所计算的价格。 以西南某高校为例,该校在2024年度课程质量评价中引入U课评平台,评审800门课程的过程中,平台采用“AI专家”双轨评价模式,依托多模态数据 融合技术对教学大纲、自评报告、课程材料等23类指标进行自动化分析,并结 合生成式AI动态生成结构化评审报告。相较于纯人工模式,2024年评审总耗时缩短4667(22500分钟12000分钟),综合成本降低60(120万元48万元),同时为学校输出覆盖课程目标达成度、课程整体情况诊断、教学设计诊断 三大维度的动态质量报告,填补了传统评审的数据空白。 三、AI评审系统(LlamaUKP)的可靠性与一致性多维验证 1、算法有效性实证:AI专家双盲对照研究 从游公司与澳大利亚昆士兰大学袁博教授联合发表的论文有力地证明,U课评AI评审系统(LlamaUKP)基于大语言模型和深度学习算法,能够高效处理 课程内容与学生反馈,通过语义解析和情感分析等技术,构建多维评价体系。其技术优势在于规避人为偏见,确保评价结果的可靠性。6 实证研究表明7,U课评AI评审系统(LlamaUKP)在实际应用场景中展现 出卓越的评估效能。以华中地区某双一流高校的课程评估项目为研究样本 (n100),将LlamaUKP与专家评审的结果进行了对比分析。结果显示,LlamaUKP与专家评审的斯皮尔曼等级相关系数为0843(p001);通过BlandAltman一致性分析可见(如图10所示),LlamaUKP与专家的得分平均差异接近于0(012),相应的95置信区间包括X轴,上述结果都显示了两者之间具有良好的一致性。因此,在实践中,LlamaUKP和专家可以互换使用。 LlamaUKP和人类专家的BlandAltman图 6YuanB2024GenerativeAIasaToolforEnhancingReflectiveLearninginStudentsArXivabs241202603 7YuanB2024AnExplorationofHigherEducationCourseEvaluationbyLargeLanguageModelsArXivabs241102455 2、AI与专家评审结果显著性和一致性对比8 据2024年度平台数据统计分析,整体评分一致率达98以上(差异5), 验证了AI评审与专家评审的一致性和的高度可靠性。进一步分析表明,在不足2的差异中,差异源自于真人评审的客观局限:(1)专家主观疲劳(485),导致在评审过程中评分波动;(2)跨学科专业错位(362)引发课程理解偏差以及专家分组组间差异(153)造成的评分尺度不统一。这一结果既证实了AI评审的稳定性,也精准揭示了传统人工评审体系亟待优化的结构性痛点。 西南某高校(n820)华中某高校(n815) 表6AI与专家评审评分一致性对比(抽样样本) 评分一致性率9 (差异5) 9910395CI9860795CI10 显著差异0914 差异原因 (1)专家主观评审疲劳(485) (2)专家专业与所评课程不匹配(362) (3)专家分组组间差异(153) 8所有数据均源自U课评平台实际评审记录,经脱敏处理后进行统计分析。 9卡方检验结果(0478p005)表明两校评分一致性分布无显著差异 100307:评分一致率的波动范围(如99103即实际值在988994之间);95CI:95置信区间(ConfidenceInterval),指通过Bootstrap重抽样法计算得出,表明有95的把握认为真实一致率落在此区间 3、高校接受度与认同度调查 根据2024年度对43所高校的跟踪数据显示,平台输出的AI评审结论实现全量覆盖高校目标场景应用(100),精准触达课程优化核心痛点;基于深度学习算法生成的课程报告,其改进策略与高校实际教学需求的重合度达9767,印证了技术逻辑与教育规律的深度耦合;而AI评审与专家人工评估的结论趋同率突破9534,则进一步佐证了平台智能算法矩阵的科学性与行业适配性。 表7高校用户对AI评审的接受度与采纳率调查 认同率问卷调查项 数量(n43) 认同率 AI评审结果实用率高 43 100 课程报告与教学改进的匹配度高 42 9767 AI结果与专家评审结论一致性 41 9534 根据研究数据显示,AI评审结果与专家评审结果之间存在466的差异性,经对问卷数据的定性分析表明,此类差异主要可归结于以下三方面:材料质量缺陷(占比6332)、专家主观偏差(占比2418)以及AI情境盲区(占比125)。 建议高校在课堂质量评估中采用“AI专家”双轨评审机制: