CRASE® 评分模型性能总结
一、CRASE® 评分模型概述
自2007年创建CRASE®以来,CRASE研究团队已对数百个开放型问题和作文题目进行了训练。这些评分模型被应用于各种类型的评估中,包括英语语言艺术、数学、科学和政府等科目,并覆盖了从四年级到十二年级的学生。大多数模型针对特定题目进行训练,但也有一些跨题目的模型,即同时在多个相似作文题目上进行训练。
二、评分模型性能评估
本报告主要基于2016年至2019年间作文题目的评分模型表现进行分析。主要评估了两种指标:
-
Quadratic Weighted Kappa (QWK):这是一种常用的自动评分指标,用于衡量两个独立评分者之间的评分一致性。QWK值越接近1,表示一致性越好。
-
精确同意率:这是另一个常用的评分指标,表示两个独立评分者给同一篇作文相同评分的比例。理想情况下,该比例应接近100%。
三、评分模型的具体表现
在2016年至2019年间,CRASE研究团队共训练了253个作文题目的评分模型。其中,165个题目具有可供参考的人类评分数据。这些数据表明:
-
精确同意率:
- 共有101个题目的精确同意率达到或超过了行业标准。
- 140个题目的精确同意率至少达到了行业标准的95.125%。
- 25个题目的精确同意率低于行业标准。
-
Quadratic Weighted Kappa (QWK):
- 共有90个题目的QWK达到或超过了行业标准。
- 151个题目的QWK至少达到了行业标准的90%。
- 14个题目的QWK低于行业标准。
四、影响评分准确性的因素
为了保证评分模型的准确性,需要考虑以下几个方面:
- 评分准则的明确性:评分准则应清晰明确,以便评分者能够准确区分不同分数等级的作文。
- 评分实践的最佳做法:遵循最佳评分实践,如适当的培训、资格测试、定期使用有效性论文等。
- 评分数据的质量:每个题目应有多份评分数据,尤其是极端分数点的数据。
- 数据量:每种分数点至少需要100-200篇作文,以提高评分模型的准确性和可靠性。
结论
CRASE+在大多数作文题目上的评分表现符合行业标准,尤其是在精确同意率和QWK方面。这表明CRASE引擎能够在实际操作中有效地进行作文评分。