《增强型ACT链接研究报告》 董梅李,沙里尼卡波特,安阿瑟,黄志宇,赵永武,仇晨,王红玲 执行摘要 从2025年4月开始,ACT将引入ACT增强版形式。测试全国在线考试,预计到2026年春季在全国、州和地区以及国际纸笔考试和在线考试参与者中全面推广。ACT通过改变考试长度和考试时间、每个题目提供更多时间、重新平衡报告类别、增加嵌入式实地测试题目、将科学测试设为可选以及将ACT综合分数从英语、数学、阅读和科学(EMRS)平均分改为仅英语、数学和阅读(EMR)平均分进行了重大更新。这些增强功能详细信息可在ACT网站上查看() 。wwwactorgactenhancements尽管有这些变化,改进后ACT测试旨在测量与旧版ACT相同结构。为确保历年分数一致性,ACT决定在改进测试中维持旧版136分评分标准。 在产品发布前,进行了两项特别研究:一项是2024年6月进行链接研究,旨在将增强版形式与旧版形式相连接;另一项是2024年10月进行模式研究,旨在考察增强版ACT纸质版和在线版之间分数可比性。本文件重点关注2024年6月链接研究分析和发现。 2024年6月链接研究采用了随机分组设计,其中两种增强形式和一种传统形式在线进行并随机分配给参与者。最终清洗后数据集包含6882名学生。在开展统计链接之前,考察了这些增强对学生测量结构和学生表现影响。随后,对增强形式心理学特性进行了检查,并与传统形式进行了比较。 为了检验构建等价性,ACT使用不同模型进行了确认性因子分析。增强形式拟合指数和因子负荷量与每个模型传统形式相似,表明测量构建一致性。为了检验增强对学生表现影响,ACT检查了完成率、快速响应率、跳过率和学生对调查问题回答。对于某些测试部分,有些证据表明在测试完成率和学生对有足够时间完成测试感知上存在一些小积极影响。 等效方法被用于将改进形式与原有形式联系起来。链接结果稳健性得到了子群不变性证据支持,这种不变性与近期平行ACT形式等效中观察结果相似。进一步分析被进行以评估链接分数心理测量属性,包括可靠性、标准误差等。 测量(SEM)、条件测量(CSEM)以及ACT大学入学准备标准与ACT分类一致性WorkKeysNCRC指标。 可靠性对于增强形式分别为EMRS综合指标096和EMR综合指标094,以及测试部分083至088之间。正如预期,这略低于传统形式可靠性,这是由于测试长度减少所致。因此 ,测试部分与大学预备指标分类一致性之间观察相关性也略有下降,正如预期那样。 在SEM和CSEM方面,传统ACT分数CSEM对于综合分数约为1,对于测试部分约为2。虽然增强形式在每个测试部分得分上显示出CSEMs约提高半分点增长,但CSEMs在分数尺度上变性与传统测试相似。此外,增强形式四舍五入SEM与传统测试分数告中所用SEM相似(综合分数约为1,测试部分得分约为2),除了阅读SEM略高于25。因此,测量精度变化对分数解释影响非常小。 总来说,增强版ACT测试测量了与原版ACT测试相同结构,并在相同量表上告分数 。这些增强对学生表现影响很小,尽管有一些证据表明对测试完成率和学生对有足够时间完成测试认识有轻微积极影响。尽管测试长度减少导致了预期中测量精度下降,但对分数解释影响微乎其微。因此,增强版ACT测试和原版ACT测试分数可以相互替代使用。 概览ACT增强功能及专项研究 从2025年4月开始,参加全国考试日期在线参加ACT考试学生将参加增强版ACT考试。随后,在2025年9月,增强版ACT考试将面向所有国内外学生推出。最后,在2026年春季,增强版ACT考试将提供给州和地区学生。主要改进包括缩短测试长度和总体测试时间,每项测试时间增加,科学测试现在为可选项目,嵌入现场测试项目,以及ACT综合分数现在不是从英语、数学、阅读和科学成绩平均值计算,而是从仅英语、数学和阅读成绩平均值计算。尽管有这些变化,增强版ACT旨在测量与旧版ACT相同结构,并维持136评分尺度。 为准备2025年4月开始增强型ACT考试,ACT进行了两项特别研究:2024年6月一项链接研究以及2024年10月一项模式可比性研究。链接研究目标是评估结构不变性和将增强型ACT考试与原有ACT考试相连接。模式可比性研究目标是评估纸笔和在线考试分数是否等效 ,并实现不同模式下分数互换。 表1总结了增强版和传统ACT测试中各测试部分测试长度和测试时间变化,通过比较项目数量、测试时间和每项平均时间。在传统ACT中,所有项目均计入学生总成绩,但在增强版ACT中,只有有效项目计入学生总成绩。 表1项目数量与测试时间在传统形式与增强形式之间比较 测试章节 项目数量 测试时间 遗产 增强 总时间分钟 平均时间每项目秒数 总计 操作性 实地测试总计 遗产增强 遗产增强 English 75 40 10 50 45 35 36 42 数学 60 41 4 45 60 50 60 67 阅读 40 27 9 36 35 40 53 67 科学 40 34 6 40 35 40 53 60 六月份链接研究中科学测试总时间为45分钟(平均每项68秒),但后来改为40分钟(平均每项60秒)。 该改进包括测试长度和总测试时间减少,但每项平均时间增加。在改进后ACT考试中,英语、数学、阅读和科学测试运行项目数量分别减少了35个(47)、19个(32)、13个(33)和6个(15)。传统ACT考试EMRS综合评分基于215个项目,而改进后ACT考试EMR综合评分将基于108个项目。项目数量为 项目对EMR综合评分贡献减少了107(50),这是由于测试长度减少和计算中排除科学导致。 正如表1中注释所指出,在2024年6月链接研究中,增强型科学测试采用了不同时间安排,测试时间为45分(比传统ACT测试多10分)。在ACT审查了额外10分对科学测试表现影响,并考虑到在科学选考情况下需要最大化测试效率后,增强型科学测试时间从45分 调整为40分。2024年10月模式可比性研究重新审视了时间调整,并确认增加5分对于科学测试来说是足够。 本文件聚焦于2024年6月链接研究结果。它首先描述了用于研究资料。随后展示了关于结构等价性和心理测量特性数据分析及结果,接着是链接研究方法和详细结果。最后,提供了时间分析结果以及主要发现和结论摘要。 数据收集设计和样本人口统计 在2024年6月链接研究中,使用了其中一个传统ACT表格(以下简称“传统表格”)以及两个增强型ACT表格(以下简称“增强表格1”和“增强表格2”)。 人口特征研究样本五年级ACT 测试量 另一个性别 02 03 女性 543 522 性别 男性 447 444 不进行回复 08 09 缺失 01 23 美印第安人阿拉斯加原住民 07 08 亚洲 48 52 黑人非裔美国人夏威夷原住民其他太平洋岛民 145 119 种族民族岛民 01134 13602 白色 580 542 两个或多个种族 50 44 不进行回复 34 38 缺失 01 59 表2人口统计学特征(百分比) 西班牙裔拉丁裔 该研究参与者是2024年6月ACT国家考试网络测试者。当学生们注册参加考试时,他们可以选择在线或纸质考试。 参与者选择在线测试获得了额外权限和研究信息。不同意参与研究学生可以选择注册参加笔试。数据是在线上使用随机分组设计收集,其中包括Legacy表格、增强表格1和增强表格2在测试中心学生中进行循环,包括使用额外时间安排学生。全国超过180个测试中心参与了该项研究。最终清洗数据集包括6882名学生:Legacy表格2298名,增强表格12280名,增强表格22304名。 样本性别和种族民族特征详见表2。为进行比较,还包括了过去5年ACT国家测试人口统计数据。参加传统形式样本平均ACT综合得分为2157,标准差为(此处缺少具体数值)。SD553。相比之下,平均综合指数和 SD过去5年中,ACT考试人群中比例分别为2072和581。因此,该研究样本性别、种族民族和分数分布代表了ACT考试人群。 构建等价 有效链接要求之一是测试特征高度相似,包括构造、人口、推断和测量特征(KolenBrennan,2014)。增强版ACT旨在通过测量相同构造得出相同推断。增强版ACT测试规范与原始ACT测试规范相似,但测试部分长度和或时间不同。 表3一因子模型模型拟合统计量 p平均 主题表格2df值RMSEACFI标准化 2加载中 test 遗产 7008428 2700 00 03 95 055 English 增强1 1749684 740 00 02 97 052 增强2 1710667 740 00 02 97 051 遗产 4150435 1710 00 03 97 055 数学 增强1 1739304 779 00 02 97 050 增强2 2197379 779 00 03 95 049 遗产 1771695 740 00 03 97 055 阅读 增强1 594894 324 00 02 99 052 增强2 514656 324 00 02 99 051 遗产 2096352 740 00 03 97 056 科学 增强1 1528193 527 00 03 95 050 增强2 1193889 527 00 02 97 051 为了评估结构等价性,ACT心理计量学家为三种形式估计了确认性因子模型。使用操作评分项和加权拟合了一系列模型。 最小二乘估计量。这些模型都是单因素模型,其中所有条目都加载在每个测试部分单个潜在因素上,该因素代表每个测试部分(例如,英语)知识或能力。表3告了每个测试部分单因素模型模型拟合统计量。Hu和Bentler(1999)可接受拟合指南包括非显著性2均方根误差(RMSEA)小于006,比较拟合指数(CFI)值大于095。基于RMSEA和CFI,该模型对所有形式和部分均符合可接受准。果2测试结果已知会受到样本大小影响,因此使模型拟合良好,当样本量大时,也可能得到具有统计学意义显著结果。表3中还展示了单因素模型平均标准化因子负荷。平均标准化负荷值介于049到056之间,表明项目与遗留和增强版ACT测试潜在因素之间具有中等相关性。 此外,在每个测试部分内告类别都拟合了确认性因素分析模型,且在传统和增强形式下, 告类别得到了相似因素负荷。 心理学特性 ACT调查了测试变更对测量精度、测试分数可靠性和ACT测试间观察分数相关性影响。还对分数解释实际影响以及个体分数决定一致性进行了考察。 条件测量标准误、测量标准误和信度 在1989年,ACT测试量表调整为沿分数尺度具有大致相等条件标准误差测量(CSEMs)。后续测试形式通过一系列等值链与基础形式进行等值,对所有ACT形式CSEMs进行了持续监测。预计新测试形式在统计和内容方面尽可能接近基础形式时,将最好地保持恒定CSEM属性。 规格说明。然而,由于测试规格和时间推移中形式难度逐渐变化,传统形式之间存在差。正如预期那样,随着年份增加,评分尺度上CSEMs(连续学生等效模型)表现出增加 变性,但传统ACT多项选择题部分仍然大致保持约2CSEM(连续学生等效模型)(ACT,2024)。 ACT对增强型ACT测试形式规模分数CSEMs(条件标准误差测量)和测量标准误差(SEMs)进行了考察,以评估测量误差是否在不同分数间仍然大致相等,以及误差大小是否超过了在传统ACT分数告中所告误差量(,每个选择题部分为2,综合分数为1)。CSEMs、SEMs和可靠性是基于Kolen等人在1992年所描述四参数贝塔复合二项模型进行估计。图1展示了每个测试部分CSEM图。尽管传统形式、增强形式1和增强形式2CSEMs在规模分数上具有相似模式,但由于测试长度缩短,两种增强形式都增加了CSEMs。尽管如此,增强形式1CSEMs 并且2仍然大约位于分数尺度多数部分,除了它们在阅读方面正接近3。 图1各部分测试测