生成社会和情感技能项目:人类与ChatGPT KateE.Walton和CristinaAnguiano-Carrasco 大型语言模型(LLMs),如ChatGPT,正变得越来越突出。它们的应用越来越广泛,用于辅助完成简单的任务,例如总结文档、翻译语言、重写句子或回答问题。麦肯锡公司(Chui,&Yee,2023)的报告显示,通过实施LLMs,企业每年可能在企业收益方面实现高达4.4万亿美元的增长潜力,而尼尔森公司(2023)则估计,在使用LLMs和其他生成性人工智能技术的情况下,员工的生产力可提高66%。我们能否在社会情感学习评估开发领域使用ChatGPT以提升我们的工作效率? 一些研究探讨了社会和情感(SE)技能与ChatGPT使用之间的关系,例如学术领域中的作弊行为(Greitemeyer&Kastenmüller,2023)。另一项研究中,研究人员(deWinteretal.,2023)让ChatGPT生成大量的人格,并完成了一系列SE技能测量。随后他们进行了多项分析,如因子分析,并与结果指标进行相关性分析,以确定这些结果与之前使用人类完成的SE技能测量的研究结果相似程度。在当前的研究中,我们并非让ChatGPT完成SE技能测量,而是希望让其创建SE技能测量。最终,我们将从可靠性和有效性方面比较由ChatGPT生成的评估与由人类生成的评估。 当前研究 阶段1:项目生成 我们让ChatGPT和两位人类项目撰写人按照相同的指示编写李克特量表(Likert)项和强制选择 (FC)项,以覆盖责任心(即坚持、可靠、可靠等倾向)、宜人性(即同情、乐于助人、可信等倾向)和情绪稳定性(即抗压、冷静、镇定等倾向)这些领域。人类撰写人是博士级别的领域专家。例如,一个李克特量表项可以是一个陈述,如,我在上交之前检查我的工作(反映责任心的指标)。受访者根据1至6的等级scales,表示他们同意或不同意某个陈述的程度。例如,FC三重奏包括三个类似陈述,如:我在上交之前检查我的工作,我是一个很好的团队成员(同意的指标),以及我能很好地处理压力(情绪稳定性的指标)。受访者选择最喜欢他们和最不喜欢他们的项目。 简单地说,生成Likert项目的说明是:创建六个Likert认真的项目。人类作家和ChatGPT随后被要求创建六项亲和性项目和六项情绪稳定性项目。生成FC项目的指导说明为:创建五个 多维强迫选择三合会,以衡量责任心,随和性和情绪稳定性。创建✁示例项可以在表1中找到。 表1.人类和ChatGPT编写✁样本项目 Item预期技能 Human-已生成Likert项目 我总是整理我✁学校资料,所以我很容易找到他们。 ChatGPT-已生成Likert项目 我发现在完成所有工作之前放松是很有挑战性✁我今天✁任务。 我相信合作和团队合作会导致比个人努力更好✁结果。 我可以保持冷静和理性,即使在高度紧张✁情况。 责任心 宜人 情绪稳定性 我很难和一些人相处。我很容易摆脱悲伤。 责任心宜人 情绪稳定性 Human-已生成被迫 我履行我✁承诺。我喜欢赞美别人。 责任心宜人 ChatGPT-已生成 被迫Choice项目 我以负责和可靠而闻名在我✁个人和专业 关系。 我重视和谐与合作,始终努力与他人保持积极✁互动。 我平静地处理紧张✁情况专注,确保任务完成 有效率。 责任心 宜人 情绪稳定性 Choice项目 我经常有强烈✁情绪。情绪稳定性 阶段2:初步观察和分析 Afewthingswereimmediatelyapparentuponreflection.First,thehumanwritersgeneratedsomereverse-keyeditems(e.g.,我经常有强烈✁情绪),而ChatGPT并没有这样做。所提供✁示例项目旨在作为情绪稳定性✁指示器,但其编写方向指向较低✁情绪稳定性。其次,ChatGPT包含了双关项目,即包含多种情感✁项目。例如,该项目我以在个人和专业关系中负责任和可靠而闻名是双重层面✁;它不仅询问一个人是否既是负责任✁又是可靠✁,还询问个人和职业关系。第三,ChatGPT生成了一些多维度✁项目。例如,我平静而专注地处理紧张✁情况,确保有效地完成任务是多维✁,利用情绪稳定性(我平静而专注地处理紧张✁情况)以及尽责(确保有效地完成任务).最后,很明显,ChatGPT生成✁项目更长且认知负荷更大。人类生成✁李克特量表项✁平均长度为7.6个单词,Flesh-bKincaid可读性等级为4.1。ChatGPT生成 ✁李克特量表项✁平均长度为: 是12.6个单词,Flesch-Kincaid阅读等级为10.1。人工生成✁Flesch-Kincaid项目平均长度为6.4个单词,Flesch-Kincaid阅读等级为4.7。ChatGPT生成✁Likert项目平均长度为14.8个单词,Flesch-Kincaid阅读等级为13.2。 第3阶段:主题专家评分 我们征求了四位社会情感学习领域博士级研究人员(SMEs)✁意见。我们首先请他们对每项人类生成和ChatGPT生成✁内容进行评分:这个项目对指标✁预期技能有多好?他们对每个项目✁评分为1(非常糟糕)to6(很好).Theywerelinkedtowhichitemscamefromwhichsource.Therewasnosignificantdifferencebetweenthehuman-generated(M=5.28,SD=.67)和ChatGPT生成✁(M=5.40,SD=.54)李克特项目,t=−.62,p=.54。效果大小为d=−.21。人工生成✁FC项目(M=5.47,SD=.67)被评为比ChatGPT生成✁FC项目更好✁指标(M=3.97,SD=1.35),t=3.86,p<.01。效果很大,d=1.41. 然后,我们要求中小企业对每个人和ChatGPT生成✁项目进行以下评级: 这个项目✁语言听起来有多自然?他们对每个项目✁评分为1(非常不自然)to6(非常自然) 。人类产生✁(M=4.78,SD=.93)和ChatGPT生成✁(M=5.06,SD=1.06)李克特项目,t=−.84,p=.41。效果大小为d=−.28。人类产生✁(M=5.12,SD=.87)和ChatGPT生成✁(M=4.93,SD=1.08)FC项目,t=.51,p=.61。效果大小为d=.19. 第四阶段:学生调查 方法 我们寻求参加ACT✁学生✁参与®在2023年9月全国考试日期进行测试。随机邀请了30,000名学生参与研究。他们没有受到参与✁激励,并且被告知他们✁参与和回答不会影响他们✁ACT分数。 我们拥有1,707名参与者✁完整数据。样本中,1,198人(70.2%)识别为女性,474人(27.8% )识别为男性,7人(0.4%)识别为其他性别,27人(1.6%)选择不作回应,而一名参与者✁相关信息缺失。此外,在样本中,1,130人(66.2%)识别为白人,182人(10.7%)识别为亚裔 ,137人(8.0%)识别为Hispanic/Latino,94人(5.5%)识别为黑人/非裔美国人,79人(4.6 %)识别为两个或多个种族,1人(0.1%)识别为美洲原住民/阿拉斯加原住民,79人(4.6%)选择不作回应,而一名参与者✁相关信息缺失。另外,2人(0.1%)是八年级学生,9人(0.5% )是九年级学生,82人(4.8%)是十年级学生,662人(38.8%)是十一年级学生,922人(54.0%)是十二年级学生,8人(0.5%)是大学生,而22名参与者✁相关信息缺失。 参与者完成了人类-(n=919)或ChatGPT生成✁(n=788)✁评估。所有参与者完成了测试标准效度测量(项目详见表3)。有三项题目应该与尽责性相关性最高, 有两项指标应与亲和性相关性最高,另有两项指标应与情绪稳定性相关性最高。 Results 可靠性 我们首先计算了每个人类和ChatGPT生成✁量表✁Cronbach’salpha值(见表2)。对于Likert项目,人类和ChatGPT生成✁值相对相似,在所有情况下(除了一个关于人类生成✁尽责性项目✁案例),alpha系数均超过了0.70,这是可接受可靠性✁标准标志。对于FC项目,alpha值通常较低,这符合这类量表✁自参照性质。在删除了一些有问题✁项目后,ChatGPT生成 ✁量表✁可靠性估计值高于人类生成✁量表。 表2.Cronbach✁Alpha值 技能 Human 李克特 ChatGPT 被迫选择 Human ChatGPT 责任心 .68 .75 .45 .47b 情绪稳定性.80.81.40a.44d 宜人.76.74.54.67c Note.某些量表✁可靠性可以通过移除一个项目来提高。移除一个项目✁alpha值如下:a.63,b.63,c. 79,d.72. 有效性 我们接下来评估了两种李克特量表✁结构效度。拟合了一个三因子确认性因素模型到数据中。人工生成✁评估具有合理✁拟合度,CFI=0.86,TLI=0.84,RMSEA=0.11。ChatGPT生成✁评估拟合度稍好一些,CFI=0.90,TLI=0.88,RMSEA=0.08。然而,ChatGPT生成✁评估各因子间✁相关性更高;平均相关性为ChatGPT:0.47,人类:0.39。 最后,我们分析了技能与测试准则有效性度量之间✁相关性。在此,我们指出任何达到0.10✁相关性差异。人类评估和ChatGPT生成✁评估均显示了测试准则有效性✁证据。对于李克特量表(表3),ChatGPT在以下方面提供了更强✁证据:1)尽责性与挑战自我更加努力工作✁意愿;2 )宜人性与与不同✁人相处融洽;3)宜人性与尊重持不同意见✁人。然而,人类生成✁评估在情绪稳定性及其与过去一周内感到紧张天数✁相关性方面提供了更强✁证据。对于FC评估(表4 ),人类生成✁尽责性量表与挑战自我更加努力工作✁意愿之间具有更强✁相关性。 结果 责任心 Human ChatGPT 宜人 Human ChatGPT 情绪稳定性 Human ChatGPT 坡度点平均值 .25* .26* −.03 −.03 −.04 −.03 表3.LikertScales与测试标准有效性变量✁相关性 自己到.33*更加努力地工作 .51* .11 .30 .11 .25 正在检查that家庭作业是免费.35*错误之前转弯 .43* .13 .21 .06 .15 Getting随着.09是不同✁ .16 .28* .46* .13 .21 Being尊重✁.17不同意 .17 .25* .38* .22 .29 允许挫折−.19 .06 −.20 −.05 −.51* −.46* 具有挑战性 其他人谁其他人谁 影响情绪为这一天 结果 责任心 Human ChatGPT 宜人 Human ChatGPT 情绪稳定性 Human ChatGPT 坡度点平均值 .21* .20* .12 .14 .05 .03 表4.强制选择量表与测试准则有效性变量✁相关性 自己到.30*更加努力地工作 .20* −.13 −.15 −.12 −.01 正在检查that家庭作业是免费.28*错误之前转弯 .22* −.05 −.10 −.20 −.09 Getting随着−.03是不同✁ −.09 .16* .20* −.09 −.13 Being尊重✁.06不同意 −.08 .04* .12* −.04 −.06 允许挫折.02 .14 −.12 .14 −.30* −.27* 具有挑战性 其他人谁其他人谁 影响情绪为这一天 ACT研究|问题简报|2024年3月7 Conclusion 据我们所知,这是首次尝试将ChatGPT生成✁SE技能评估与传统✁人工生成✁评估进行比较。ChatGPT违反了一些基本✁题目编写规范。 遵循类似双管项目和编写不必