政策研究工作论文 10931 公共公披共公露披共公授露披共权授露披权授 利用场实验中的双倍选择Lasso方法 雅各布斯西利尔斯纳乌尔艾拉什玛维大卫门肯 发展经济学研究小组2024年9月 政策研究工作论文10931 摘要 双重选择Lasso估计器已成为分析随机实验时选择控制变量的流行方法。这是为了尝试提高精确度,并减少因退出或随机不平衡导致的偏差。本文重新估计了来自发表文章的780个处理效应,以检验这种差异有多大。 实际操作中,PDSLasso与标准Ancova相比,平均仅能减少不到一个百分点的标准误差,并且在一半以上的情况下不会选择变量来建模处理。作者讨论并提供了关于研究人员在使用这种方法时面临的关键实际决策的证据。 本文是发展研究小组、发展经济学的一部分成果。它是更大努力的一部分。 世界银行将提供对其研究的开放访问,并为围绕以下主题的发展政策讨论做出贡献: 世界银行政策研究工作报告也发布在网页上,网址为httpwwwworldbankorgprwp。作者可能请联系dmckenzieworldbankorg 政策研究报告系列disseminatesthefindingsofworkinprogresstoencouragetheexchangeofideasaboutdevelopment问题。该系列的一个目标是将研究结果迅速发布,即使报告的呈现可能并不完全完善。论文包含 作者名字应当相应引用。本论文中表述的研究结果、解释和结论完全是作者个人的观点。作者的观点。它们不一定代表国际复兴开发银行世界银行的看法。 其附属机构,或世界银行执行董事或他们所代表政府的机构。 由研究支持团队制作 利用场实验中的双倍选择Lasso方法 雅各布斯希利斯,乔治城大学NourElashmawy世界银行发展研究组大卫麦肯齐,世界银行发展研究组 关键词:治疗效应;随机实验;双选Lasso;脱落;统计功效。JEL分类代码C93C21O12 我们感谢不同论文的作者在我们复现他们的代码时解答了我们的疑问;感谢ChristianHansen、KasparWuthrich、CarolinaLopez 、AnjaSautmann、GregLane、ErinKelley以及世界银行半成品研讨会中的参与者提供了有益的评论。Elashmawy的研究资金由RobertSMcNamara奖学金项目提供。 1引言 在简单随机实验中,将感兴趣的结果对治疗指标进行回归将给出平均差异估计量,它提供了一个无偏的平均影响的估计。然而,虽然在期望上是这样的,在任何给定的随机抽样中,治疗组和对照组的平均值可能因为许多协变量而有所不同,且这些差异很大的概率会随着样本量的增加而降低。提高平衡和估计精度的方法之一是通过事前设计选择,例如使用分层或成对匹配()。白 2022BruhnandMcKenzie2009一种补充方法是通过回归控制不同协变量来对均值差异进行事后调整。例如,在Ancova估计的回归中添加滞后结果作为协变量,当结果高度自相关时可以大大提高功效( 。麦肯齐2012然而,一旦超越了随机化层次和控制滞后因变量的限制,开始将其他基础变量作为控制变量时,问题就出现了:应该考虑多少其他的协变量,以及如何选择它们。常常有人提出担忧,这种协变量调整是临时的,涉及到大量的研究人员自由度,并可能导致phacking(。Simmons等人2011 双选滞后(PDSLasso)估计量Belloni等。2014b作为在实地实验中选择控制变量的原则性方法,迅速获得了人气。起初这可能会让人感到惊讶,因为PDSLasso最初是为观察性研究中的因果推断而开发的。该方法通过两次使用最小绝对收缩和选择算子(Lasso)来选择控制变量:一次是为了选择有助于预测感兴趣的结果的协变量,另一次是为了选择有助于预测治疗状态的协变量。然后,它将这两个集合的并集作为治疗回归中的控制变量。但如果目标是仅仅提高治疗估计的效率,那么建模治疗状态就变得不明确了,为什么实地实验研究人员不使用仅根据其预测结果的能力选择协变量的现代机器学习方法()Bloniarz等人2016郭等 2021List等人2022Wager等人2016吴和加农巴茨施2018 本文探讨了为什么以及如何在使用随机田间试验中使用PDSLasso,以及它应该被如何使用。两个有助于区分田间试验与研究中大型AB在线平台实验的特征。郭等2021和List等人2022样本量和流失率是田野实验研究者常面临的挑战。田野实验研究者通常处理相对较小的样本量,通常在100到1000个观测值之间,增加样本量成本高昂,而统计功效是关键关注点。在小样本中,由于处理状态的大型随机不平衡,可能会出现导致希望调整基线差异的均值差异。此外,小样本量增加了能够提高精度的必要性。 通过添加有助于减少感兴趣结果方差的协变量。但较小的样本限制了从非线性机器学习方法中受益的能力 ,同时也提出了关于使用在域实验应用中常见的样本大小时,用于证明正则化参数选择合理的渐近结果是否有效的问题。Wuthrich和Zhu2023最近的研究表明,在变量数量相对较大的有限样本中,PDSLasso可能会选择不足变量,当这些变量与处理措施有适度关系时,可能导致遗漏变量偏差。其次,发展中国家的大多数现场实验依赖于调查数据来获取许多结果,这些数据可能存在流失。在针对96个现场实验的调查中,Ghanem等人2023发现平均流失率为15。这引发了这样的担忧:如果流失的决定因素随着治疗状态的不同而不同,那么可获得数据的样本可能不再在治疗组之间可比。这为双重选择方法提供了进一步的潜在理由,这些方法可以选择预测流失数据中治疗状态的协变量。但问题仍然存在,即这在实践中是否真的有太大的影响。 我们复制并重新分析了2017年至2022年间在三个经济期刊上发表的、使用PDSLasso进行研究的实地实验论文,结果产生了780个处理估计值。我们利用这一分析来识别PDSLasso的关键实践问题和性能,并将估计值及其标准误差与使用简单Ancova所获得的估计值进行比较。我们发现,尽管作者通常在PDSLasso中输入长列表的变量作为潜在的控制系统(中位数为182个控制变量),但PDSLasso通常最终只选择非常少的控制变量。中位数是三个控制变量,在超过一半的情况下,在处理回归步骤中根本没有选择任何变量。当选择变量用于处理时,几乎永远不会选择那些用于预测感兴趣的结果的变量。因此,PDSLasso在平均上导致处理估计值和标准误差的最小变化,系数的中位变化为001个标准差,中位标准误差是Ancova的992。在超过四分之一的情况下,标准误差实际上略大于仅使用Ancova的情况。因此,研究人员不应期望使用此方法在平均上获得显著的效力提升。 我们将此重新分析与模拟相结合,以观察PDSLasso何时表现更好或更差,并帮助回答应用研究者面临的实际问题。在我们的重新分析中,我们发现当存在流失时,治疗回归步骤更有可能选择控制变量,但即便如此,典型系数的变化仍然很小,这反映了田野实验中的流失通常是由于与结果无关的原因。我们表明,PDSLasso有时可能不如Ancova精确(在某些模拟中具有更高的均方误差),因为通过输入许多控制变量 ,存在Lasso惩罚导致关键变量,如滞后因变量未选择的危险。我们建议将此类变量插入必须包括的改进集中。 我们研究使用不同的惩罚参数(如通过交叉验证选择的参数)是否能够提高性能。尽管平均来说它给出了稍微小一些的标准误差,但我们发现它可能会导致过拟合,有时甚至导致标准误差显著增大。考虑到这些有限的平均收益和可能的不良性能风险,使用标准插件惩罚似乎更可取。我们建议研究人员在选择输入此过程的控制变量时需要更加审慎,尤其是在实践中典型的少量样本情况下。我们随后讨论了这种方法在具有多个结果、多个处理以及处理交互中的应用。我们发现应用工作中出现了两个常见的错误,关于潜在控制变量中的缺失变量如何处理,以及交互变量如何输入,并提供了避免这些错误的建议。最后,我们总结了在实际应用此方法时的清单。 2双重选择Lasso方法 我们总结了在实地实验中估计治疗效果最常用的现有方法(均值差异和Ancova),然后将其与双选择lasso方法进行比较。Belloni等。2014b 考虑以下部分线性模型,以结果y为例,对于观察值i12n: yTgziiii 1 在哪里T是一个虚拟变量,当单位i被分配到处理组时取值为1,否则取值为0。 我:i 否则;z是一组控制变量,以及是不可观测的,满足ETz0 我:i我:iiii 21差值均值估计量 在纯随机分配的情况下,我们有ETgz0,因此我们可以获得一个无偏估计。 ii 平均分配到治疗组的平均影响希腊字母通过一个简单的均值差异方程: yTiii 2 此差异均值估计量的方差将取决于残差项的方差 我:i 在更复杂的随机分配设计中,治疗分配可能取决于用于定义随机化层或匹配对的控制变量。然后可以为这些变量添加控制。 地层或对数方程2。 22Ancova 当均值差异估计量是无偏时,通过包含帮助解释感兴趣结果控制变量,效率可以得以提高。y这样 一个变量在应用工作中占有特殊地位,那就是感兴趣结果基线值。y近似gz(笑脸符号)与y提供了 0我:i0 Ancovaestimator yTyS 我:i我:i我:i0ii 在何处S是一组用于任何随机化层虚拟变量。麦克纳森2012显示 我:i 3 此估计量在比较均值估计量方面提高了功效,且功效提高程度随着感兴趣结果自相关性增强而增大。这种基本协方差分析(Ancova)规范已成为许多随机田野实验默认规范。除了提高功效外,它还调整了对关键感兴趣结果基线差异估计,这些差异可能源于随机抽样中偶然不平衡,或来自流失,调整幅度数据驱动,并取决于基线差异对未来结果预测程度。 在很多应用中,我们预计结果基线值相对于任何基线协变量而言,对未来结果值预测能力最强。然而 ,结果基线测量可能并不总是可用,或者在某些情况下,样本中每个人可能是相同。例如,一项针对年轻求职者实验可能将就业和收入作为主要研究结果,但在基线时,所有人可能都是失业且收入为零。 23理论中PDSLasso 基准结果只是众多潜在控制变量中一种,研究人员可能使用。Belloni等。 2014b考虑从一组控制中选择控制问题p潜在自变量您没有提供任何英文文本,请提供需要翻译英文内容。Pz,它可以 我:i我:i 由组成z并且不同转换和交互z旨在近似该函数gz 我:i我:i我:i 他们指出,有可能pn即,潜在控制变量数量是多维,甚至可能超过数据集中观测值数量。在随机现场实验中,这种情况可能发生有三个原因。首先,基线调查或项目申请表通常收集申请项目人或企业许多特征数据。这可能会进一步通过社区或地理特征得到增强。其次,由于函数形式g)是未知,可能需要考虑基线变量相互作用、多项式或其他非线性变换。 第三,作为List等人2022注意,在某些设置中可能会有多轮预处理数据,然后问题就变成了如何最好地控制变量多重滞后。 由于他们重点是观察性研究中因果推断,Belloni等。2014b()还使用部分线性模型来建模治疗方法: Tmzviii 4 Evz0ii 函数g和m未知。关键假设Belloni等。2014b这使得这些模型大约是稀疏,意味着存在线性近似。您没有提供任何英文文本,请提供需要翻译英文内容。待翻译内容gz和 g0我:i 我:i 您没有提供任何英文文本,请提供需要翻译英文内容。待翻译内容mz需要仅用少量非零系数来近似这些函数函数 m0我:i我:i 对一个小近似误差。向量您没有提供任何英文文本,请提供需要翻译英文内容。这包括一个常数项 ,以及所有自变量。 我:PiDSLasso方法随后遵循三步程序: 被认为是。 第1步选择预测结果控制变量。y通过Lasso回归y关于协变量您没有提供任何英文文本,请提供需要翻译英文内容。不包括治疗指标: yxxxxi1i12i2jijpipi 5