您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[美国国家经济研究局]:为什么变换Y? 倾斜和有时为零结果的回归模型中因变量转换的临界评估 - 发现报告
当前位置:首页/其他报告/报告详情/

为什么变换Y? 倾斜和有时为零结果的回归模型中因变量转换的临界评估

为什么变换Y? 倾斜和有时为零结果的回归模型中因变量转换的临界评估

美国国家经济研究局工作论文系列 为什么改变Y? 回归模型中因变量变换的偏斜和有时为零的结果的批判性评估 约翰Mullahy爱德华 ·c·诺顿 工作文件30735http://www.nber.org/papers/w30735 国家经济研究局(NATIONALBUREAUOFECONOMICRESEARCH) 麻萨诸塞州大道1050号马萨诸塞州,剑桥021382022年12月 感谢ParthaDeb,MattHarris,DanMillimet,BhavnaRai,PaulRathouz,JonSkinner以及2022年年度健康计量经济学研讨会,中西部计量经济学小组,亚洲计量经济学和卫生经济学研讨会以及宾夕法尼亚州立大学的参与者的有用评论。本文致力于纪念我们的同事、导师和朋友威尔·曼宁。本文表达的观点是作者的观点,不一定反映国家经济研究局的观点。 分发NBER工作文件供讨论和评论之用。它们没有经过同行评审,也没有接受NBER官方出版物随附的 NBER董事会的审查。 ©2022年,约翰·穆拉希和爱德华·诺顿。保留所有权利。未经明确许可,可以引用不超过两段的短段文字,但须注明来源,包括©通知。 为什么要转换Y?回归模型中因变量变换的偏斜和有时为零的结果的关键评估约翰·穆拉希和爱德华·诺顿NBER工作 文件第30735号2022年12月冻胶。甜,使用C18一块 摘要 非负变量、服从右偏分布且在零时概率质量大,在实证经济学中经常出现。变换因变量y的两类模型— —y的自然对数加上常数和反双曲正弦——在实证工作中被广泛使用。我们表明,这两类模型有几个共同的特征,引起了人们对其应用的担忧。当因变量经常被观察到为零时,这些问题尤其突出,在许多情况下,这是首先使用它们的主要动机。问题的症结在于,这些模型有一个额外的参数,该参数通常不是由理论决定的,但其值对点估计有巨大的影响。当这些参数达到极值时,对结果自然尺度的边际效应估计接近未变换线性回归或赋范线性概率模型的边际效应。在各种模拟数据中,两部分模型会产生正确的边际效应,OLS对未变换的y和泊松回归也是如此。如果研究人员关心估计边际效应,我们建议使用这些不依赖于变换的简单模型。 约翰Mullahy 威斯康星大学麦迪逊分校人口健康科学系787WARF,610N.核桃街 麦迪逊53726和NBERWI 爱德华·c·诺顿 卫生管理与政策系经济系密歇根大学公共卫生学院的 1415华盛顿高地,M3108斯皮伊安娜堡,MI48109-2029 和NBER ecnorton@umich.edu 我认为他将会转换成一个野兽 Wm。莎士比亚,因为你喜欢它(二7) 介绍 实证经济学中一个熟悉且长期关注的问题是非负面结果y的回归模型的规范。我们考虑的特定设置是,结果不仅是非负的,而且结果的非平凡份额等于零,零是真正的零,而不是缺失,这是一个不同的问题。例如,在卫生经济学(作者领域)中,突出的例子包括医疗保健使用(例如,Mullahy,1998),卫生服务支出(例如,Manning等人,1987)和各种健康结果测量(例如,Khan等人,2008 )。在劳动经济学、国际贸易、农业经济学和许多其他方面也会出现具有类似测量属性的结果。 关于这种建模的计量经济学策略已经写了很多(例如,DebandNorton,2018),并且已经写了更多的总结在实证分析中部署此类策略的研究。本文的目的是评估实证工作中常用的一些此类方法的性质、优点和缺点。虽然我们考虑的方法对许多读者来说很熟悉,但我们推测这些方法的一些重要属性可能并不那么熟悉。我们的最终目标是让考虑应用这些方法的实证研究人员熟悉特定方法在回答 他们试图回答的基础研究问题方面可以提供和不能提供的内容。我们特别关注的是转换结果变量的规范,通常是为了处理积极结果中的正确偏度。如果标量结 果表示为y和 一个外生协变量的向量表示𝒙,然后是一个规范的规范𝑓(𝑦)′� 𝜀,在那里𝑓(∙)是一种单调变换。当然,没有理由必须在这样的环境中使用变换,事实上,许多人(包括作者)都主张指定依赖于未转化结果测量的模型,并适应其非负性——以及其相应条件均值的严格积极性质。 𝐸[𝑦|𝒙]—使用对数链接广义线性模型(GLM)等估计策略(Mullahy,1998年;布劳、马登和霍恩布鲁克,1999年;Deb,Norton,andManning,2017)或泊松回归(例如,Wooldridge,2010,Chapter18)。 尽管变换后的因变量不需要用于对条件分布的有趣特征进行建模￿(￿|￿)像条件手段一样,事实仍然是它们经常用于应用工作。因变量的自然对数变换在实证经济学中有着悠久的历史。最近,反双曲正弦变换变得流行起来。逆双曲正弦变换已用于劳动经济学(Autor等人,2022年;Gihleb等人,2022年),农业和环境经济学(Bellemare等人,2013年;贾亚钱德兰等人,2017年;日元和琼斯,1997年),公共经济学(卡利尔等人,2022年;彭斯,2006年)、慈善捐赠(布朗等人,2015年;卡罗尔等人,2005年)和经济史(赫布利希等人,2022年)。 我们介绍了实证研究中经常使用的两个突出的转换模型,它们可以适应结果的零实现: 自然对数:饾憮饾憴饾憶(饾懄,饾憪)=ln(饾懄饾憪) 反双曲sin:Farcsin((y,k)=arcsinh(ky)=ln<ky+=(ky))+ 我们的大部分重点将放在参数c和k所扮演的角色上。在自然对数转换的情况下,参数￿保证的左边￿ ￿当定义￿=0.对于逆双曲正弦变换,尽管大多数研究人员隐含地假设￿=1,我们探索了y乘法缩放模型的行为,使用￿>0,在应用逆双曲正弦变换之前(艾霍顿和亨宁森,2021年;诺顿,2022年)。请注意,按照指定,这些转换会适应结果�≥0(反双曲正弦还允许�<0但这不是本文的重点 )。除了住宿之外�=0结果——我们对文献的阅读表明,当分析师使用对数或逆双曲正弦变换时,这是一个关键的考虑因素——这种变换也往往会降低正结果分布的偏度。我们强调,理论通常不会提供关于c和k的哪些值会诱导线性规范的信息𝐸[𝑓(𝑦)|𝒙].此外,请注意,对于任一转换,参数的值都不同𝑝(例如,�或𝑘)将诱导出不同的线性规格,即 ￿。的确,对于任何特定的规范￿它可能是更适当的考虑￿作为一个线性预测给定一个特定的￿而不是条件平均值,具有相应的估计值饾挋*饾浗G(饾憹)视为最佳线性预测。 然而,考虑到所有这些,这一领域实证分析的主要目标之一——通常是主要目标——是获得对政策参数的可靠估计,例如x的边际效应或平均边际效应对条件分布的某些函数𝑦,通常是𝐸[𝑦|𝒙].为了实现这一目标,必须将转换模型的估计值重新转换为结果的自然尺度,这一事实在兰德健康保险实验期间开发的关于涂抹估计器的文献中得到了广泛认可。 (段,1983;Manningetal.,1987),但这实际上被理解得更早(Goldberger,1968;另见HalvorsenandPalmquist,1980,andThorntonandInnes,1989)。如何从估计中得出这种边际效应𝑓(𝑦)′𝛽c,所起到的作用 而K在这种再变换中,是本文的另一个重点。 具体来说,我们证明了当额外参数趋向于极值时,相应的边际效应接近从未转换结果的线性回归中获得的边际效应(例如,OLS)或接近特定形式的线性概率模型(LPM),我们将在下面描述。当y严格为正时,已经证明ln(饾懄饾憪)以及线性(y)和对数变换(ln(饾懄))规格(艾霍顿和亨宁森,2021年;诺顿,2022年)。 我们证明,如果y的质量为零,则这是不正确的。包括零极大地改变了边际效应,与其他类似的回归相比,其中y严格为正。直觉是,这些连续变换函数(自然对数和反双曲正弦)以非连续的方式将零与正数分开,结果为￿可以以集中依赖于额外参数(即c和k)的方式对参数估计产生巨大影响。我们认为该属性以前未被认可。 对应用研究人员有几个重要意义。在具有零的变换模型中,估计的边际效应是有偏差的。这两个变换模型的边际效应估计介于未变换模型和赋范线性概率模型的边际效应之间。在因变量中包含零可能会导致系数点估计值发生显著变化,具体取决于参数(c和k)的值,部分原因是这些观测值的高杠杆性。我们将建议 与单一指数模型不同,使用质量为零的连续积极结果的研究人员考虑替代方案(例如,两部分模型( Belotti等人,2015年))。 我们也认识到护理和处理�=0结果可能是核心问题,无论出于何种原因,分析师可能更愿意避免直接对未转换的结果进行建模的模型规范,如上所述。当分析师希望避免多指标规范(例如,两部分模型)时,这种护理和处理更具挑战性。什么时候�=0结果在样本中很突出,我们展示了线性概率模型解释-与�=0和�>0定义二元结果-可能是有启发性的。 在下文中,我们将详细概述我们探索的转换模型,演示上述与线性概率模型的联系,提出对实证研究的几个影响,并使用医疗支出小组调查(MEPS)的样本提供这些问题的实证说明。我们还为Bellemare和Wichman(2020)最近有影响力的论文提供了新的见解。 模型转换Y的概述 我们首先描述和定义两个变换,特别注意形状如何随着额外参数的变化而变化(有关变换的摘要,请参见表1)。我们将显示变换的图形作为参数的函数,并在参数达到某些极值时推导出导数。这将提供所需的背景信息,以了解当结果在零时具有大量质量时,回归结果如何对这些参数敏感的主要观点。 自然对数变换广泛用于正结果,通常在目标是计算边际效应或弹性时。但是,没有定义0的自然对数,因此在分析具有一些零的结果时,作者有时会添加一个任意的正常数c(在大多数情况下�= )到结果的自然度量值,以便为所有样本观测值定义对数转换。在其他环境中,这种方法已用于医疗保健政策。例如,医疗保险和医疗补助服务中心使用实习生和居民与床位比率的对数变换-加上常数-来确定教学医院的医疗保险报销(Rogowski和Newhouse,1992;道尔顿和诺顿,2000年)。 添加一个常数cy变化的曲线饾憮饾憴饾憶(饾懄,饾憪)=ln(饾懄饾憪)用c单位与左侧的y相对 y绘制(见图1)。什么时候�=1,ln(饾懄1)经过原点�=0。c趋于零,y轴截距−∞.从取导数中还有进 一步的见解�对y。 饾憫ln(饾懄饾憪)1 ￿￿(=￿+￿) 随着c变大,关于y的导数在￿趋于零,而当c 趋于零,导数￿趋于无穷。 饾憫ln(饾懄饾憪)1 lim 𝑦,-,𝑐→-￿ ￿ l=im=∞ 𝑦,-,𝑐→-(�+𝑐) 这意味着如�→0这个函数�将零与y的所有正值分开,只要这些正值严格远离零。在这种情况下,“分离”是指�→0的区别ln(饾懄饾憪)鈥�ln(0饾憪)任意大的增长�>0.这对于估计协变量的边际效应很重要�对结果�因为在典型的回归中,系数为�反映了广泛的余地 的变化￿从0到非零,正值变化的密集余量￿.该系数是广泛和密集边际的加权平均值。作为两者之间的区别￿=0和￿>0变化,它改变了这两个边际效应之间的权重。我们的主要观点是,估计系数比以前认为的更接近于描述对广泛边际的影响(并且也被归一化,这进一步改变了幅度),并且将其解释为密集边际是不正确的和有偏见的。 逆双曲正弦变换具有一些相同的特征。反双曲正弦函数,也称为面积双曲正弦函数(记作 𝑎𝑟𝑐𝑠𝑖𝑛ℎ(𝑘𝑦)),是y的自然对数加上一个附加项,等于y平方加1的平方根。它被具有非负因变量或有时也是负因变量的研究人员使用(彭斯,2006年;贝勒马尔和威奇曼,2020年;艾霍顿和亨宁森,2021年;诺顿,2022年)。对于较大的y值,反双曲正弦函数类似于对数变换,仅相差ln(2).它还通过原点并且与原点对称,因为它允许y的负值。 更改参数k等效于更改y的比例,例如,从美元更改为便士,或在欧元和日元之间。从图形上讲,这意味着在东西方向上拉伸或压缩图形(参见图