Heckman两阶段模子适用于惩办由样本弃取偏差(sample selection bias)形成的内素性问题。在经济学规模,样本弃取偏差的典型例子是接头女性的受评释情况对女性工资的影响。按照这个想路,一般会去问卷蚁集或在哪个网站下载部分女性的受评释情况,工资,额外他特征数据,举例年级,毕业院校等第等个东谈主特征,然后作念回顾。不外这么作念有一个问题,即是登记的女性,齐是在责任的,但是很多受评释进度较高的女性不责任,弃取作念家庭主妇,这部分样本就莫得算在内,样本失去随即性。这就导致模子仅仅用到了在责任的女性情欲印象bt,这么得出的论断是有偏差的。在照管学规模,一个典型的问题是企业的某个特征,或者董事/CEO的某个特征,对企业R&D干涉的影响。亦然一样的问题,企业的R&D干涉是企业自发败露的内容,有的企业不败露,这时你作念回顾时就不成包括这部分样本,也会形成样本弃取偏差,终结有偏。
对于这种情况,Heckman漠视了一个方法,赫克曼矫处死(Heckman Correction,又称两阶段方法)。赫克曼矫处死分两个法子进行:
第一法子,接头者字据照管学表面联想出一个计较企业败露R&D干涉概率的模子,而该模子的统计忖度终结不错用来预计每个个体的概率;
第二法子,接头者将这些被预计个体概率团结为一个额外的解释变量,与其他法例变量等变量沿路来矫正自弃取问题。这个比率叫逆米尔斯比率,inverse Mills ration, imr,也即是说,在第一步计较出imr,在第二步把imr动作一个法例变量。
以企业R&D干涉问题为例,假定全样本是1000家公司,其中800家公司败露了其R&D干涉。
第一阶段的模子,是一个包括全样本(1000家)的Probit模子,用来忖度一家公司是否会败露其R&D干涉的概率。这里的因变量是二元的,示意是否败露R&D干涉;自变量是一些会影响是否败露R&D的外生变量,比如其他收入生意收入,杠杆率,公司规模,所属行业等等。然后字据这个Probit模子,为每一个样本计较出imr,imr作用是为每一个样本计较出一个用于修正样本弃取偏差的值。
第二阶段,在原本的回顾方程,也即是原本唯有800家公司的样本的方程假如imr作为法例变量,其他齐不变,然后忖度出回顾参数。这时不论imr需要权贵,imr权贵性和统共标明了样本弃取偏差是否存在以及倡导,阐述样本弃取偏差确实影响了你当先模子的忖度,这正标明了使用Heckman两步法雠校样本弃取偏差的必要性。imr不权贵阐述原模子不存在严重的样本弃取偏差,这时Heckman第二步得到的终结应该与原模子得到的终结差未几(需要比对一下)。第二步神志的对象是中枢解释变量是否权贵。只消中枢解释变量权贵,就阐述终结妥贴。
小编这次征集到了heckman两阶段模子的stata do代码以及计较数据案例,有需要的一又友千万不要错过!
结束法子起初,计较全部样本的IMR;随后,将遗漏变量IMR代入原回顾方程中,具体来说:
第一步:用probit方法忖度弃取方程,其华夏回顾方程的被解释变量y是否被不雅测到或是否取值的造谣变量y_dummy作为probit的被解释变量,解释变量包括原回顾方程统统解释变量和至少一个外生变量,该外生变量只影响y是否取值,而不影响y的大小,即得志关连性和外素性的要求(但不是用具变量)。忖度出统统变量的统共后,将样本数据代入至probit模子中,计较出拟合值 y_hat,再将y_hat代入风险函数入网算出IMR。
有四点需要持重:(1)弃取方程的被解释变量是原回顾方程中被解释变量y是否被不雅测到或是否取值的造谣变量,即y_dummy,当y取值不为空(包括取值为0)时,y_dummy等于1,唯有当y_dummy取值为空(missing)时,y_dummy才等于0。对于这极少,践诺应用中存在的问题是,即便咱们十分了了存在样本弃取偏差,但由于前期数据征集进程中奏凯忽视了y取值为空的样本,因此无法选定样本弃取模子,因为样本弃取模子第一步弃取方程使用的是统统样本,包括y取值为空的样本和取值不为空的样本。
(2)弃取方程的被解释变量只然而原回顾方程中被解释变量y是否被不雅测到或是否取值的造谣变量,而不成是其他变量,更不成是解释变量是否取值的造谣变量。要是第一步回顾的被解释变量是原回顾中解释变量是否取值的造谣变量,那么该模子就不再是样本弃取模子了,对于这极少,实质应用中日常被搞混。
(3)第一步弃取方程的解释变量必须要包括原回顾中统统解释变量和至少一个外生变量,也即是说,原回顾的解释变量是弃取方程解释变量的真子集。要是只使用原回顾中一部分的解释变量或不引入外生变量,那么就不成确保IMR与原回顾的随即侵扰项不关连,从而形成忖度统共一经存在偏误。实质应用中,大批文件并未引入外生变量,部分文件以致莫得讲演第一步弃取方程中的解释变量,这么的作念法十分不推选。此外,论文中要是引入了外生变量,就需要对关连性与外素性进行具体阐述,其中关连性不成只从外生变量的回顾统共权贵这一个方面进行阐述,还要从其他文件和从表面上进行分析;外素性的阐述与之雷同。
(4)第一步弃取方程只可使用probit模子进行回顾,不成使用logit模子。在弃取方程中,假定扰动项苦守正态散布,从而不错推导出将IMR代入原回顾方程不错缓解样本弃取偏差问题,因此对于被解释变量为0-1型的造谣变量,只可使用probit模子而不成使用logit模子,因为logit模子不具有扰动项苦守正态散布的假定。但问题是,probit假定时分效应和个体效应与扰动项不关连,即第一步弃取方程中只可使用随即效应模子,不成使用更一般化的固定效应模子。实质应用中,大批文件在讲演第一阶段回顾终结时,在末尾加上“时分固定效应 - Yes”、“个体固定效应 - Yes”等,这么的作念法是有待商榷的,因为这根柢就不是固定效应模子。
第二步:将第一步回顾计较得到的IMR作为法例变量引入原回顾方程中。要是IMR权贵,阐述原回顾中存在样本弃取偏差,需要使用样本弃取模子进行缓解,而其余变量的回顾统共则是缓解样本弃取偏差后更为妥贴的终结;要是IMR不权贵,阐述原回顾存在的样本弃取偏差问题不是很严重,不需要使用样本弃取模子,诚然,使用了也不深广,因为引入法例变量的回顾终结不错与原回顾终结比较,作为一种体式的妥贴性西席。
亚州色图这里有两点需要持重:(1)两步忖度法中第二步回顾代入的是第一步回顾的终结,因此第一步回顾的忖度过错也将被代入第二步,形见效果亏空,最终导致第二步忖度统共的圭表误存在偏差,影响p值进而影响统共权贵性。
惩办方法有两种:
一是对第二步回顾的圭表误进行校正处理,但圭表误的校正方法相对复杂,因此现阶段选定这种惩办决策的文件险些莫得;
二是使用极大似然忖度(Maximum Likelihood Estimate,MLE),奏凯对两阶段回顾进行全体忖度,这种方法在实质应用中使用较多,但存在的问题在于要是样本量太大,计较会相配耗时。因此,斟酌到操作的方便性、分解的直不雅性以及对散布的假定更为宽松,当今国内流运用用的照旧两步忖度法。
(2)第二步回顾使用的样本数量少于第一步。假定统统的解释变量(包括第一步的外生变量)齐莫得缺失值,仅被解释变量y存在缺失值,那么第一步回顾中使用的样本数量是全样本,因为第一步弃取方程的被解释变量y_dummy配置为当y取值不为空(包括y取值为0)时y_dummy等于1,y取值为空时y_dummy等于0,故统统样本的y_dummy齐有取值,因此齐参与了第一步回顾。而第二步回顾中的被解释变量y存在缺失值,存在缺失值的样本在参与回顾时将奏凯被剔除。因此第二步回顾使用的样本数量少于第一步,这亦然样本弃取模子一个最直不雅的特征。
stata结束范例号令关连号令:heckman y x1 x2 x3, select (x1 x2 z1) (默许使用MLE(最大似然忖度),弃取方程的被解释变量为y)heckman y x1 x2 x3, select (x1 x2 z1) twostep mills(newname) (两步法,弃取方程的被解释变量为y)其中,select( )示意写入弃取方程,x1 x2为法例变量,z1为外生变量;twostep示意使用两步忖度法,默许使用MLE;mills( )示意生成各类本的imr,并以newname作为变量名。
stata示例数据阐述接头女性评释(educ)与女性工资(wage)的关系,该例中,基准回顾的被解释变量是wage,解释变量是educ和age;弃取方程中额外引入了两个外生解释变量married和children。起初,咱们照旧来先谈一下如何弃取排他性变量来处理弃取性偏误。了解女性评释对工资的影响,那么这里需要持重到,有些受了评释但也莫得参加责任,那这部分样本需要特殊处理。是以,咱们就先预计一个女性参加责任的可能性,然后再在那些参加了责任的女性样本中回顾工资和评释水平。预计一个女性参加责任的可能性通过age(年级) education(评释) married(是否娶妻) children(孩子数量)。日常合计娶妻与孩子的数量一般会与妇女愿不肯出来责任联系,但是与妇女赢得工资无关,是以得志排他性和关连性要求,弃取为排他性变量。
范例号令webuse womenwk.dta, clear //调用数据sum age educ married children wage //态状性统计数据reg wage educ age //浮浅的模子est store OLS*第一种方法 :heckman maximum likelihoodheckman wage educ age, select(married children educ age) //默许最大似然忖度est store HeckMLE*第二种方法 heckman two-step all-in-one(一步回顾)heckman wage educ age, select(married children educ age) twostepest store Heck2s*第二种方法 heckman two-step step-by-step (分步回顾)probit work married children educ ageest store Firstpredict y_hat, xb //计较拟合值gen pdf = normalden(y_hat) //概率密度函数gen cdf = normal(y_hat) //积贮散布函数gen imr = pdf/cdf //计较逆米尔斯比率reg wage educ age imr if work == 1 //女性责任子样本est store Secondvif //方差扩张因子案例操作OLS基本回顾:参与回顾的样本数量为1343个,即wage存在缺失值的样本(657个)在回顾时奏凯被drop掉。基准回顾中两个解释变量的统共均权贵为正,模子拟合进度也较好
图片
Heckman两步法MLE忖度:heckman wage educ age, select(married children educ age)
在第二阶段回顾中,IMR(即lambda)的忖度统共为4.2244,但权贵性未知,该值等于rho和sigma的乘积,其中:sigma是原方程侵扰项的圭表差;rho是弃取方程侵扰项和第二阶段回顾侵扰项的关连络数。要是rho等于0,示意第二阶段回顾中IMR的统共不权贵,阐述样本弃取偏差在原方程中不如何严重,反之则需要斟酌样本弃取偏差带来的忖度偏误。回顾终结的末尾是LR西席,西席的原假定是H0: rho = 0,p值阐述至少不错在1%的水平下阻隔原假定,不错合计rho权贵不等于0,这阐述原模子中如实存在严重的样本弃取偏差,基准回顾终结不确实。第二阶段回顾终结中,两个解释变量仍旧权贵为正,且相较于基准回顾终结取值变化不大,阐述斟酌到样本弃取偏差后基准回顾终结一经是妥贴的。
图片
两步法忖度:heckman wage educ age, select(married children educ age) twostep第二阶段回顾中,IMR的回顾统共等于4.0016,与MLE方法下的4.2244出入不大,但两步法下IMR回顾统共不错奏凯进行z西席,况兼统计终结阐述IMR回顾统共至少在1%的水平下权贵为正,这同期阐述原方程中的样本弃取偏差问题不可忽视。
第二阶段回顾终结中,两个解释变量仍旧权贵为正,且大小与基准回顾终结比较变化不大,这阐述在斟酌样本弃取偏差的情况下,基准回顾终结是确实的。
图片
手工完成两步忖度法法子一:运用probit模子计较影响所覆按变量的哑变量的影响身分
图片
法子二:计较预计:predict y_hat, xb法子三:计较IMR:gen IMR=normalden(y_hat)/normal(y_hat)法子四:终末将生成的逆米尔斯比率IMR引入主要覆按模子
图片
法子5:西席方差扩张因子,日常情况下,VIFs值不越过10,即合计不存在多重共线性问题。
图片
与样本弃取模子的两步忖度法终结比较,手工两步法忖度终结在统共值大小方面莫得任何编削,在统共圭表误方面变化也不大,从而各个变量的统共权贵性保握高度一致。IMR权贵,阐述原回顾中存在样本弃取偏差,需要使用样本弃取模子进行缓解,而其余变量的回顾统共则是缓解样本弃取偏差后更为妥贴的终结。
Q & A:
Q:两阶段模子:Heckman模子(处理样本弃取问题)和用具变量(处理内素性问题)之间的各异?
诸君敦厚好,我想弄了了样本弃取和内素性之间的各异,以及Heckman模子与用具变量回顾的不同之处。话说,样本弃取是一种特定体式的内素性是否正确呢?其中,内生变量是个体被处理的可能性吗?另外,在我看来,Heckman模子和 IV 回顾齐是两阶段模子,第一阶段预计个体被处理的可能性,但它们在结束的倡导和假定方面治服有所不同, 但具体是什么呢?
A1:样本弃取是内素性的一种特定体式(参见 Antonakis 等,2010 年对内素性和常见挽救要领进行了综述),但内生变量并不是个体被处理的可能性,而是处理变量本人(处理变量的非随即性分派)。内素性,是指作假地详情了身分 X 和身分 Y 之间的因果关系的情况,不雅察到的“关系”实质上是由于另一个共同影响身分X 和Y的身分Z。换句话说,给定回顾模子:
yi=β0+β1xi+...+ϵi
当一个或多个预计变量与模子中的过错项关连时,就会出现内素性, 即当Cov(x,ϵ)≠0时。
内素性的常海涵因包括:
遗漏变量(一些咱们无法测量的东西)
动机/弃取
智力/禀赋
自弃取
测量过错(想包括 xj,但咱们只不雅察到了xj*)
同期性/双向性(在 5 岁以下儿童中,作为养分气象诡计的“对应年级的体重”与儿童近期是否患病之间的关系可能是同期的。
不同类型的问题需要稍许不同的惩办决策,这即是 IV 和 Heckman修正之间的各异场地。尽管这些方法的基本机制存在各异,但他们前提是交流的:即要扼节欲素性,瞎想情况下得志撤消截止条目(exclusion restriction),即在 IV 情况下有一个或多个用具变量或Heckman情况下有一个影响弃取但不影响终结变量的变量。
一方面,当一个或多个变量内生详情的,况兼根柢莫得好的代理变量纳入模子中以扼节欲素性时,咱们应该使用用具变量 (IV) 法,但此时,要谨记在通盘样本中咱们齐大约不雅测到统统协变量和终结变量。另一方面,当存在数据截断时,使用 Heckman 类型的修正方法,此时,在弃取变量的值 = 0 的样本中,咱们并不成不雅测到协变量和终结变量。
用具变量 (IV) 方法
使用两阶段最小二乘 (2SLS) 忖度量进行 IV 回顾的经典计量经济学示例:评释对收入的影响。
Earnings =β0+β1Education+ϵi (1)
在这里,评释成即是内生的,因为它部分取决于个东谈主的动机和智力,这两者也会影响一个东谈主的收入。动机和智力日常无法在家庭或经济拜谒中得到策动。因此,方程(1)不错写成包括动机和智力:
Earnings = β0+{β1Education+β2Motivation+β3Ability}+ϵ (2)
由于实质上莫得不雅察到 Motivation和Ability,因此方程(1)不错写为:
Earnings = β0+β1Education+u (3),
其中 u=β2Motivation+β3Ability+ϵ (4)。
因此,通过 OLS忖度评释对收入影响的忖度是有偏差的。
在实证中,东谈主们将父母的评释作为策动个体自身评释水平的用具变量。它合适有用用具 (Z) 变量的 3 个要求:
Z必须与内生预计变量关连——Cov(z,x)≠0,
Z不成与终结变量奏凯关连——Cov(z,y)=0,况兼
Z不成与不可不雅察的 (u) 特征关连(即Z是外生的)——Cov(z,u)=0
当在第一阶段使用父母的评释(MumEducation 和 DadEducation)来忖度个体评释(Education),并在第二阶段使用个体评释的预计值(Education^)来忖度 Earnings,此时,忖度的Earnings是基于不受动机/智力决定的真确Education部分。
Heckman式校正
非随即样本弃取是一种特定类型的内素性。在这种情况下,遗漏变量为个体是如何被选入样本的。日常,当碰到样本弃取问题时,终结变量只会在样本中“弃取变量 =1”时被不雅测到。此问题也称为“恐怕断尾”,惩办方法日常称为 Heckman修正。计量经济学的经典例子是已婚妇女的工资:
Wage=β0+β1Education+β2Experience+β3Experience2+ϵ (5)
这里的问题是,Wage仅能在责任的女性群体中不雅测到,因此起始的忖度值会产生偏差,咱们不知谈对于那些不参与劳能源的东谈主的工资是些许。方程(5)不错重写以标明它是由两个潜在模子共同详情的:
Wage=Xβ′+ϵi (6)
LaborForcei*=Zγ′+νi (7)
即,要是LaborForce>0,Wage=Wage∗;要是LaborForce<=0, Wage=缺失值。
因此,这里的惩办方法是使用Probit模子和合适撤消拘谨条目的变量(此处也适用于用具变量)预计第一阶段个体参与劳能源阛阓的可能性,计较预计的逆米尔斯比率 λ^,在第二阶段,使用 λ^作为模子中的预计变量来忖度工资(不错望望Wooldridge 2009)。要是 λ^的统共在统计上等于 0,则标明不存在样本弃取问题(内素性),此时OLS 终结是一致的。要是 λ^的统共在统计上权贵不等于零,则需要陈说来自Heckman修正模子的统共。
A2:应该辩认特定的 Heckman样本弃取( Heckman sample selection)模子(仅不雅测到一类样本和Heckman型校正( Heckman-type corrections)以雠校自弃取(适用于两类样本齐能被不雅测到的情况)。后者被称为法例函数法,尽头于在第二阶段中包含一个新变量以法例内素性。对于法例函数法,1.法例函数法CF, 处理内素性的广义方法,2.非线性模子及龙套内生变量处理利器, 应用计量经济学中的法例函数法!
以一个带有内生造谣变量D、用具变量Z的方程作为例子:
Y = β+β1D+ε
D = γ+γ1Z+u
两种方法齐先开动第一阶段(拿D对Z作念回顾),IV 使用圭表 OLS(即使 D 是造谣变量),Heckman使用Probit模子。除此以外,主要区别在于他们将第一阶段用于主方程的模式:
IV:通过将 D 分解为与 ϵ不关连的部分来扼节欲素性:Y=β+β1D^+ϵ
Heckman:保留内生变量D,但添加第一阶段预计值的函数。对于这种情况,这是一个尽头复杂的函数:Y=β+β1D+β2[λ(D^)−λ(−D^)]+ϵ,其中 λ()是逆米尔斯比率。
Heckman进程的优点是它提供了对内素性的奏凯西席:统共 β2。另一方面,Heckman进程依赖于过错的荟萃正态性假定,而IV不作念任何这么的假定。
是以在过错的荟萃正态秉性况下,法例函数会比IV更有用(极端是要是使用MLE而不是这里的两步法),但要是正态性假定不建设,IV忖度会更好。跟着接头东谈主员对正态性假定的怀疑越来越多,IV实质上被更频繁地使用。
A3:来自 Heckman、Urzua 和 Vytlacil(2006 年):
弃取偏差示例:斟酌一项计策对国度GDP的影响。若那些即使在莫得该计策的情况下也能作念得很好的国度是禁受该计策的国度,那么 OLS 的忖度即是有偏差的。
可选定两种主要方法来惩办此问题:(a)弃取模子和(b)用具变量模子。
弃取方法对条目均值的水平进行建模,IV 方法对条目均值的斜率进行建模,IV方法莫得识别出弃取模子中忖度的常数。
The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.
当使用带有曲率假定的法例函数时,在弃取模子中不需要摒除截止条目(不需要Z不等于X)。通过假定过错项散布的函数体式,不错撤消终结方程的条目均值等于条目法例函数的可能性,从而不错在莫得撤消截止的情况下对弃取进行修正,照旧建议望望Heckman和Navarro(2004)。
参考贵寓:
https://mp.weixin.qq.com/s/iZJlMAdmu81SWFzZtEWDnA
https://mp.weixin.qq.com/s/VgQWyw9py7Cc1Qb0AX39Tg情欲印象bt
本站仅提供存储工作,统统内容均由用户发布,如发现存害或侵权内容,请点击举报。