ATT就只是加总这些部分的问题了。这个方法的优点是不需要X和Y之间关系的任何假定。
如果X的值很多,我们仍然希望对X和Y的关系不做假定—但是我们乐于假定这种关系是连续的,那么我们可以使用核回归(Kernal regression)技术来获得ATE(X)的估计值。
令r0(x)?E(y0|x,??0)
r1(x)?E(y1|x,??1)
可以用核回归估计每一个部分的值。一致的ATE(x),ATT(x)估计式如下:
N1???[r?1(xi)?r?0(xi) ATENi?1N?N????1(xi)?r?0(xi)]????i?ATT????i[r? ?i?1??i?1??1?我们也可以估计一个X多项式的回归模型,使用它的结果来构建灵活的r1(xi)和?0(xi)的局部估计(local estimates)。这个方法见下面的内容。 r4.2识别(identification)
我们把数据分解为几个部分的时候,我们很容易就碰到识别(identification)问题。
假定我们有一个二分的X,例如贫穷(X=1)或不贫穷(X=0)。然后我们假定所有贫穷的人接受参与—如,获得福利项目的收益---然而非穷人只有部分获得参与。这意味着,我们没有E(y|x?1,??0)的观测值。因此,我们不能计算穷人的参与效应。 这是很明显的,但是也很不幸,因为在许多情形下,我们希望估计项目最至关重要的目标受益者的参与效应,但是却不能计算得到。定义的目的是,我们不需要纵向数据-前后估计(before-after estimator)-或一些X=1个体接受参与,而剩下的没有参与的实验。我们一会还要讨论这些估计法,因为他们都存在自己特定的问题。
4.3 回归法
4.3.1 同质效应
如果我们希望对X和Y的关系强加一些安排,我们可以使用回归法估计ATT和ATE。为了阐明这是如何实现,我们令:
y0??0??0 y1??1??1
16
而且E(?0)?E(?1)?0。这可以推出一个开关回归(Switch regression)模型:
y??0?(?1??0)???0??(?1??0) (4.1)
在无条件模型(没有以X为条件)中,ATE?E(y1?y0)??1??0,因此W的系数就是ATE。上述的OLS回归是否能得到一个一致的ATE估计值,还要看W是否和误差项相关。要确认这个可能性,我们需要最后面的一项消失,就是说的均值为?(?1??0)0. 在这篇文献里,这个条件就意味着,参与和未参与的不可
观测的产出分布是相同的。因此就有下面的命题。
假定1.(伍德里奇18.11) E(?1|x)?E(?0|x)
命题2.(伍德里奇 18.1):如果假定18.11+ATE.1’,成立,那么
ATT=ATE 这里??ATE,而且E(?0|x)?g0(x) 证明:
在假定ATE.1’下, E(y1|x,?)??1?E(v1|x) , E(y0|x,?)??0?E(v0|x)。在假定18.1下,E(y1|x,?)?E(y0|x,?)??1??0,因此通过反复迭代期望:
E(y1|?)?E(y0|?)??1??0
它暗指ATE=ATT。这就证明了第一部分。至于第二部分开关模型(4.1)给定W,X的期望,我们得到:
E(y|?,x)??0?(?1??0)??E(v0|?,x)??E(v1?v0|?,x)]
??0?ATE??g0(x)??E(v1?v0|?,x)
问题是最后一项是否能够消失。我们有: 由假定ATE.1’得 E(v1?v0|?,x)?E(v1?v0|x) 由假定18.11得 ?0 第二部分得证。
命题18.1是说,当给定X时,预期的个人特性的收益为零,E(y|?,x)对于W来说是加性可分(is additive in W)的,且是X的函数,W的系数是ATE。如果
17
g0(x)??0?x?0,回归模型归结为以下常见形式:
E(y|?,x)??0????x?0 (4.2)
这里?0??0??0 x?0代表基于可观测因素的选择。
许多研究者应用模型4.2于随机化实验数据。这在概念上是没必要的:因为通过设定X与W正交,加入X控制变量,不会影响?。因为随机化实验法执行成本高,然而他们常常只有小样本。这意味着,在实践中,可能出现不平衡问题。不平衡可能也是随机化实验实施不完美的信号,在这种情形下,我们希望控制X以防万一。
虽然这听起来是一个合理的测量,Deaton(2009)加入不必要的控制变量,常常导致?的标准差更小----这是一种人工改善结果显著性的“技巧”。Freedman(2008)也注意到,如果?i的参与效应在不同个体中各异,那么模型(4.2)依然成立,W的系数是?i的一致估计,就是?。但是在小样本时,这个估计量有很严重的偏差,偏差形式为
?,这里n是样本大小:
n1n???lim?(?i??)(xi?x)2
ni?1考虑到这个情况,对于随机化实验法来说,它使用以下简单点的形式来进行估计会更好:
E(y|?,x)??0??? 4.3.2 异质效应
通过介绍?i在个体中各异的这种可能性,我们已经隐晦的介绍了异质效应。现在我们回想一下。我们首先注意到,如果放松假定18.11,ATE=ATT不再成立。然而回归方程可以用来估计ATE,正如下面的命题:
命题3.(伍德里奇18.2):如果假定ATE.1’成立,那么
一般情况下 ATT?ATE
E(y|?,x)??0????g0(x)??[g1(x)?g0(x)]
g0(x)?E(v0|x) g1(x)?E(v1|x)
18
证明:
使用开关模型(4.1)的期望;
E(y|?,x)??0?(?1??0)??E(v0|?,x)??E(v1?v0|?,x)]
??0?ATE??g0(x)??E(v1?v0|?,x)
这里最后一项没有消失。我们有
由假定ATE.1’得 ?E(v1?v0|?,x)??E(v1?v0|x) ??[g1(x)?g0(x)] 证毕。
如果g1(x),g0(x)是线性的,我们令g0(x)??0?x?0,g1(x)??1?x?1。因为E(v0)?E(v1)?0,必然可得到:
0?E(E(vi|x))??i??ix ,i?{0,1}
?i???x
因此我们得到:
E(y|?,x)??0????x?0??[(?1?x?1??0?x?0)] ??0????x?0??(x?x)(?1??0)
??0????x?0??(x?x)? (4.3)
这里(4.3)可以由OLS估计得到。18.2和命题18.1的主要区别在于,我们包含了一个参与和(x?x)的交互项。在文献中,这就是异质性参与效应模型。
估计方法是:
???? ATE?(x)????(x?x)? ATE 19
NN?????????????i????i(x?x)?ATT? ?i?1??i?1??1?的标准差可以使用自举法(Bootstrap)获得。 伍德里奇指出,ATT如果我们尽量灵活—而且得到和划分区间一样的结果(见上文),那么我们可以
对截然不同的X值设定虚拟变量。这叫做完全饱和模型(fully saturated model)。然而,像之前指出的那样,对所有的个体我们不能识别交互项的系数,一旦虚拟变量W要么全是参与的,要么全是未参与的。这意味着当我们估计ATE时,只有除去未参与的样本,才可以识别。
异质性和预-检验(pre-testing)。
随机化实验法常常被称作是科学证据的黄金准则。在这样的实验中,?i是随机赋予的。但xi不是随机的。然而许多经济学研究者发表的论文,其中平均参与效应几乎没有什么分量,感兴趣的多是关于异质性效应的,就是说,参数向量?。我认为这其中大多和这个事实有关:在许多随机化领域实验中,平均参与效应令人提不起兴趣,因为它对人类行为和参与对产出发挥作用的途径,不能提供什么信息。为了解释这些作用途径,研究者典型地转向了异质效应回归。
因为这是在数据收集完成之后进行的,这会出现预参与/数据开采(data mining)偏差问题,也即,研究者寻找具有显著的?的xi的数据,这样就有有趣的事情可以说了。大部分引用最好的领域实验论文都存在这个问题。但是因为这些异质效应不是随机(experimental),因此不满足黄金准则。换句话说,从随机化领域实验得到的令人感兴趣的证据,并不比观察数据得到的证据更强。
有没有方法来解决这个困境?一种可能的方法是,研究者承认存在某些异质效应问题。假定承认机制是可信的,那么就可以参与数据挖掘问题。但是如果最后都不显著了怎么办?难道杂志社会承诺出版这些结果?我不这么认为。这意味着除去预检验/数据开采,我们必须想办法让杂志社预先承诺出版这样的研究结果。我们还有很长的路要走。
另一种可能的方法是---数据密集而且可能不可靠—随机把样本划为两个相等的部分。一部分用来做所有的数据挖掘,就是或,所有的回归不会在最后的论文里出现。一旦研究者已经识别了一套优先回归,他保留这套回归。然后他再用相同的模型估计另外一部分,报告两部分的结果---一部分是“数据挖掘”的,一部分是剩下的数据。如果结果相似,他就可以下结论,预检验偏差不是问题。我所见的这种方法应用不多,可能是因为很难使编辑和咨询人相信这个过程是真实的,也就是说没有回访(revisit)原始回归。
参与数据挖掘问题就是要束手。但是它没有宣布其它潜在的问题,比如第一步我
20
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库第六讲政策效应评估(4)在线全文阅读。
相关推荐: