作者:Ernnnn
b站:Ernnnn
公众号:统计分析分析 所有文章都在公众号,b站有视频版
PSM 倾向性匹配
对于个体 i i i而言,其未来收入为 y y y ,有 y i = { y 1 i 若 D i = 1 y 0 i 若 D i = 0 y_{i}=\left\{\begin{array}{ll}y_{1 i} & \text { 若 } D_{i}=1 \\ y_{0 i} & \text { 若 } D_{i}=0\end{array}\right. yi={y1iy0i 若 Di=1 若 Di=0 而处置效应就是 y 1 i − y 0 i y_{1i} - y_{0i} y1i−y0i,通俗来说就是如果一个人参加了这个活动的y减去不参加的y就等于处置效应。 聪明的同学就会问,这不是很简单吗?这当然不简单,这个y必须是同个体!不能用另外一个的不参加的y减。 所以严格来讲就是平行时空下,参加了A活动的你与未参加活动的你进行做差。 但这个事实上是不可能的,所以这个思想框架又称为反事实框架。
上面讲了处理效应,是针对个体,个体一般是没有统计意义的,因此还需要消除个体差异,计算一大群人的处理效应,然后取期望即可得到稳健的结果。 根据人群不同,对应的也不同。
人群简称名称公式全体ATE平均处置效应 E ( y 1 i − y 0 i ) \mathrm{E}\left(y_{1i}-y_{0i}\right) E(y1i−y0i)只参加活动ATT参与者平均处置效应 E ( y 1 i − y 0 i ∣ D i = 1 ) \mathrm{E}\left(y_{1i}-y_{0i} \mid D_i = 1\right) E(y1i−y0i∣Di=1)非参加活动ATU非参与者平均处置效应 E ( y 1 i − y 0 i ∣ D i = 0 ) \mathrm{E}\left(y_{1i}-y_{0i} \mid D_i = 0\right) E(y1i−y0i∣Di=0)上面我们提出了基于反事实框架的处理效应以及平均处置效应,但是可惜的是,我们事实上是没有办法求的。平常我们求解一个事件的影响,通常是这样的: 举个例子:熬夜对寿命是不好的,这个问题我们平时是怎么思考的? 可能就是经常熬夜的人寿命减去不熬夜的人的寿命,如果是小于0的话,就说明熬夜是不利于长寿的,反之就说明熬夜除了有眼圈,寿命啥的没有影响。 但是这样存在这样一个问题,可能更健康的人更偏向不熬夜,不熬夜只是他的其中一个习惯, 所以即使熬夜他们寿命也是一样长(如果寿命并不受那个影响);相反,对于经常熬夜的人来说,他们本身不自律带有不健康的身体,就更倾向于熬夜,因此寿命即使不熬夜也会短一些。
因此我们并不能得出一个可靠的结论。这就是选择难题 写成式子就是: E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) = E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 1 ) + E ( y 0 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) \mathrm{E} \left(y_{1i} \mid D_i = 1\right) - \mathrm{E} \left(y_{0i} \mid D_i = 0\right) \\ =\mathrm{E} \left(y_{1i} \mid D_i = 1\right) - \mathrm{E} \left(y_{0i} \mid D_i = 1\right) \\ \text {+} \mathrm{E} \left(y_{0i} \mid D_i = 1\right) - \mathrm{E} \left(y_{0i} \mid D_i = 0\right) E(y1i∣Di=1)−E(y0i∣Di=0)=E(y1i∣Di=1)−E(y0i∣Di=1)+E(y0i∣Di=1)−E(y0i∣Di=0)
可以看到直接相减并找不到我们所要求的处置效应,还需要进行分解才能找到我们需要的效应,而还多出来一个选择偏差。
选择难题并非无解,随机分组则是最“简单”的解决方案。试想一下我们如果将人群随机分成熬夜组和非熬夜组,那么其均值之差就等于是处置效应。 因为什么呢? E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) = E ( y 1 i ) − E ( y 0 i ) = A T E = A T T \mathrm{E}\left(y_{1 i} \mid D_{i}=1\right)-\mathrm{E}\left(y_{0 i} \mid D_{i}=0\right)=\mathrm{E}\left(y_{1 i}\right)-\mathrm{E}\left(y_{0 i}\right)=\mathrm{ATE}=\mathrm{ATT} E(y1i∣Di=1)−E(y0i∣Di=0)=E(y1i)−E(y0i)=ATE=ATT 根据小学两年级的知识即可知道当 D D D和 y y y相互独立时,条件期望等于无条件期望,因此ATT=ATE.
因此我们能够简单计算实验组和控制组的平均收入之差就可以一致地估计平均处理效应。即差分估计量,渐进服从正态分布。看到这里聪明的同学就会发现这个估计量,长得很像t统计量,没错这个统计量和t统计量关系非常密切!详见这篇文章。
进一步的我们如果只关心ATT,则只需要 y 0 i y_{0i} y0i均值独立于D即可,不需要对其他进行任何限制。 E ( y 0 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) = E ( y 0 i ) − E ( y 0 i ) = 0 \mathrm{E}\left(y_{0 i} \mid D_{i}=1\right)-\mathrm{E}\left(y_{0 i} \mid D_{i}=0\right)\\=\mathrm{E}\left(y_{0 i} \right)-\mathrm{E}\left(y_{0 i}\right)=0 E(y0i∣Di=1)−E(y0i∣Di=0)=E(y0i)−E(y0i)=0 那么计算参与者和未参与者的平均差异就可以得到ATT,我们关心的估计量。
但是随机分组是一个非常消耗资源的事情,大部分情况下是做不到的(穷)。如果只有观测数据,则大部分情况不满足需要 y 0 i y_{0i} y0i均值独立于D的假设。这时候要怎么办呢?敬请留意下节内容。