两总体 t检验与差分估计量的比较

    科技2022-08-23  149

    作者:Ernnnn

    b站:Ernnnn

    公众号:统计分析分析

    两总体 t 检验与差分估计量的比较

    文章目录

    *两总体 t 检验与差分估计量的比较*1. t检验2.差分估计量3. Stata 验证

    1. t检验

    两总体的t检验,可以分为独立样本和配对样本的两大分类。

    独立样本

    方差已知

    方差未知但相等

    方差未知且不相等

    配对样本

    比如在小样本下,如果方差未知但相等: t = X ‾ 1 − X ‾ 2 S e t = \frac{\overline X_1 - \overline X_2}{\sqrt{Se}} t=Se X1X2

    S e = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 ( 1 n 1 + 1 n 2 ) Se = \frac{(n_1 - 1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2} (\frac{1}{n_1} + \frac{1}{n_2}) Se=n1+n22(n11)S12+(n21)S22(n11+n21) 如果是大样本(使用样本方差估计方差)或已知方差时,直接使用z统计量: z = X ‾ 1 − X ‾ 2 σ 1 2 n 1 + σ 2 2 n 2 z = \frac{\overline X_1 - \overline X_2}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} z=n1σ12+n2σ22 X1X2 这些不同统计量之间相同和不同的地方在哪呢?所有这些t检验的上面部分都是一样的 X ‾ 1 − X ‾ 2 \overline X_1 - \overline X_2 X1X2,主要区别在于标准误不一样!

    2.差分估计量

    对于y而言,仅存在一个虚拟变量下有: y i = { α + ϵ i ,   x i = 0 α + β + ϵ i ,   x i = 1 y_i= \begin{cases} \alpha + \epsilon_i ,& \ & x_i = 0 \\ \alpha + \beta + \epsilon_i,& \ & x_i=1\\ \end{cases} yi={α+ϵi,α+β+ϵi,  xi=0xi=1 又根据回归方程必中点可以知道, y ‾ 0 = α ^ \overline y_0=\hat{\alpha} y0=α^ y ‾ 1 = α ^ + β ^ \overline y_1 = \hat{\alpha} + \hat{\beta} y1=α^+β^ 那么显然我们的 β ^ = y ‾ 0 − y ‾ 1 \hat{\beta} = \overline y_0 - \overline y_1 β^=y0y1 ,这个是啥,很显然就是我们的两总体的均值之差。 那么究竟差分估计量的标准误应该和哪个t检验的是一样的呢?请翻上去思考一下。 没错,大样本下的两总体均值之差的t统计量。 因此系数的 β \beta β显著性和t检验得到p值是一样的。

    结论:根据t检验的原理,当我们使用样本小于36的差分估计量是不准确的,得到的结论是偏显著的(大家可以思考一下为什么?)。同时注意的是,这里的样本是指单个分组的样本量,因此作为回归至少应该70+的样本量才能使得统计量近似服从正态分布,其结论才是准确的。

    3. Stata 验证

    import excel "ttt.xlsx",clear firstrow list +----------------+ | id y group | |----------------| 1. | 1 1 0 | 2. | 2 2 0 | 3. | 3 3 0 | 4. | 4 3 0 | 5. | 5 4 0 | |----------------| 6. | 6 1 1 | 7. | 7 1 1 | 8. | 8 2 1 | 9. | 9 1 1 | +----------------+ ttest y ,by(group) 结果如下: Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 5 2.6 .509902 1.140175 1.184285 4.015715 1 | 4 1.25 .25 .5 .4543884 2.045612 ---------+-------------------------------------------------------------------- combined | 9 2 .372678 1.118034 1.140603 2.859397 ---------+-------------------------------------------------------------------- diff | 1.35 .6184658 -.1124393 2.812439 ------------------------------------------------------------------------------ diff = mean(0) - mean(1) t = 2.1828 Ho: diff = 0 degrees of freedom = 7 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.9673 Pr(|T| > |t|) = 0.0654 Pr(T > t) = 0.0327

    而同样的数据使用回归可以得到同样的结果

    reg y group Source | SS df MS Number of obs = 9 -------------+---------------------------------- F(1, 7) = 4.76 Model | 4.05 1 4.05 Prob > F = 0.0654 Residual | 5.95 7 .85 R-squared = 0.4050 -------------+---------------------------------- Adj R-squared = 0.3200 Total | 10 8 1.25 Root MSE = .92195 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- group | -1.35 .6184658 -2.18 0.065 -2.812439 .1124393 _cons | 2.6 .4123106 6.31 0.000 1.62504 3.57496 ------------------------------------------------------------------------------

    事实上除了符号不一样,其他是基本一样的。

    Processed: 0.016, SQL: 9