离差即标志变动度,又称“偏差”,是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小的程度或离差情况的指标,常写作: x i − x ˉ x_i-\bar{x} xi−xˉ 性质:
离差的代数和等于0;参与计算平均数的各变量值与平均数之差的平均和,小于这些变量值与平均数之外的任何数之差的平均和。平均差也称为均值,是数据分布中所有原始数据与平均数距离的绝对值的平均。
平均差计算公式: s = 1 n [ ∣ x 1 − x ˉ ∣ + ∣ x 2 − x ˉ ∣ + ⋯ + ∣ x n − x ˉ ∣ ] s=\frac{1}{n}[\lvert{x_1}-\bar{x}\rvert+\lvert{x_2}-\bar{x}\rvert+\cdots+\lvert{x_n}-\bar{x}\rvert] s=n1[∣x1−xˉ∣+∣x2−xˉ∣+⋯+∣xn−xˉ∣] 可记为: X ˉ = ∑ i = 1 n X i n \bar{X}=\frac{\sum^n_{i=1}X_i}{n} Xˉ=n∑i=1nXi 其中, x i x_i xi表示每个数据的值, x ˉ \bar{x} xˉ表示平均数,N=数据个数。
方差是各个数据与平均数之差的平方的和的平均数。
总体方差: s 2 = 1 n [ ∣ x 1 − x ˉ ∣ 2 + ∣ x 1 − x ˉ ∣ 2 + ⋯ + ∣ x 1 − x ˉ ∣ 2 ] s^2=\frac{1}{n}[\lvert{x_1}-\bar{x}\rvert^2+\lvert{x_1}-\bar{x}\rvert^2+\cdots+\lvert{x_1}-\bar{x}\rvert^2] s2=n1[∣x1−xˉ∣2+∣x1−xˉ∣2+⋯+∣x1−xˉ∣2] 样本方差: s 2 = 1 n − 1 [ ∣ x 1 − x ˉ ∣ 2 + ∣ x 1 − x ˉ ∣ 2 + ⋯ + ∣ x 1 − x ˉ ∣ 2 ] s^2=\frac{1}{n-1}[\lvert{x_1}-\bar{x}\rvert^2+\lvert{x_1}-\bar{x}\rvert^2+\cdots+\lvert{x_1}-\bar{x}\rvert^2] s2=n−11[∣x1−xˉ∣2+∣x1−xˉ∣2+⋯+∣x1−xˉ∣2] 样本方差可简记为: s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 s^2=\frac{\sum^n_{i=1}(X_i-\bar{X})^2}{n-1} s2=n−1∑i=1n(Xi−Xˉ)2 在公式中用 n n n作为除数时(尤其是当 n n n很小时),所得出的作为总体标准差估计值的样本标准差是有偏差的,而 n − 1 n-1 n−1作除数时,所得标准差则是无偏差的。因此,比较稳妥的做法是用 n − 1 n-1 n−1作除数。当然,当 n n n比较大时,用 n n n或 n − 1 n-1 n−1作除数,所得结果差别不大。
方差取算术平方根,得到的结果称为标准差,用 σ \sigma σ表示,总体方差的算术平方根称为总体标准差,样本方差的算术平方根称为样本标准差。
总体标准差: σ = ∑ i = 1 n ( X i − X ˉ ) 2 n \sigma=\sqrt{\frac{\sum^n_{i=1}(X_i-\bar{X})^2}{n}} σ=n∑i=1n(Xi−Xˉ)2 样本标准差: S = ∑ i = 1 n ( X i − X ˉ ) 2 n − 1 S=\sqrt{\frac{\sum^n_{i=1}(X_i-\bar{X})^2}{n-1}} S=n−1∑i=1n(Xi−Xˉ)2 简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
离差、平均差、方差、标准差一般是用来描述一维数据的,但实际中常常遇到含有多维数据的数据集,如果需要评估两个数据之间的联系,可以使用协方差。协方差是一种用来度量两个随机变量关系的统计量,其计算公式如下: c o v ( X , Y ) = 1 n − 1 [ ( x 1 − x ˉ ) ( y 1 − y ˉ ) + ( x 2 − x ˉ ) ( y 2 − y ˉ ) + ⋯ + ( x n − x ˉ ) ( y n − y ˉ ) cov(X,Y)=\frac{1}{n-1}[(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots+(x_n-\bar{x})(y_n-\bar{y}) cov(X,Y)=n−11[(x1−xˉ)(y1−yˉ)+(x2−xˉ)(y2−yˉ)+⋯+(xn−xˉ)(yn−yˉ) 可记为: c o v ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 cov(X,Y)=\frac{\sum^n_{i=1}(X_i-\bar{X})(Y_i-\bar{Y})}{n-1} cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ) 协方差的结果如果为正值,则说明两者是正相关的,如果结果为负值就说明负相关的,如果为0,则X与Y是相互独立的。
性质:
c o v ( X , X ) = v a r ( x ) cov(X,X)=var(x) cov(X,X)=var(x) c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)协方差应用
协方差矩阵定义: 设 X = ( x 1 , x 2 , ⋯ , x n ) X=(x_1,x_2,\cdots,x_n) X=(x1,x2,⋯,xn)为n维变量,则称矩阵: C = ( c i j ) n × n = ( c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋱ ⋮ c n 1 c n 2 ⋯ c n n ) C=(c_{ij})_{n×n}=\begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \\ \end{pmatrix} C=(cij)n×n=⎝⎜⎜⎜⎛c11c21⋮cn1c12c22⋮cn2⋯⋯⋱⋯c1nc2n⋮cnn⎠⎟⎟⎟⎞ 性质:
c o v ( X , Y ) = c o v ( Y , X ) T cov(X,Y)=cov(Y,X)^T cov(X,Y)=cov(Y,X)T, T T T表示矩阵转置 c o v ( A X + b , Y ) = A c o v ( X , Y ) cov(AX+b,Y)=Acov(X,Y) cov(AX+b,Y)=Acov(X,Y),其中 A A A是矩阵, b b b是变量。 c o v ( X + Y , Z ) = c o v ( X , Y ) + c o v ( Y , Z ) cov(X+Y,Z)=cov(X,Y)+cov(Y,Z) cov(X+Y,Z)=cov(X,Y)+cov(Y,Z)皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。皮尔森相关系数记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。
皮尔森相关系数为两个变量X、Y之间的协方差和两者标准差乘积的比值。 公式: c o v ( X , Y ) v a r ( X ) × v a r ( Y ) \frac{cov(X,Y)}{\sqrt{var(X)×var(Y)}} var(X)×var(Y) cov(X,Y) 即: ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) \frac{\sum^n_{i=1}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum^n_{i=1}(X_i-\bar{X})^2}\sqrt{\sum^n_{i=1}(Y_i-\bar{Y})}} ∑i=1n(Xi−Xˉ)2 ∑i=1n(Yi−Yˉ) ∑i=1n(Xi−Xˉ)(Yi−Yˉ)
相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
0.8-1.0 极强相关0.6-0.8 强相关0.4-0.6 中等程度相关0.2-0.4 弱相关0.0-0.2 极弱相关或无相关皮尔森相关系数(Pearson correlation coefficient)