从极大似然估计(MLE)角度看损失函数(loss function)

科技2022-07-10 323

1. 极大似然估计的理解

极大似然估计（Maximum likelihood estimation, 简称MLE），对于给定样本 $X =(x_1,x_2,...,x_n)$ ，我们推定模型参数 $\theta$ ，使得由该模型产生给定样本的概率最大，即似然函数 $f(X|\theta)$ 最大。

假设每个样本独立，似然函数为： $likelihood(\theta)=f(X|\theta) = \prod_{i=1}^{n}f(x_i|\theta)$ 取对数似然： $l(\theta) = log(f(X|\theta))=\sum_{i=1}^{n}log(f(x_i|\theta))$

我们得到的参数 $\theta$ 应该使 $l(\theta)$ 最大。

详细的有关MLE,MAP的内容可以参考：最大似然估计，最大后验估计，贝叶斯估计联系与区别

2. 为什么LR的loss一般是残差平方和？

以LR为例，回顾一下线性回归（LR）： $h_{\theta}(x)=\sum_{i=0}^{d}\theta_ix_i$ $h(\theta)=\theta^Tx$ loss function： $J(\theta) = \frac{1}{2} \sum_{i=0}^{n}(h_{\theta}(x^{(i)})-y^{(i)})^2$

那么，为什么LR的loss取残差平方和而不是绝对值或者四次方？因为我们有一个预设，我们假设现实中残差满足均值为0的高斯分布，即 $e_i = h_{\theta}(x^{(i)})-y^{(i)} \sim N(0,\sigma^2)$

怎么理解？对于LR，我们要采取的是MLE，即最大化似然函数（最大化对数似然） $\underset{a,b}{max} \log N(e_i,\sigma^2)$ $\underset{a,b}{max} \log \frac{1}{\sqrt{{2\pi\sigma^2}}}exp(-\frac{1}{2\sigma^2}(e_i)^2)$ $\underset{a,b}{max} \log \frac{1}{2\pi\sigma^2} - \frac{1}{2\sigma^2}e_i^2$ 即等价于 $\underset{a,b}{min} \ e_i^2 = \underset{a,b}{min} (h_{\theta}(x^{(i)})-y^{(i)})^2$

所以，我们的损失函数loss取残差平方和。

同样的道理，如果残差满足拉普拉斯分布, 则loss为绝对值

Processed: 0.010, SQL: 8