GMM算法

科技2025-10-10 17

高斯混合模型

高斯混合模型是一种生成模型，从几何角度来看，可视为数据的概率密度函数为多个高斯分布的加权平均，即： $\begin{aligned}p(x)=\sum_{k=1}^{K}&\alpha_kN(x|\mu_k,\Sigma_k)\\ \sum_{k=1}^K\alpha_k &= 1 \end{aligned}$

从混合模型上看，x为observed variable，而z为latent variable，z代表了变量x是属于哪一个高斯分布。则 $\begin{aligned} p(x）&=\sum_zp(x,z)\\ &=\sum_{k=1}^Kp(x,z=c_k)\\ &=\sum_{k=1}^Kp(z=c_k)p(x|z=c_k)\\ &=\sum_{k=1}^Kp_kN(x|\mu_k,\Sigma_k) \end{aligned}$

在高斯混合模型中，我们需要计算的参数为 $p_k,\mu_k,\Sigma_k$ ，即 $\theta=\{p_1,p_2,…,p_K,\mu_1,\mu_2,…,\mu_K,\Sigma_1,\Sigma_2,…,\Sigma_K\}$ 。设观测数据为 $X=\{x_1,x_2,…,x_N\}$ ， $(X, Z)$ 为完整数据。如果我们希望利用极大似然法来对参数进行求解，则计算公式为 $\begin{aligned} \hat{\theta}&=\argmax_{\theta}\log P(X)\\ &=\argmax_{\theta}\log\prod_{i=1}^NP(x)\\ &=\argmax_{\theta}\sum_{i=1}^N\log \sum_{k=1}^Kp_kN(x|\mu_k,\Sigma_k) \end{aligned}$

然后，由于上式 $\log$ 中含有加法，所以如果对其直接进行求导计算参数 $\theta$ ，无法得到解析解。因此，我们采用EM算法来迭代的对高斯混合模型中的参数进行求解。

EM - E-step

EM算法： $\begin{aligned} \theta^{t+1}&=\argmax_{\theta}E_{Z|X,\theta^{t}}\left[\log P(X,Z|\theta)\right]\\ &=\argmax_e{\theta}Q(\theta,\theta^{t}) \end{aligned}$

其中 $\begin{aligned} Q(\theta,\theta^t)&=\int_z\log P(X,Z|\theta)P(Z|X,\theta^t)dZ\\ &=\sum_{z_1,z_2,…,z_k}\log \prod_{i=1}^NP(x_i,z_i|\theta) \prod_{i=1}^NP(z_i|x_i,\theta^t)\\ &=\sum_{z_1,z_2,…,z_k}\left(\sum_{i=1}^N\log P(x_i,z_i|\theta)\right)\prod_{i=1}^NP(z_i|x_i,\theta^t)\\ &=\sum_{i=1}^N\sum_{z_1,z_2,…,z_k} \log P(x_i,z_i|\theta)\prod_{i=1}^NP(z_i|x_i,\theta^t)\\ &=\sum_{i=1}^N\sum_{z_i} \log P(x_i,z_i|\theta)P(z_i|x_i,\theta^t)\\ &=\sum_{i=1}^N\sum_{z_i} \log p_{z_i}N(x_i|\mu_k,\Sigma_k)\frac{p_{z_i}^tN(x_i|\mu_k^t,\Sigma_k^t)}{\sum_{k=1}^Kp_k^tN(x|\mu^t_k,\Sigma^t_k)}\\ &=\sum_{i=1}^N\sum_{z_i}\left(\log p_{z_i}+\log N(x_i|\mu_k,\Sigma_k)\right)\frac{p_{z_i}^tN(x_i|\mu_k^t,\Sigma_k^t)}{\sum_{k=1}^Kp_k^tN(x|\mu^t_k,\Sigma^t_k)}\\ &=\sum_{i=1}^N\sum_{k=1}^K(\log p_k+\log N(x_i|\mu_k,\Sigma_k))P(z_i=c_k|x_i,\theta^t) \end{aligned}$

其中 $\frac{p_{z_i}^tN(x_i|\mu_k^t,\Sigma_k^t)}{\sum_{k=1}^Kp_k^tN(x|\mu^t_k,\Sigma^t_k)}=P(z_i|x_i,\theta^t)$ 与 $\theta$ 无关。

我们先求 $p_k^{(t+1)}$ $\begin{aligned} \left\{ \begin{array}{lr} p_k^{(t+1)}=\argmax_{p_k}\sum\limits_{i=1}^N\sum\limits_{k=1}^K\log p_k P(z_i=c_k|x_i,\theta^t) &\\ \sum\limits_{k=1}^K p_k=1 & \end{array} \right. \end{aligned}$ 将上述带约束的优化问题化为拉格朗日方程 $\begin{aligned} \mathcal{L}(p_k.\lambda)=\sum_{i=1}^N\sum_{k=1}^K\log p_k P(z_i=c_k|x_i,\theta^t) +\lambda(\sum_{k=1}^Kp_k-1)\\ \end{aligned}$ 有 $\begin{aligned} \frac{\partial \mathcal{L}(p_k,\lambda)}{\partial p_k}=\sum_{i=1}^N\frac{1}{p_k} P(z_i=c_k|x_i,\theta^t) +\lambda=0 \end{aligned}$ 两边同时对k求和有 $\begin{aligned} \sum_{k=1}^K\sum_{i=1}^NP(z_i=c_k|x_i,\theta^t) +\sum_{k=1}^K\lambda p_k=0\\ \end{aligned}$ 得 $\lambda=-N$ ，则 $p_k=\frac{\sum\limits_{i=1}^NP(z_i=c_k|x_i,\theta^t)}{N}$ 。而 $\mu_t,\Sigma_k$ 的求解，因为无约束，所以可直接对 $Q(\theta,\theta^t)$ 求导。

Processed: 0.014, SQL: 8