PRML第六章读书笔记——Kernel Methods 静止核、对偶表示、构造核、高斯核函数、Fisher核、径向基函数网络Nadaraya-Watson模型、高斯过程回归分类自动相关确定

科技2022-07-10 216

（这一章感觉比较抽象，而且和之前学的线性回归和逻辑回归之间有奇妙的联系。最后一页高斯过程用于分类时选模型的公式推导我略去了，没有细看）

静止核stationary kernel径向基函数radial basis function（同质核homogeneous kernel） 6.1 Dual Representations6.2 Constructing KernelsP296 高斯核P297 其他数据类型的核函数P297 从生成式模型构造核函数P298 Fisher核 6.3 Radial Basis Function NetworksP299 输入特征带噪声P301 Nadaraya-Watson模型 6.4 Gaussian ProcessesP306 高斯过程回归P311 学习超参数P312 自动相关确定automatic relevance determination(ARD)P313 高斯过程分类P319 高斯过程和神经网络的关系

许多线性参数模型可以被转化为一个等价的“对偶表示”dual representation，其中，预测是基于训练数据点处的核函数线性组合对于非线性特征空间映射 $\phi(\bm x)$ ，核函数为 $k(\bm x,\bm x')=\phi(\bm x)^T\phi(\bm x')$ 注意核函数是对称的核函数有许多扩展，例如核技巧。如果有一个算法，只和输入向量的标量积有关，则可以用其它的核函数形式来替换这个标量积。例如把PCA扩展到非线性PCA，把knn扩展到非线性knn，以及带核的Fisher判别分析等。（核技巧之前写过一篇博客：核技巧的一些知识点——CVMLI Prince读书随笔第7章，这里要融会贯通一下）

核技巧能把特征升到高维，从而避免避免维度灾难吗？实际上，升到高维后，数据仍然是高维空间中的低维流形。本身维度没有发生变化。

静止核stationary kernel

只和差有关，具有平移不变性 $k(\bm x,\bm x')=k(\bm x-\bm x')$

径向基函数radial basis function（同质核homogeneous kernel）

只和距离有关，具有平移不变性 $k(\bm x,\bm x')=k(\|\bm x-\bm x'\|)$

6.1 Dual Representations

考虑线性回归MAP解，损失函数为 $J(\bm w)=\frac{1}{2}\sum_{n=1}^N \{ \bm w^T\bm\phi(\bm x_n)-t_n \}^2+\frac{\lambda}{2}\bm w^T\bm w$ 回顾第3章，这个解为 $\bm w=(\lambda \bm I_M+\bm\Phi^T \bm\Phi)^{-1}\bm\Phi^T \bm t$ 其中 $\bm\Phi=[\bm\phi(x_1),\bm\phi(x_2), \cdots, \bm\phi(x_N)]^T$ 用Woodbury恒等式，右侧变为 $\begin{aligned} &[\lambda^{-1}\bm\Phi^T-\lambda^{-1}\bm\Phi^T(\bm I_N+\bm\Phi \lambda^{-1} \bm\Phi^T)^{-1}\bm\Phi \lambda^{-1}\bm\Phi^T] \bm t \\ =&[\lambda^{-1}\bm\Phi^T-\lambda^{-1}\bm\Phi^T(\lambda \bm I_N+\bm\Phi \bm\Phi^T)^{-1}\bm\Phi \bm\Phi^T ]\bm t \\ =&[\lambda^{-1}\bm\Phi^T(\lambda \bm I_N+\bm\Phi\bm\Phi^T)^{-1}(\lambda \bm I_N + \bm\Phi \bm\Phi^T-\bm\Phi\bm\Phi^T) ]\bm t \\ =& \bm\Phi^T(\lambda \bm I_N+\bm\Phi\bm\Phi^T)^{-1} \bm t \end{aligned}$ 这波操作有点神奇。。。（书上用的另一种推法，我没有细看，但是结果一样的，我为了保持思路连续，沿用了第3章的结论）从而 $y(\bm x)=\bm\phi(\bm x)^T\bm w=\bm\phi(\bm x)^T\bm\Phi^T(\lambda \bm I_N+\bm\Phi \bm\Phi^T)^{-1}\bm t=\bm k(\bm x)^T(\bm K+\lambda \bm I_N)^{-1}\bm t$

其中 $\bm K=\bm\Phi \bm\Phi^T$ 是Gram矩阵，元素为 $K_{nm}=\bm\phi(\bm x_n)^T\bm\phi(\bm x_m)=k(\bm x_n,\bm x_m)$ ，向量 $\bm k$ 由 $k_n(\bm x)=k(\bm x_n,\bm x)$ 组成

这里的对偶形式，完全由核函数表达结果是新观测和训练集计算核函数的结果的线性组合，满足

y(\bm x)=\sum_{n=1}^N \alpha_n k(\bm x_n, \bm x)

实际上

(\lambda \bm I_N+\bm K)^{-1}\bm t

是向量

\bm\phi(\bm x_n)

的线性组合（没证……）这里对偶形式求逆的维度为

N

，当数据量大时，比原形式的复杂度要大很多不过这里可以直接定义核函数

k

，而不用考虑特征映射

\bm\phi

感知机也可以写出对偶形式

6.2 Constructing Kernels

最简单的构造核方法是从 $k(x,x')=\phi(x)^T\phi(x')$ 如图所示

但我们可以不需要直接设计 $\phi$ ，直接构造 $k$ ，但是要保证它对应一个标量积（可以是无穷维）

关于核函数的判定参见最上方贴出的之前的博客，这里再回顾一下：

对于任意

\{\bm x_n\}

，

\bm K

需要半正定，其中元素由

k(\bm x_n,\bm x_m

)组成

一种构造核的办法是根据已有的核构造新的

P296 高斯核

$k(\bm x,\bm x')=\exp \left(-\| \bm x-\bm x'\|^2/(2\sigma^2)\right)$ 可以认为构造方法为 $\exp(-\bm x^T\bm x/(2\sigma^2)\exp(\bm x^T\bm x'/\sigma^2)\exp(-\bm x'^T\bm x'/(2\sigma^2))$ 使用上述图中(6.14)和(6.16)进行构造注意特征向量是无穷维的高斯核函数可以不局限于欧氏距离 $k(\bm x,\bm x')=\exp(-\frac{1}{2\sigma^2}(\kappa(\bm x,\bm x) +\kappa(\bm x',\bm x') - 2\kappa(\bm x, \bm x'))$ （注意，高斯核函数是径向基核函数的一种）

P297 其他数据类型的核函数

核函数中的自变量不一定要是实数或向量，可以是其他符号（如图、集合、字符串等等）

P297 从生成式模型构造核函数

我们可以在判别式框架中使用生成式模型，生成式模型可以自然处理缺失数据，以及隐马尔科夫模型下的边长序列。判别式模型则在判别式任务中表现更好。一种将结合的方式是使用生成式模型定义核，在判别式方法中使用例如 $k(\bm x,\bm x')=p(\bm x)p(\bm x')$ 这里实际上把 $p$ 看作是特征向量进一步，可以构造出 $k(\bm x,\bm x')=\sum_i p(\bm x|i)p(\bm x'|i)p(i)$ 或 $k(\bm x,\bm x')=\int p(\bm x|\bm z)p(\bm x'|\bm z)p(\bm z)d\bm z$ 在隐马尔科夫模型生成的序列数据中 $\bm X=\{\bm x_1, \cdots, \bm x_L\}$ ，隐状态为 $\bm Z=\{\bm z_1, \cdots, \bm z_L\}$ ，从而可以度量两个序列的相似性 $k(\bm X,\bm X')=\sum_{\bm Z} p(\bm X|\bm Z)p(\bm X'|\bm Z)p(\bm Z)$ 这种方法可以扩展到变长序列

P298 Fisher核

也是用于生成式模型。这里不展开讲，仅Mark一下其想法是找到一个核，度量分布中两个变量 $\bm x,\bm x'$ 之间的相似性（分布由参数 $\bm\theta$ 控制）。Fisher得分Fisher score定义为 $\bm g(\bm\theta,\bm x)=\nabla_{\bm\theta}\ln p(\bm x|\bm\theta)$ Fisher核定义为 $k(\bm x,\bm x')=\bm g(\bm\theta, \bm x)^T\bm F^{-1}\bm g(\bm\theta,\bm x')$ 其中 $\bm F$ 为Fisher信息矩阵Fisher information matrix $\bm F=\mathbb E_{\bm x\sim p_{\bm x}(\cdot|\bm\theta)} [g(\bm\theta, \bm x)g(\bm\theta,\bm x)^T]$ 这种方法的动机来自信息几何information geometry 对于高斯分布 $p(\bm x|\mu)$ ，均值是参数，方差固定为 $\bm S$ ，Fisher核的形式可以算出为 $k(\bm x,\bm x')=(\bm x-\mu)^T\bm S^{-1}(\bm x'-\mu)$ 这是马氏距离Mahalanobis distance的平方

6.3 Radial Basis Function Networks

P299 输入特征带噪声

$\phi_j(\bm x)=h(\| \bm x-\mu_j\|)$

考虑输入 $\bm x$ 带有噪声的回归问题，噪声分布为 $\nu(\bm\xi)$ 则平方和损失变成 $E=\frac{1}{2}\sum_{n=1}^N\int \{ y(\bm x_n+\bm\xi)-t_n\}^2 \nu(\bm\xi)d\bm\xi$ 用变分法，可以得到 $y(\bm x)=\sum_{n=1}^N t_n h(\bm x-\bm x_n)$ 其中 $h(\bm x-\bm x_n)=\frac{\nu (\bm x - \bm x_n)}{\sum_{i=1}^N \nu (\bm x-\bm x_i)}$ 如果 $\nu(\xi)$ 各向同性，即只和 $\|\xi\|$ 有关，那么基函数就是径向的径向基函数出现了！ $\sum_n h(\bm x-\bm x_n)=1$ ，这种标准化的作用如图所示。这可以避免所有的基函数都很小。如果每个数据点都关联一个基函数，那么开销很大。可以只让部分数据关联基函数。例如随机选择一个子集，或者采用正交最小平方orthogonal least squares，顺序选择每一个样本点，使平方和损失下降最快。也可以基于K-means算法，得到一组基中心，这是基中心不与数据点重合

P301 Nadaraya-Watson模型

Nadaraya-Watson模型和第3章的等价核模型，可以对比起来看假定有训练集 $\{\bm x_n, t_n\}$ ，采用第2章的Parzen密度估计来建模联合分布 $p(\bm x, t) = \frac{1}{N}\sum_{n=1}^N f(\bm x-\bm x_n, t-t_n)$ 其中 $f$ 是分量密度函数，则 $\begin{aligned} y(\bm x) &= \mathbb E[t|\bm x]=\int_{-\infty}^{\infty}tp(t|\bm x)dt \\ &=\frac{\int tp(\bm x,t)dt}{\int p(\bm x,t)dt} \\ &=\frac{\sum_n \int tf(\bm x-\bm x_n, t-t_n)dt}{\sum_m \int f(\bm x - \bm x_m , t-t_m)dt} \end{aligned}$ 假定 $\int_{-\infty}^{\infty} f(\bm x, t)tdt=0$ 则 $y(\bm x)=\sum_n k(\bm x,\bm x_n)t_n$ 其中 $\begin{aligned} k(\bm x,\bm x_n)= &\frac{g(\bm x - \bm x_n)}{\sum_m g(\bm x-\bm x_m)}\\ g(\bm x)=& \int_{-\infty}^{\infty}f(\bm x, t)dt \end{aligned}$ 而且易得，这个结果称之为Nadaraya-Watson模型，或者核回归kernel regression $\sum_n k(\bm x, \bm x_n)=1$ 这和等价核类似注意这里不仅仅是 $t$ 的期望， $p(t|\bm x)$ 是可以求出来的 $p(t|\bm x) = \frac{\sum_n f(\bm x-\bm x_n, t-t_n)}{\sum_m \int f(\bm x - \bm x_m , t-t_m)dt}$ 如果把 $f$ 建模成各向同性的高斯，则结果如图所示此外，可以把 $\bm x)$ 建模成混合高斯，这样核函数不在训练点处，但是成分少了，推断时计算效率高了。

总之，在（1）输入变量被污染；（2）Nadaraya-Watson模型，这两种假设下，都能得到同样的径向基函数模型

6.4 Gaussian Processes

直接定义函数 $y$ 上的先验概率分布，而不是定义在参数上。（这句话很深刻，也是高斯过程的主要特点。另外，高斯过程是一个随机过程）很多模型都能看作是高斯过程的形式，包括ARMA、卡尔曼滤波、径向基函数网络等。

高斯过程是定义在函数 $y(\bm x)$ 上的一个概率分布，使得在任意点集 $\bm x_1, \cdots, \bm x_N$ 计算的 $y$ 的集合联合起来服从高斯分布。更一般的情况下可以用更合理的方式为 $y(\bm x_1),\cdots,y(\bm x_N)$ 赋予联合概率分布，来确定一个随机过程 $y(\bm x)$ ，高斯过程中， $N$ 个变量 $y_1, \cdots, y_N$ 上的联合概率分布完全由二阶统计确定，大部分应用中，直接把 $y$ 的均值设为0，方差则由核函数确定 $\mathbb E[y(\bm x_n)y(\bm x_m)]=k(\bm x_n, \bm x_m)$ 对于线性回归而言 $\bm y=\bm\Phi \bm w$ $\begin{aligned} \mathbb E[\bm y]= &\bm\Phi \mathbb E[\bm w]=\bm 0 \\ cov[\bm y] =&\mathbb E[\bm y\bm y^T]=\bm\Phi \mathbb E[\bm w\bm w^T]\bm\Phi^T=K \end{aligned}$ 也可以直接定义核函数，而不用选择基函数。如图所示（图中横轴是 $x$ ，纵轴是 $y$ ，每一条线是一个 $y (x)$ 的采样。这里应该可以理解为有无穷个 ${x,y\}$ 样本），第一个是高斯核，第二个是指数核 $k(x,x')=\exp(-\theta |x-x'|)$ ，后者对应Ornstein-Uhlenbeck过程，描述布朗运动

P306 高斯过程回归

在回归中，要考虑噪声。 $y=y(\bm x)，t=y+\epsilon$ ，也即 $\begin{aligned} p(\bm t|\bm y) &=\mathcal N(\bm t|\bm y, \beta^{-1}\bm I_N) \\ p(\bm y)&=\mathcal N (\bm y|\bm 0,\bm K) \end{aligned}$ 根据线性高斯模型，得到 $p(\bm t)=\mathcal N(\bm t|\bm 0, \bm C)$ 其中 $C(\bm x_n,\bm x_m)=k(\bm x_n, \bm x_m)+\beta^{-1} \delta_{nm}$

一种常用的核函数是指数-二次核exponential-quadratic kernel $k(\bm x_n, \bm x_m)=\theta_0 \exp\left\{ -\frac{\theta_1}{2}\|\bm x_n-\bm x_m\|^2 \right\}+\theta_2+\theta_3 \bm x_n^T\bm x_m$

推断时，考虑一个新样本点 $p(t_{N+1}|\bm t)$ （这里略去了 $\bm x$ 为了书写方便）。先考虑 $p(\bm t_{N+1})$ ，有 $p(\bm t_{N=1})=\mathcal N(\bm t_{N+1}|\bm 0,\bm C_{N+1})$ 其中 $\bm C_{N+1}$ 是 $(N+1)\times(N+1)$ 的协方差矩阵，满足 $\bm C_{N+1}=\begin{bmatrix} \bm C_N & \bm k \\ \bm k^T & c \end{bmatrix}$ 其中 $\bm k$ 中第 $n$ 个元素为 $k(\bm x_n,\bm x_{N+1})$ ， $c=k(\bm x_{N+1}, \bm x_{N+1})+\beta^{-1}$ 利用第2章求高斯分布的条件概率，得 $p(t_{N+1}|\bm t)$ 的均值、方差为 $\begin{aligned} m(\bm x_{N+1})&=\bm k^T\bm C_N^{-1}\bm t\\ \sigma^2(\bm x_{N+1})&=c-\bm k^T\bm C_N^{-1}\bm k \end{aligned}$

另外，如果考虑有限个样本，则这里的结果与贝叶斯线性回归完全一致（方差用woodbury恒等式直接替换就可以验证）所以这里也有核函数的线性组合 $m(\bm x_{N+1})=\sum_{n=1}^N a_n k(\bm x_n, \bm x_{N+1})$ 其中 $a_n$ 是 $\bm C_N^{-1}\bm t$ 的第 $n$ 个分量

对比高斯过程和线性基函数模型，高斯过程需要对维度为

N\times N

的矩阵求逆，而线性基函数只需要考虑特征有关的

M\times M

矩阵求逆（这也和woodbury恒等式的变换有关）。所以效率低。但是高斯过程的一个好处是可以考虑协方差只能被表达为无穷维的情况对于大数据集，直接应用高斯过程很困难，所以有很多种近似方法高斯过程可以扩展到高维目标观测上

P311 学习超参数

高斯过程的超参数 $\bm \theta$ 在协方差矩阵的核函数中（也就是说核函数带参数了！）所以目标可以是最大化似然 $p(\bm t|\bm \theta)$ $\ln p(\bm t|\bm \theta)=-\frac{1}{2} \ln |\bm C_N| - \frac{1}{2}\bm t^T\bm C_N^{-1}\bm t-\frac{N}{2}\ln (2\pi)$ 求梯度得到 $\frac{\partial}{\partial \theta_i} \ln p(\bm t|\bm \theta) = -\frac{1}{2}Tr\left( \bm C_N^{-1}\frac{\partial \bm C_N}{\partial \theta_i} \right) + \frac{1}{2}\bm t^T\bm C_N^{-1}\frac{\partial \bm C_N}{\partial \theta_i} \bm C_N^{-1}\bm t$ 如果用完全贝叶斯的想法。可以直接在 $\bm \theta$ 上引入先验，这样能直接积分出 $p(\bm t)$ ，但精确积分困难，这里进行近似（所以从贝叶斯的角度来看，求极大似然是一种近似）

P312 自动相关确定automatic relevance determination(ARD)

对于高维输入，ARD用来选特征的重要性。例如采用二维输入对应的核函数 $k(\bm x,\bm x')=\theta_0 \exp \left \{ -\frac{1}{2}\sum_{i=1}^2 \eta_i(x_i-x_i')^2 \right\}$ 从先验采样的 $y$ 如图所示当 $\eta_n$ 减小时， $y$ 和 $x_i$ 之间的关系变得不敏感。第二个例子是从 $y=\sin(2\pi x_1)$ 中采样， $t$ 在 $y$ 之上加入随机噪声； $x_2$ 则在 $x_1$ 基础上加入随机噪声； $x_3$ 则从另一个独立的高斯分布中采样，优化结果如图所示 ARD可以整合到上文的指数-二次核中，其中 $D$ 是输入维度 $k(\bm x_n, \bm x_m)=\theta_0 \exp\left\{ -\frac{1}{2} \sum_{i=1}^D \eta_i(x_{ni}-x_{mi})^2 \right\}+\theta_2+\theta_3 \bm x_n^T\bm x_m$

P313 高斯过程分类

由于高斯过程中 $y$ 是联合高斯分布，所以为了适应分类任务，要在输出 $\bm a$ 套上激活函数得到 $\bm t$ 。例如二分类问题，如图所示 $p(t|a)=\sigma(a)^t(1-\sigma(a))^{1-t}$ 仿照回归 $p(\bm a_{N+1})=\mathcal N (\bm a_{N+1}|\bm 0,\bm C_{N+1})$ 其中 $C(\bm x_n,\bm x_m)=k(\bm x_n,\bm x_m)+\nu\delta_{nm}$ ， $\nu$ 是一个提前固定的参数，保证 $\bm C$ 正定（注意 $\bm K$ 半正定） $p(t_{N+1}=1|\bm t_N)=\int p(t_{N+1}=1|a_{N+1})p(a_{N+1}|\bm t_N)da_{N+1}$ 其中 $p(t_{N+1}=1|a_{N+1})=\sigma(a_{N+1})$ 这积分没有解析解，所以采用近似。三种方法：

变分推断variational inference期望传播expectation propagation拉普拉斯近似laplace approximation

这里考虑第三种方法，把 $p(a_{N+1}|\bm t_N)$ 近似成高斯分布，这样就可以用第4章的高斯分布和logistic函数卷积进行近似（probit函数代替logistic函数）的方法求解 $p(a_{N+1}|\bm t_N)=\int p(a_{N+1}|\bm a_N)p(\bm a_N|\bm t_N)d\bm a_N \tag{1}$ 这里 $a_{N+1}$ 与 $\bm t_N$ 在给定 $\bm a_N$ 的条件下独立。其中已知 $p(a_{N+1}|\bm a_N)=\mathcal (a_{N+1}|\bm k^T \bm C_N^{-1}\bm a_N, c-\bm k^T \bm C_N^{-1}\bm k)$ 这里再对 $p(\bm a_N|\bm t_N)$ 运用拉普拉斯近似考虑到 $p(\bm a_N|\bm t_N)\propto p(\bm a_N)p(\bm t_N|\bm a_N)$ ，其中 $\begin{aligned} p(\bm a_N) &=\mathcal N(\bm a_N|\bm 0, \bm C_N) \\ p(\bm t_N|\bm a_N) &=\prod_{n=1}^N \sigma(a_n)^{t_n}(1-\sigma(a_n))^{1-t_n}=\prod_{n=1}^N e^{a_nt_n}\sigma(-a_n) \end{aligned}$ 所以 $p(\bm a_N| \bm t_N)$ 的概率对数为 $\begin{aligned} \Psi(\bm a_N|\bm t_N) &=\ln p(\bm a_N)+\ln p(\bm t_N|\bm a_N) \\ &= -\frac{1}{2}\bm a_N^T\bm C_N^{-1}\bm a_N-\frac{N}{2}\ln(2\pi)-\frac{1}{2}\ln |\bm C_N|+\bm t_N^T \bm a_N-\sum_{n=1}^N \ln (1+e^{a_n})+\text{const} \end{aligned}$

$\nabla \Psi(\bm a_N)=\bm t_N- \bm \sigma_N-\bm C_N^{-1}\bm a_N$ 因为 $\bm \sigma_N$ 和 $\bm a_N$ 有关，导致上式零点不好求，用泰勒展开近似（这第三波近似了） $\nabla^2 \Psi(\bm a_N)=-\bm W_N - \bm C_N^{-1}$ 其中 $\bm W_N$ 是对角矩阵，元素为 $\sigma(a_n)(1-\sigma(a_n))$ . 能看出 $\nabla^2 \Psi(\bm a_N)$ 负定，所以泰勒展开近似的 $p(\bm a_N|\bm t_N)$ 上凸，有最大值所以二次迭代公式为 $\bm a_N^{new}=\bm C_N(\bm I+\bm W_N\bm C_N)^{-1}\{ \bm t_N-\bm \sigma_N+\bm W_N\bm a_N \}$ 这样一波算下来，能得到 $q(\bm a_N)$ 去近似 $p(\bm a_N|\bm t_N)$ ，进而求出 $\begin{aligned} \mathbb E[a_{N+1}|\bm t_N] =& \bm k^T(\bm t_N-\bm \sigma_N) \\ var[a_{N+1}|\bm t_N] =&c-\bm k^T(\bm W_N^{-1}+\bm C_N)^{-1}\bm k \end{aligned}$ 得到 $p(a_{N+1}|\bm t_N)$ 的近似，从而得到 $p(t_{N+1}|\bm t_N)$ 如果只关心决策边界，那么只需要看均值就已经结束了，不用再处理式（1）的积分

此外，我们还可以用上文的方法学习超参数 $\bm \theta$ ，即优化 $p(\bm t_N|\bm \theta)$ ，这一页公式太繁琐，我跳过了没看。。。（饶恕了自己。。）

可视化的结果如图

P319 高斯过程和神经网络的关系

当神经网络的隐含单元 $M\to\infty$ 时（把隐含单元看作基函数，也即基函数的数量有无穷多的极限情况下），对于参数 $\bm w$ 的一大类恰当先验分布，神经网络产生的函数分布会趋于高斯过程。不过，在极限情况下，神经网络的输出变量会相互独立，不再共享隐含单元的“统计优势”

参考文献： [1] Christopher M. Bishop. Pattern Recognition and Machine Learning. 2006

Processed: 0.014, SQL: 8