PRML第七章读书笔记——Sparse Kernel Machines 稀疏核机、SVM、ν-SVM(SVR)、和逻辑回归区别、多类SVM、SVR、(分类回归）相关向量机RVM、稀疏性分析

科技2022-08-04 123

（不手打公式了，太费时间，也没啥收益。直接截图……）

P326 什么是稀疏核机

第六章的核方法必须要对所有的训练数据点进行求值。这一章介绍具有稀疏解的基于核的方法，从而只依赖于训练数据点的一个子集。

7.1 Maximum Margin Classifiers

P328 SVM

$\argmin_{\bm w,b}\frac{1}{2}\|\bm w\|^2 \\ \text{s.t.\quad } t_n(\bm w^T\bm \phi(\bm x_n)+b)\geqslant 1 \qquad n=1,\dots,N$ 这是二次规划问题。约束中等式满足的称之为激活activate，其他的称之为未激活inactive 引入拉格朗日乘子 $L(\bm w, b,\bm a) = \frac{1}{2}\|\bm w\|^2-\sum_{n=1}^N a_n\{ t_n(\bm w^T\bm \phi(\bm x_n)+b)-1 \}$ 使用KKT条件，令 $\frac{\partial L}{\partial \bm w}=0,\frac{\partial L}{\partial b}=0$ ，得到 $\begin{aligned} \bm w&=\sum_{n=1}^N a_nt_n\bm \phi(\bm x_n) \\ 0 &=\sum_{n=1}^N a_n t_n \end{aligned}$

消除 $\bm w,b$ 得到对偶形式 $\begin{aligned} \tilde L(\bm a)=\sum_{n=1}^N a_n - \frac{1}{2}\sum_{n=1}^N \sum_{m=1}^N &a_n a_m t_n t_m k(\bm x_n,\bm x_m) \\ \text{s.t. \qquad\qquad} a_n &\geqslant 0 \quad n=1,\dots,N \\ \sum_{n=1}^N a_nt_n &= 0 \end{aligned}$ 这里还需要满足其他KKT条件。对偶形式的缺点是计算复杂度大，二次规划问题的复杂度从特征相关的 $\mathcal O(M^3)$ 变成了样本数量相关的 $\mathcal O(N^3)$ 。但对偶形式可以直接定义核函数，实现无限维特征。从上式也能看出，核函数的Gram矩阵要正定，否则 $\tilde L$ 没有上界。推断时，判别函数为 $y(\bm x)=\sum_{n=1}^Na_n t_n k(\bm x,\bm x_n)+b \tag{1}$ 其中大部分 $a_n=0$ 是未激活的，剩下激活的对应数据点称之为支持向量support vectors，这些点满足 $t_ny(\bm x_n)=1$ . 由此稀疏性产生了！可以证明最大超平面半间隔为 $\frac{1}{\|\bm w\|} = \sqrt{\sum_{n=1}^N a_n}$

上式 $b$ 可以通过任意一条支持向量有关的约束产生 $t_n \left(\sum_{m\in \mathcal S}a_mt_m k(\bm x_n, \bm x_m)+b \right)=1$ 其中 $\mathcal S$ 是支持向量集合。也可以通过数值计算上更稳定的方法得到 $\frac{1}{|{\mathcal S}|} \sum_{n\in \mathcal S} \left ( t_n - \sum_{m \in \mathcal S} a_m t_mk(\bm x_n, \bm x_m)\right )$ SVM目标函数的等价形式为 $\sum_{n=1}^N E_{\infty} (y_n(\bm x_n) t_n - 1)+\lambda \|\bm w\|^2 \tag{2}$ 其中对于 $E_{\infty}(z)$ ，当 $z\geqslant 0$ 时，为0，否则为 $+\infty$ . $\lambda>0$

P331 重叠类分布（线性不可分）

引入松弛变量 $\xi$

拉格朗日乘子变为 $\begin{aligned} L(\bm w, b,\bm a) = \frac{1}{2}\|\bm w\|^2 + C\sum_{n=1}^N \xi_n-&\sum_{n=1}^N a_n\{ t_n(\bm w^T\bm \phi(\bm x_n)+b)-1+\xi_n \}-\sum_{n=1}^N \mu_n\xi_n \\ \text{s.t. \qquad \qquad\qquad\qquad\qquad} a_n &\geqslant 0 \\ t_ny(\bm x_n)-1+\xi_n &\geqslant 0 \\ a_n(t_ny(\bm x_n)-1+\xi_n ) &=0 \\ \mu_n &\geqslant 0 \\ \xi_n&\geqslant 0 \\ \mu_n \xi_n &= 0 \end{aligned}$ 其中 $n=1,\dots,N$ 上式对 $\bm w,b$ 结果同上，对 $\xi$ 求偏导得到 $a_n=C-\mu_n$ ，进而得到 $\begin{aligned} \tilde L(\bm a)=\sum_{n=1}^N a_n - \frac{1}{2}\sum_{n=1}^N \sum_{m=1}^N &a_n a_m t_n t_m k(\bm x_n,\bm x_m) \\ \text{s.t. \qquad\qquad} C\geqslant a_n &\geqslant 0 \quad n=1,\dots,N \\ \sum_{n=1}^N a_nt_n &= 0 \end{aligned}$ 推断时，仍然是式（1）解释：

a_n=0

，不是支持向量

C>a_n>0

，得到

\mu_n>0

，即

\xi_n=0

，在间隔上

a_n=C

，在间隔内。如果

\xi\leqslant1

，则分对，否则分错

计算 $b$ 时，用 $0<a_n <C$ 的样本点集合计算参数的优化过程还是用SMO算法多。SMO和训练数据点数量的关系位于一次和二次之间，取决于具体应用。

P334 $\nu$ -SVM

$\begin{aligned} \tilde L(\bm a)= - \frac{1}{2}\sum_{n=1}^N \sum_{m=1}^N &a_n a_m t_n t_m k(\bm x_n,\bm x_m) \\ \text{s.t. \qquad\qquad} 1/N\geqslant a_n &\geqslant 0 \quad n=1,\dots,N \\ \sum_{n=1}^N a_nt_n &= 0 \\ \sum_{n=1}^N a_n &\geqslant \nu \end{aligned}$ $\nu$ 可以被解释为边缘错误margin errors（即 $\xi_n>0$ ）的上界，也是支持向量比例的下界。（后半句能理解，前半句不能）。如图，用高斯核

从贝叶斯的角度看，SVM有一个缺点是，参数

C,\nu

之类的需要手动用cross-validation之类的方法选择。后文的RVM似乎是解决了这个问题。

P336 SVM和逻辑回归的区别

软间隔SVM可以看作是对hinge loss的优化 $\sum_{n=1}^N E_{SV}(y_n t_n)+\lambda\|\bm w\|^2$ 其中 $\lambda = (2C)^{-1},E_{SV}(y_nt_n)=[1-y_nt_n]_{+}$ 逻辑回归中，如果用 $t_n\in \{-1,+1\}$ 表示，则MAP损失函数为 $\sum_{n=1}^N E_{LR} (y_nt_n)+\lambda \| \bm w\|^2$ 其中 $E_{LR}(yt)=\ln(1+\exp(-yt))$ $E_{LR}$ 和 $E_{SV}$ 如图所示，注意 $E_{SV}$ 会带来稀疏解，正如SVM中见到的

P338 SVR

把SVM用于回归，目标函数为 $C\sum_{n=1}^N E_{\epsilon}(y(\bm x_n)-t_n)+\frac{1}{2}\|\bm w\|^2$ 其中 $E_{\epsilon}(y(\bm x)-t )= \max(|y(\bm x)-t|-\epsilon, 0)$ 这样相比于SVM，能产生对于数据的稀疏解。引入松弛变量 $\xi,\hat \xi$ ，如图分别对应正负两侧的惩罚，得到引入拉格朗日乘子，得到

对 $\bm w, b, \bm \xi, \bm \xi'$ 求偏导，并置为0，得到代入得到

需要满足推断时，为对 $a_n$ 讨论（对 $a_n'$ 的讨论类似）

0<a_n\leqslant C

，对应

\epsilon+\xi_n+y_n-t_n=0

，当数据在边界时，

\xi_n=0

；或者在边界之上，

\xi_n>0

，此时

a_n=C

. 以上这些都是支持向量

a_n=0

，边界内

$b$ 的求解方法与上文类似

P343 $\nu$ -SVR

最多只有 $\nu N$ 个点落在边界外，同时至少有 $\nu N$ 个点在边界上或边界外（虽然不理解为啥）

P344 计算学习理论

这一块内容西瓜书第12章写的更丰富，当然钥匙书更更丰富。 PAC（Probably approximately correct）学习框架，旨在给出需要多大的数据集，才能有比较好的泛化性能，即以大于等于 $1-\delta$ 的概率满足同时给出了计算代价的界。

PAC框架推到的界通常是最坏情况，因为要考虑任意分布

p(\bm x,\bm t)

，任意假设空间

\mathcal F

。而现实任务中，我们处理的分布通常有很强的规律性，例如输入空间中大片区域有相同的类别标签。由于缺少关于分布形式的任何假设，所以PAC界非常保守，严格高估了给定泛化性能所需数据集的规模。所以PAC界实际中少用。（那Rademacher复杂度呢，有没有考虑数据分布？）

7.2 Relevance Vector Machines

P345 回归RVM

RVM试图模仿SVM的推断方式，即这和对偶回归是一样的，参考之前的博客：对偶回归（Dual Regression）——CVMLI Prince读书随笔第8、9章对于 $N$ 个样本点， $M$ 维输入特征和线性回归不同的是，对每个参数，引入不同的先验 $\alpha_i$ 权重的后验分布满足均值和方差分别为其中 $\bm \Phi \in \mathbb R^{N\times M}, \bm A=\text{diag}(\alpha_i)$ （如果把 $k(\bm x,\bm x_n)$ 看作是关于 $x$ 的第 $n$ 个特征，则 $\bm \Phi=\bm K$ ，其中 $\bm K$ 是核矩阵

$\bm \alpha, \beta$ 可以通过类似第三章求线性回归的证据近似得到线性高斯模型求解后取对数类似第三章，求导令梯度为0得到（没有验证，第三章的那个我就求不出来。。）其中对 $\bm \alpha, \beta$ 的优化过程是先初始化，然后计算后验均值和方差，再重新估计 $\bm \alpha, \beta$ ，如此迭代进行。EM算法形式上和该方法等价。

优化结束后，许多 $\alpha_i$ 很大，对应参数方差很小，这些参数就可以去掉。这也是RVM的核心思想。对应的基函数 $\phi_i$ 也可以去掉。式子（7.78）中剩下的非零权值就叫做相关向量relevance vectors。

注意这些向量是通过自动相关确定ARD（回顾第六章）得到，类似SVM的支持向量。不过这种方法有一般性，可用于任何表示成基函数的可调线性组合形式的模型。可以在

\bm \alpha,\beta

上给两个Gamma先验分布，这样就从求

\bm \alpha

的MLE变成了MAP。（如果不给Gamma先验，是否可以认为Gamma分布的先验参数

a=b\to 0

. 从而Gamma分布的方差贼大。CVMLI里介绍相关向量是带上先验的，把

\bm w

的先验搞成了t分布）RVM中模型会对远离基函数的区域，方差变小，这个性质不好（应该是由于很多

\phi

都变成0了）。高斯过程不会这样，但是高斯过程计算代价大很多RVM的训练复杂度很高，达到了

\mathcal O(M^3)

，而SVM则不超过

\mathcal O(M^2)

。但是SVM要手动选超参数，RVM则自动选超参数，ARD选相关feature实践中，RVM生成的模型通常比SVM要简洁一个数量级。并且泛化误差几乎没有减小贴一张CVMLI的图

P350 稀疏性分析

这里设计了一种更快的计算RVM的方法。在公式（7.85）中考虑单独优化某一个 $\alpha_i$ ，方差 $\bm C$ 可拆成利用Woodbury恒等式和行列式的一个性质从而其中 $L(\alpha_{-i})$ 是剔除 $\alpha_i$ 后剩下的这里 $s_i$ 称之为稀疏度sparisity， $q_i$ 称为 $\phi_i$ 的质量quality 稀疏度度量了基函数 $\phi_i$ 和其他基函数的重叠程度；质量度量了基函数 $\phi_i$ 与误差向量之间的对齐程度，其中误差向量是 $\bm t$ 和去掉 $\phi_i$ 之后预测的 $\bm y_{-1}$ 之间的差异。求导得到如果 $q_i^2<s$ ，那么 $\alpha_i\to +\infty$ ；如果 $q_i^2>s$ ，那么 $\alpha_i=\frac{s_i^2}{q_i^2-s_i}$ . 如图所示可以看出稀疏度和质量共同决定了一个基函数是否要删去。该方法居然能给出解析解。这样可以在不同的候选基函数集合上进行迭代循环。最终算法如下：（这弄得跟自动选特征一样……）

P353 分类RVM

类似回归RVM，不同维度的先验参数 $\bm w$ 的精确度超参数分开。整个过程是先初始化 $\alpha$ ，然后用高斯近似后验，从而获得边缘似然的近似，优化 $\alpha$ 来最大化边缘似然。这个过程迭代至收敛。和第四章相同，后验分布其中 $\bm A=\text{diag}(\alpha_i)$ . 求梯度得到其中 $\bm B=\text{diag}(y_n(1-y_n))$ . 则拉普拉斯近似的高斯函数均值和方差为进一步对归一化常数 $p(\textbf t|\alpha)$ 近似（参考第四章），得到（这近似了一个什么分布啊。。。是伯努利分布吗）上式取对数，对 $\alpha_i$ 求偏导，得到定义 $\gamma_i=1-\alpha_i\sum_{ii}$ ，得到更新式定义（后三行我没验证了）则得到其中这与回归（7.85）形式相同，可以用同样的稀疏性分析方法快速优化。结果如图再给一张CVMLI的图

注意相关向量倾向于不在决策边界，因为决策边界附近的基函数与训练向量

\bm t

的对齐较差RVM相比于SVM的一个潜在优势是它是概率形式的预测分类RVM可以用softmax的方式扩展到多分类，整体做法类似二分类。但SVM做多分类仍然是一个问题总的来说：RVM的训练时间偏长，但是不像SVM需要手工调超参；另外RVM的解更稀疏

参考文献： [1] Christopher M. Bishop. Pattern Recognition and Machine Learning. 2006

Processed: 0.026, SQL: 8