统计机器学习-------第二章感知机

科技2022-07-13 154

0. 介绍

本章不从神经网络单元的角度考虑,单纯的把它抽象出来,看作一个简单的二分类线性模型.

感知机是神经网络和支持向量机的基础.

1. 感知机模型

感知机模型是一个线性二分类模型,学习的目的是寻找一个可以将实例划分为正负两类的超平面,其模型如下:

作用: 输入数据的特征向量 x,输出数据的类别(-1,+1),很明显这是一个判别模型.

$\ f(x) = sign(w \cdot x + b)$

w,b为模型的参数,

\cdot x

表示两者内积,sign为符号函数,如下

$\begin{cases} +1 & , & x \ge 0 \\ -1 & , & x < 0 \end{cases}$

2. 学习策略

我们使用此模型的前提是数据线性可分

上述模型中,w , b 未知,而学习的策略就是为了找到一个超平面(w,b决定)能够完全将正实例和负实例分开.

我们引入经验损失函数,将上述描述转化为,学习找到使得损失函数值最小的w,b

2.1 损失函数选择策略

2.1.1 分类损失函数

参考[1],常见的损失函数以及其常用的模型如下

以上公式,y*f(x)-L的函数关系曲线如下图所示

无论是哪种损失函数，本质上都是希望成为0-1 loss的代理，尽可能地继承0-1 loss的完美判别属性的同时，又能有凸函数的性质。可以看到无论是Hinge loss，log loss，exponential loss还是perceptron loss，它们在横轴0点的某一侧（事实上整体都是）都是凸函数，凸函数对于函数求解可是重大利好，所以这一点十分重要。如右子图所示，有一个一飞冲天的loss，即的exponential loss，由于它在离0点较远处惩罚值相当大，所以对训练样本的离群点反应强烈，鲁棒性不好，这个问题也成了使用exponential los的boosting算法的天然缺陷。

2.1.2 回归损失函数

详情可见参考文章: 机器学习总览,损失函数

2.13 感知机的损失函数

对于感知机,在选择损失函数时要优先考虑连续可导的函数,因此以误分类点个数总数为损失函数不可取,选择以误分类点到超平面的距离S为损失函数

任意一点到超平面距离公式:

$d_{0} = \frac{1}{||w||} |w \cdot x_{0} + b|$

由于对于误分类的点来说: $-y_{i}(w \cdot x_{i} + b) > 0$

所以对于误分类的点来说,其到平面距离为(去绝对值)

$d_{i} = -\frac{1}{||w||} y_{i}(w \cdot x_{i} + b)$

针对所有误分类点,可得损失函数(不考虑

-\frac{1}{||w||}

\sum_{x_{i} \in M}y_{i}(w \cdot x_{i} + b)

3 学习算法

有了学习目标:损失函数最小,现在需要用算法将这个目标实现.很明显这是一个最优化问题,感知机选择的优化算法是随机梯度下降法,具体其他优化算法介绍可见:[2,3,4]

原始算法:(基于随机梯度下降)

输入:训练集数据,学习率为 $\eta$ 输出:w,b

(1) 选取初值 $w_{0}$ , $b_{0}$ (2)在训练集和中选取一个 $x_{i}$ , $y_{i}$ (3)如果 $y_{i}(w \cdot x_{i} + b \leq 0)$ $\gets w + \eta y_{i} x_{i}$ $\gets b + \eta y_{i}$ 注:上述更新公式通过简单的对下式求偏导得出 $y_{i}(w \cdot x_{i} + b)$ (4) 转至(2),直至训练集中没有误分类点

4.对偶形式

详细讨论可见:[5],这里截取部分Zongrong Zheng的笔记, 对应公式和<统计学细方法>有差别,但是更容易理解.

对偶形式的感知机，把每轮迭代的时间复杂度的数据规模从特征空间维度n转移到了训练集大小 N上，但增加了预先计算Gram矩阵的时间。所以对于维度高，数量少的训练数据，可以提高每次迭代的性能。

参考

1. 机器学习总览,损失函数 2. 深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam） 3. 机器学习中的最优化算法总结 4. 优化算法笔记-optimization 5. 如何理解感知机学习算法的对偶形式？知乎讨论

Processed: 0.016, SQL: 9

统计机器学习-------第二章 感知机