Ng机器学习笔记神经网络

科技2022-07-11 183

神经网络

非线性假设模型的表示前向传播算法( FORWARD PROPAGATION )向量化特征和直观理解单层神经元的计算表示逻辑运算逻辑与(AND)OR函数二元逻辑运算符多类分类代价函数

非线性假设

之前学的缺点：特征太多时，计算的负荷大。普通的逻辑回归模型，不能有效地处理很多特征。

模型的表示

前向传播算法( FORWARD PROPAGATION )

类似于神经元的神经网络：

$x_1$ , $x_2$ , $x_3$ ：输入单元（input units），原始数据输入。 $a_1$ , $a_2$ , $a_3$ ：中间单元，数据处理，呈递到下一层。输出单元：计算 ${h_\theta}\left( x \right)$ 。

每一层的输出变量都是下一层的输入变量。

下图为一个3层的神经网络：

第一层------输入层（Input Layer）

最后一层------输出层（Output Layer）

中间一层------隐藏层（Hidden Layers）

每一层都有一个偏差单位（bias unit）

$a_{i}^{\left( j \right)}$ :第 $j$ 层的第 $i$ 个激活单元。 ${{\theta }^{\left( j \right)}}$ : 从第 $j$ 层映射到第$ j+1$ 层时的权重的矩阵

其尺寸为：以第

j + 1

层的激活单元数量为行数，以第

j

层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中

{{\theta }^{\left( 1 \right)}}

的尺寸为 3*4。

激活单元和输出分别表达为：

$a_{1}^{(2)}=g(\Theta {10}^{(1)}{{x}{0}}+\Theta {11}^{(1)}{{x}{1}}+\Theta {12}^{(1)}{{x}{2}}+\Theta {13}^{(1)}{{x}{3}})$ $a_{2}^{(2)}=g(\Theta {20}^{(1)}{{x}{0}}+\Theta {21}^{(1)}{{x}{1}}+\Theta {22}^{(1)}{{x}{2}}+\Theta {23}^{(1)}{{x}{3}})$ $a_{3}^{(2)}=g(\Theta {30}^{(1)}{{x}{0}}+\Theta {31}^{(1)}{{x}{1}}+\Theta {32}^{(1)}{{x}{2}}+\Theta {33}^{(1)}{{x}{3}})$ ${{h}_{\Theta }}(x)=g(\Theta {10}^{(2)}a{0}^{(2)}+\Theta {11}^{(2)}a{1}^{(2)}+\Theta {12}^{(2)}a{2}^{(2)}+\Theta {13}^{(2)}a{3}^{(2)})$

上述讨论中只是将特征矩阵中的一行（一个训练实例）喂给了神经网络，实际需要将整个训练集都喂给神经网络。

每一个 $a$ 都是由上一层所有的 $x$ 和每一个 $x$ 所对应的决定的。

把 $x$ , $\theta$ , $a$ 分别用矩阵表示：

可得 $\theta \cdot X=a$ 。

向量化

计算更简便。以上面的神经网络为例，算第二层的值：

${{z}^{\left( 2 \right)}}={{\theta }^{\left( 1 \right)}}x$ ，则 ${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$ ，计算后添加 $a_{0}^{\left( 2 \right)}=1$ 。输出的值为：令 ${{z}^{\left( 3 \right)}}={{\theta }^{\left( 2 \right)}}{{a}^{\left( 2 \right)}}$ ，则 $h_\theta(x)={{a}^{\left( 3 \right)}}=g({{z}^{\left( 3 \right)}})$ 。这只是针对训练集中一个训练实例所进行的计算。如果我们要对整个训练集进行计算，我们需要将训练集特征矩阵进行转置，使得同一个实例的特征都在同一列里。即：

${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$

为了更好了了解Neuron Networks的工作原理，我们先把左半部分遮住：

右半部分其实就是以 $a_0, a_1, a_2, a_3$ , 按照Logistic Regression的方式输出 $h_\theta(x)$ ：

特征和直观理解

从本质上讲，神经网络能够通过学习得出其自身的一系列特征。普通的逻辑回归：仅使用数据中的原始特征 $x_1,x_2,...,{{x}_{n}}$ 神经网络：原始特征只是输入层

单层神经元的计算表示逻辑运算

逻辑与(AND)

我们可以用这样的一个神经网络表示AND 函数：其中 $\theta_0 = -30, \theta_1 = 20, \theta_2 = 20$ 输出函数 $h_\theta(x)$ 即为： $h_\Theta(x)=g\left( -30+20x_1+20x_2 \right)$ 所以有： $h_\Theta(x) \approx \text{x}_1 \text{AND} , \text{x}_2$

OR函数

OR与AND整体一样，区别只在于的取值不同。

二元逻辑运算符

当输入特征为布尔值（0或1）时，我们可以用一个单一的激活层可以作为二元逻辑运算符，为了表示不同的运算符，我们只需要选择不同的权重即可。

神经元（三个权重分别为-30，20，20）可以被视为作用同于逻辑与（AND）神经元（三个权重分别为-10，20，20）可以被视为作用等同于逻辑或（OR）神经元（两个权重分别为 10，-20）可以被视为作用等同于逻辑非（NOT）

更复杂的运算：XNOR 功能（输入的两个值必须一样，均为1或均为0）即 $\text{XNOR}=( \text{x}_1, \text{AND}, \text{x}_2 ), \text{OR} \left( \left( \text{NOT}, \text{x}_1 \right) \text{AND} \left( \text{NOT}, \text{x}_2 \right) \right)$

首先构造一个能表达 $\left( \text{NOT}, \text{x}_1 \right) \text{AND} \left( \text{NOT}, \text{x}_2 \right)$ 部分的神经元，然后将表示 AND 的神经元和表示 $\left( \text{NOT}, \text{x}_1 \right) \text{AND} \left( \text{NOT}, \text{x}_2 \right)$ 的神经元以及表示 OR 的神经元进行组合

多类分类

要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层应该有4个值。第一个值为1或0用于预测是否是行人，第二个值用于判断是否为汽车。。。

输入向量 $x$ 有三个维度，两个中间层，输出层4个神经元分别用来表示4类，也就是每一个数据在输出层都会出现 ${{\left[ a\text{ }b\text{ }c\text{ }d \right]}^{T}}$ ，且 $a, b, c, d$ 中仅有一个为1，表示当前类。

代价函数

假设神经网络的训练样本有 $m$ 个，每个包含一组输入 $x$ 和一组输出信号 $y$ ， $L$ 表示神经网络层数， $S_I$ 表示每层的neuron个数( $S_l$ 表示输出层神经元个数)， $S_L$ 代表最后一层中处理单元的个数。

将神经网络的分类定义为两种情况：二类分类和多类分类，

二类分类： $S_L=0, y=0, or, 1$ 表示哪一类；

$K$ 类分类： $S_L=k, y_i = 1$ 表示分到第 $i$ 类； $(k > 2)$

逻辑回归只有一个输出变量，又称标量（scalar），也只有一个因变量 $y$ ，但是神经网络中可以有很多输出变量，我们的 $h_\theta(x)$ 是一个维度为 $K$ 的向量，并且我们训练集中的因变量也是同样维度的一个向量代价函数为： $\newcommand{\subk}[1]{ #1_k }$ $h_\theta\left(x\right)\in \mathbb{R}^{K}$ ${\left({h_\theta}\left(x\right)\right)}_{i}={i}^{th} \text{output}$

Processed: 0.021, SQL: 10

Ng机器学习笔记 神经网络