几类常见的激活函数——ReLU函数、sigmiod函数、tanh 函数

科技2022-07-11 173

背景介绍：

对于常见线性回归和 $s o f t m a x$ 单层神经网络，在深度学习中的多层神经网络都可以对带有隐藏层的多层感知机，其中的一至多个隐藏层经过非线性变换等价于一个单层的神经网络；常⽤的激活函数包括 $R e L U$ 函数、 $s i g m o i d$ 函数和 $t a n h$ 函数。

数学推导

一个小批量样本 $X$ $\in$ $R^{m*n}$ ，其中批量大小为 $n$ ，输入个数为 $d$ ，假设多层感知机有一个隐藏层，其中隐藏单元个数为 $h$ ，其中 H 为隐藏层的输出，由于隐藏层和输出层均是全连接层，可以假设隐藏层的权重参数和偏差参数分别为 $W_{h}$ $\in$ $R^{d*h}$ 和 $b_{n}$ $\in$ $R^{1*h}$ ，输出层的权重和偏差参数分别为 $W_{o}$ $\in$ $R^{h*q}$ 和 $b_{o}$ $\in$ $R^{n*q}$ 。我们计算含单隐藏层的输出 $O$ $\in$ $R^{n*q}$ 为： $H = XW_{h} + b_{n}$ $O = HW_{o} + b_{o}$ 将第 1 个表达式代入到第二个表达式： $O = (XW_{h}+b_{h})W_{o} + b_{o} = XW_{h}W_{o}+ b_{h}W_{o} + b_{o}$ 不难可以看出虽然神经网络引入了隐藏层，但依然等价于一个单层的神经网络：其中输出层权重参数为 $W_{h}W_{o}$ ，偏差参数为 $b_{h}W_{o}+b_{o}$ 。

激活函数

$R e L U 函数$ : 简单的非线性变换，仅保留正数元素，

$R e L u (x) = m a x (x, 0)$

$s i g m o i d 函数$ : 将元素的值变换到0 和1 之间的非线性变换，

$\frac{1}{1+e^{-x}}$

$t a n h 函数$ : 将元素的值变换到 -1 和 1 之间的非线性变换，

$\frac{1 - e^{-2x}}{1 + e^{2x}}$

Processed: 0.010, SQL: 8