【笔记】为什么需要归一化标准化（Normalization）

科技2022-07-10 432

1. 归一化的作用

在机器学习领域中，不同评价指标（即特征向量中的不同特征就是所述的不同评价指标）往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。其中，最典型的就是数据的归一化/标准化处理。数据之间差异过大的时候就需要标准化处理。

如果不进行归一化，那么由于特征向量中不同特征的取值相差较大，会导致目标函数变“扁”。这样在进行梯度下降的时候，梯度的方向就会偏离最小值的方向，走很多弯路，即训练时间过长。如果进行归一化以后，目标函数会呈现比较“圆”，这样训练速度大大加快，少走很多弯路。

2. 通常用于特征标准化的途径有两种,

(1) 一种叫做 min max normalization,他会将所有特征数据按比例缩放到0-1的这个取值区间.有时也可以是-1到1的区间. (2) 还有一种叫做 standard deviation normalization, 他会将所有特征数据缩放成平均值为0, 方差为1.

使用这些标准化手段. 我们不仅可以快速推进机器学习的学习速度, 还可以避免机器学习学得特扭曲.

【注】对数据进行中心化预处理，这样做的目的是要增加基向量的正交性。

对数据标准化的目的是消除特征之间的差异性。便于对一心一意学习权重。

3. 参考资料

【1】数据什么时候需要做中心化和标准化处理？https://www.zhihu.com/question/37069477

【2】为什么要特征标准化 (机器学习)：https://zhuanlan.zhihu.com/p/24839177

【3】机器学习——标准化/归一化的目的和作用：https://blog.csdn.net/zenghaitao0128/article/details/78361038

Processed: 0.008, SQL: 9