在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。 其中,最典型的就是数据的归一化/标准化处理。数据之间差异过大的时候就需要标准化处理。
如果不进行归一化,那么由于特征向量中不同特征的取值相差较大,会导致目标函数变“扁”。 这样在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路,即训练时间过长。如果进行归一化以后,目标函数会呈现比较“圆”,这样训练速度大大加快,少走很多弯路。(1) 一种叫做 min max normalization,他会将所有特征数据按比例缩放到0-1的这个取值区间.有时也可以是-1到1的区间. (2) 还有一种叫做 standard deviation normalization, 他会将所有特征数据缩放成 平均值为0, 方差为1.
使用这些标准化手段. 我们不仅可以快速推进机器学习的学习速度, 还可以避免机器学习 学得特扭曲.
【注】 对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
对数据标准化的目的是消除特征之间的差异性。便于对一心一意学习权重。
【1】数据什么时候需要做中心化和标准化处理?https://www.zhihu.com/question/37069477
【2】为什么要特征标准化 (机器学习):https://zhuanlan.zhihu.com/p/24839177
【3】机器学习——标准化/归一化的目的和作用:https://blog.csdn.net/zenghaitao0128/article/details/78361038