机器学习笔记——偏差vs方差

科技2024-10-07 101

（参考菜菜的sklearn课程）一个集成模型在一个数据集上的泛化误差E(f;D)，由方差（var）、偏差（bais）和噪声共同决定：对于上图：红色点集成算法中的每个基评估器产生的预测值；红色虚线代表这些预测值的平均值；蓝色实线代表数据的真实值。

偏差：模型预测值与真实值之间的差异，即：红色点到蓝色实线的距离。在集成算法中，每个基评估器都会产生自己的偏差，集成评估器的偏差是基评估器偏差的均值。模型越精准，偏差越低。

方差：模型预测值与预测值的平均值之间的差异。即：红色点到红色虚线之间的距离，以此衡量模型的稳定性。模型越稳定，方差越低。

通常来讲，偏差和方差是一个“此消彼长”的关系，如下图所示：

当模型复杂度大的时候，偏差小，方差大；当模型复杂度小的时候，方差小，偏差大。

所以我们调参的目标是使方差和偏差达到一个平衡。虽然方差和偏差不可能同时达到最小值，但是他们的组合可以使泛化误差达到一个最小值，而我们要寻找的就是这个最小值。

Processed: 0.042, SQL: 9