(参考菜菜的sklearn课程) 一个集成模型在一个数据集上的泛化误差E(f;D),由方差(var)、偏差(bais)和噪声共同决定: 对于上图: 红色点集成算法中的每个基评估器产生的预测值; 红色虚线代表这些预测值的平均值; 蓝色实线代表数据的真实值。
偏差:模型预测值与真实值之间的差异,即:红色点到蓝色实线的距离。在集成算法中,每个基评估器都会产生自己的偏差,集成评估器的偏差是基评估器偏差的均值。模型越精准,偏差越低。
方差:模型预测值与预测值的平均值之间的差异。即:红色点到红色虚线之间的距离,以此衡量模型的稳定性。模型越稳定,方差越低。
通常来讲,偏差和方差是一个“此消彼长”的关系,如下图所示:
当模型复杂度大的时候,偏差小,方差大;当模型复杂度小的时候,方差小,偏差大。
所以我们调参的目标是使方差和偏差达到一个平衡。虽然方差和偏差不可能同时达到最小值,但是他们的组合可以使泛化误差达到一个最小值,而我们要寻找的就是这个最小值。