二分类模型评估指标

    科技2022-07-15  122

           二分类问题最终结果分类可以用混淆矩阵表示为:

      预测  01实际0ab1cd

           其中,a表示预测为0中预测对的样本个数;b表示预测为1中预测错的样本个数;c表示预测为0中预测错的样本个数;d表示预测为1中预测对的样本个数。

           则:

           准确率=(a+d)/(a+b+c+d)

           召回率(覆盖率)=d/(c+d),召回率是重要的指标,如果分类的目的是找出潜在目标客户,则召回率越大表示越多的潜在客户被找出。

           精确率(命中率)=d/(b+d)

           f1=2×召回率×精确率/(召回率+精确率),是精确率和召回率的一种调和平均。

           auc是roc曲线下的面积,roc是由不同阈值下的一系列(tpr,fpr)点对绘画而成,auc越接近1则模型效果越好.

           当我们分类的目标是将潜在目标客户识别出来时(例如识别有违约倾向的贷款客户、识别有办会员倾向的用户),此时召回率、auc是评价模型效果的准绳。

           如果分类目标是提高客户的响应率,客户响应率是影响投入产出比的重要因素,也就是要低投入高产出。此时,我们关注的不再是召回率,而是命中率以及提升度。

           命中率=d/(b+d),一般记作precision。

           在不使用模型的情况下,正例的比例=(c+d)/(a+b+c+d),可以记为k。

           定义:提升值lift=precision/k,当lift大于1时,模型才是有效的,并且越大越好

    Processed: 0.013, SQL: 8