二分类问题最终结果分类可以用混淆矩阵表示为:
预测 01实际0ab1cd其中,a表示预测为0中预测对的样本个数;b表示预测为1中预测错的样本个数;c表示预测为0中预测错的样本个数;d表示预测为1中预测对的样本个数。
则:
准确率=(a+d)/(a+b+c+d)
召回率(覆盖率)=d/(c+d),召回率是重要的指标,如果分类的目的是找出潜在目标客户,则召回率越大表示越多的潜在客户被找出。
精确率(命中率)=d/(b+d)
f1=2×召回率×精确率/(召回率+精确率),是精确率和召回率的一种调和平均。
auc是roc曲线下的面积,roc是由不同阈值下的一系列(tpr,fpr)点对绘画而成,auc越接近1则模型效果越好.
当我们分类的目标是将潜在目标客户识别出来时(例如识别有违约倾向的贷款客户、识别有办会员倾向的用户),此时召回率、auc是评价模型效果的准绳。
如果分类目标是提高客户的响应率,客户响应率是影响投入产出比的重要因素,也就是要低投入高产出。此时,我们关注的不再是召回率,而是命中率以及提升度。
命中率=d/(b+d),一般记作precision。
在不使用模型的情况下,正例的比例=(c+d)/(a+b+c+d),可以记为k。
定义:提升值lift=precision/k,当lift大于1时,模型才是有效的,并且越大越好