有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。 例子: 类分布为(0,1)的结点具有零不纯性(是比较好的) 均衡分布(0.5,0.5)的结点具有最高的不纯性
提示:以下是本篇文章正文内容,下面案例可供参考
注意:p(i|t)表示给定结点t中属于i类的比例
①熵(信息论中使用较多) Entropy(t)=②基尼值 Gini(t)= ③分类误差 Classification error(t)=
!以下是三种不纯性度量方法的计算实例:
为了确定测试条件的效果,需要比较父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度,他们的差越大,测试的条件越好。增益∆是一种可以用来确定划分效果的标准 ①I(parent):父结点(给定结点)的不纯性度量 ②N:父结点上的记录总数 ③k:属性个数 ④N(Vj):与子女结点Vj相关联的记录个数 ⑤当选择熵作为不纯度度量时,熵的差就是信息增益
1、测试效果:用熵的不纯性度量公式
对方案A: 解释:I(parent)=1→因为父结点是完全不分类
对方案B: 2、用分类误差的不纯性度量公式
对方案A
对方案B
通过计算结果可知,方案B的分类效果更好
这篇文章简单介绍了数据挖掘中对于分类的一般衡量方法,运用理论和例题结合的方式帮助理解。