统计学习方法 第五章决策树

    科技2024-08-04  24

    决策树:

    定义:

    描述对实例进行分类的树型结构,决策树由结点和有向边组成,结点有两种类型:内部结点(表示一个特征或属性)和叶结点(一个类)

    算法:

    用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点,这时,每一个子节点对于着该特征的一个取值,如此递归地对实例进行测试并分配,直至达到叶节点,最后将实例分到叶节点的类中。

    条件概率分布:

    假设X为表示特征的随机变量,Y为表示类的随机变量,那么这个条件概率分布可以表示为P(X|Y)。X取值于给定划分下单元的集合,Y取值于类的集合。

    决策树分类时将该结点的实例强行分到条件概率大的哪一类去。

    决策树学习

    本质上是从训练数据集中归纳出一组分类规则。

    决策树学习是由训练数据集估计条件概率模型,基于特征空间划分的类的条件概率模型有无穷多个,我们选择的条件概率应该不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。

    决策树用损失函数来实现这一目标,通常是正则化的极大似然函数。

    决策树学习策略是以损失函数为目标函数的最小化。

    特征选择

    特征选择在于选取对训练数据具有分类能力的特征,可以提高决策树学习的效率。

    ID3算法:

    在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。

    从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子节点,再对子节点递归地调用以上方法,构建决策树,直到所有特征的信息增益均很小或没有特征可以选择为止。

    C4.5的生成算法:

    与ID3算法相似,C4.5生成的过程中,用信息增益比来选择特征。

    剪枝

    通过极小化决策树整体的损失函数或者代价函数来实现。

    CART算法:

    CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

    决策树的生成就是递归地构建二叉树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则进行特征选择,生成二叉树。

    最小二乘回归树:

    选择最优切分变量与切分点用选定的对(j,s)划分区域并决定相应的输出值:继续对两个子区域调用步骤(1)(2),直至满足停止条件将输入空间划分为M个区域,生成决策树

    分类树的生成:

    用基尼指数选择最优特征,同时决定该特征的最优二值切分点。

    CART剪枝:

    剪枝,形成一个子树序列在剪枝得到的子树序列中通过交叉验证选取最优子树
    Processed: 0.011, SQL: 8