描述对实例进行分类的树型结构,决策树由结点和有向边组成,结点有两种类型:内部结点(表示一个特征或属性)和叶结点(一个类)
用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点,这时,每一个子节点对于着该特征的一个取值,如此递归地对实例进行测试并分配,直至达到叶节点,最后将实例分到叶节点的类中。
假设X为表示特征的随机变量,Y为表示类的随机变量,那么这个条件概率分布可以表示为P(X|Y)。X取值于给定划分下单元的集合,Y取值于类的集合。
决策树分类时将该结点的实例强行分到条件概率大的哪一类去。
本质上是从训练数据集中归纳出一组分类规则。
决策树学习是由训练数据集估计条件概率模型,基于特征空间划分的类的条件概率模型有无穷多个,我们选择的条件概率应该不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。
决策树用损失函数来实现这一目标,通常是正则化的极大似然函数。
决策树学习策略是以损失函数为目标函数的最小化。
特征选择在于选取对训练数据具有分类能力的特征,可以提高决策树学习的效率。
ID3算法:
在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子节点,再对子节点递归地调用以上方法,构建决策树,直到所有特征的信息增益均很小或没有特征可以选择为止。
C4.5的生成算法:
与ID3算法相似,C4.5生成的过程中,用信息增益比来选择特征。
通过极小化决策树整体的损失函数或者代价函数来实现。
CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。
决策树的生成就是递归地构建二叉树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则进行特征选择,生成二叉树。
最小二乘回归树:
选择最优切分变量与切分点用选定的对(j,s)划分区域并决定相应的输出值:继续对两个子区域调用步骤(1)(2),直至满足停止条件将输入空间划分为M个区域,生成决策树分类树的生成:
用基尼指数选择最优特征,同时决定该特征的最优二值切分点。