1.有监督学习是有有明确的结果,无监督学习是结果不是很明确。
2.进行预测时需要有泛化能力,即预测没有见到过的数据的能力。
3.归纳偏好:奥卡姆剃刀。
4.开启第二章:
5.取样本的方法:留出法,K折交叉验证,重复的K折交叉验证。
自助法:P27
但是,自助法产生的数据集改变了初始数据集的分布,这会引起估计偏差。
6.验证集用于调参。比每次重新训练的计算代价要小。
7.均方误差:
8.分类结果混淆矩阵。
查准率和查全率是一对矛盾的概念,(深入理解),相当于在评判时给的门槛的高低:
9.P-R图,横纵坐标分别是P和R,
若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住" , 则可断言 后者的性能优于前者,
曲线发生了交叉,则难以-般性地断言 两者孰优孰劣?只能在具体的查准率或查全率条件下进行比较然而,这时一个比较合理的判据 是比较 P-R 曲线节面积的大小,它在一定程度上表征了学习器在查准率和查全 率上取得相对"双高"的比例
10.F1度量:使用调和平均数。
是想求1,占1,2,3的比列有多少。
11.Fbeta法:
注意:上述的三种方法都是对于二分类问题。
12.多分类转化为二分类有两种方法。
已识别手写数字0-9为例。
①,转化为多个2分类。(1,2)(1,3)。。。45个
②,(1,其他),(2,其他)。。。9个还是10个?
13.分类完之后再计算,先平均再计算F,先计算F再平均。
14.ROC 与 AUC:
若一个学习器的 ROC 曲线被另一 个学习器的曲线完全"包住", 则可断言后者的性能优于前者;若两个学习器 的 ROC 曲线发生交叉,则难以-般性地断言两者孰优孰劣. 此时如果一定要进 行比较, 则较为合理的判据是比较 ROC 曲线下的面积,即 AUC (Area Under ROC Curve)
15.rank loss:
16.AUC = 1- fl.rαnk
17,二分类代价矩阵,预测错误时,会罚分。
18.代价敏感错误率:
19.代价曲线 。
先放弃,o(╥﹏╥)o。
20.
21.
22.
23.
24.
25.