机器学习西瓜书01:绪论~第二章。

    科技2022-07-13  122

    1.有监督学习是有有明确的结果,无监督学习是结果不是很明确。

    2.进行预测时需要有泛化能力,即预测没有见到过的数据的能力。

    3.归纳偏好:奥卡姆剃刀。

    4.开启第二章:

    5.取样本的方法:留出法,K折交叉验证,重复的K折交叉验证。

    自助法:P27

    但是,自助法产生的数据集改变了初始数据集的分布,这会引起估计偏差。

    6.验证集用于调参。比每次重新训练的计算代价要小。

    7.均方误差:

    8.分类结果混淆矩阵。

    查准率和查全率是一对矛盾的概念,(深入理解),相当于在评判时给的门槛的高低:

    9.P-R图,横纵坐标分别是P和R,

    若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住" , 则可断言 后者的性能优于前者,

    曲线发生了交叉,则难以-般性地断言 两者孰优孰劣?只能在具体的查准率或查全率条件下进行比较然而,这时一个比较合理的判据 是比较 P-R 曲线节面积的大小,它在一定程度上表征了学习器在查准率和查全 率上取得相对"双高"的比例

    10.F1度量:使用调和平均数。

    是想求1,占1,2,3的比列有多少。

    11.Fbeta法:

    注意:上述的三种方法都是对于二分类问题。

    12.多分类转化为二分类有两种方法。

    已识别手写数字0-9为例。

    ①,转化为多个2分类。(1,2)(1,3)。。。45个

    ②,(1,其他),(2,其他)。。。9个还是10个?

    13.分类完之后再计算,先平均再计算F,先计算F再平均。

    14.ROC 与 AUC:

    若一个学习器的 ROC 曲线被另一 个学习器的曲线完全"包住", 则可断言后者的性能优于前者;若两个学习器 的 ROC 曲线发生交叉,则难以-般性地断言两者孰优孰劣. 此时如果一定要进 行比较, 则较为合理的判据是比较 ROC 曲线下的面积,即 AUC (Area Under ROC Curve)

    15.rank loss:

    16.AUC = 1- fl.rαnk

    17,二分类代价矩阵,预测错误时,会罚分。

    18.代价敏感错误率:

    19.代价曲线 。

    先放弃,o(╥﹏╥)o。

    20.

    21.

    22.

    23.

    24.

    25.

    Processed: 0.010, SQL: 8