[ML]爱的初体验

    科技2024-04-18  12

    [ML]一些基本概念

    1. 何为机器学习?2. 归纳 Induction3. 演绎 deduction4. 概念学习 Concept Learning5. 布尔概念学习 Boolean Concept Learning6. 假设空间 Hypothesis Space7. 学习看作搜索8. 版本空间 Version Space9. 归纳偏好 Inductive Bias

    1. 何为机器学习?

    《机器学习》周志华版给出的解释为:研究在计算机中,从数据中产生“模型 (model)”的算法,即“学习算法” (Learning Algorithm). 也可以说机器学习是研究关于“学习算法”的学问。

    《机器学习》Tom Mitchell版本给出的公式化解释为: L e a r n i n g = I m p r o v i n g   w i t h   e x p r i e n c e   a t   s o m e   t a s k s Learning = Improving\ with \ exprience \ at \ some\ tasks Learning=Improving with exprience at some tasks 即在任务T中,根据经验 E 来学习以提升性能度量 P。

    2. 归纳 Induction
    归纳即 从特殊到一般的“泛化”(generalization)过程,从具体实时归纳出一般规律。比如从一组数 2,4,6,8,10中得出规律都是 偶数。这个“规律”也是机器学习的研究内容,这个学习过程称为 归纳学习 Inductive learning
    3. 演绎 deduction
    演绎即 从一般到特殊的“特化”(specialization)过程。
    4. 概念学习 Concept Learning
    狭义的归纳学习要求从训练数据中学得概念,即称为 概念学习。
    5. 布尔概念学习 Boolean Concept Learning
    即 对“是”与“不是”这样的只有 0/1 结果的目标概念的学习。 比如学习根据西瓜的色泽、根蒂、敲声来判断一个西瓜是好瓜还是坏瓜。
    6. 假设空间 Hypothesis Space

    依然西瓜来假设,其中 符号 “?”表示可以为任意值:

    色泽 = {青绿, 乌黑, 浅白,?} 根蒂 = {蜷缩, 硬挺,稍蜷, ?} 敲声 = {浊响, 清脆, 沉闷,?}

    再考虑或许根本没有“好瓜”这个概念,我们用 ∅ \emptyset 空集来表示。

    那么,不同西瓜的类型数有:444+1 = 65种。

    那么,包含可能的西瓜类型的集合,我们称之为 假设空间(Hypothesis Space)。

    注意:只要包含可能的西瓜类型的集合就可以称为假设空间,不一定非要包含所有可能。

    7. 学习看作搜索

    书接上例:

    我们已经知道了世界上有65种类型的瓜,我们最初的任务是找出其中的好瓜,现在任务变成了从这65种类型中搜索出符合(fit)好瓜条件的类型。

    搜索的策略有很多,关于这个问题,请参见第二部分。

    8. 版本空间 Version Space

    书接上问:

    第6问说到一共有65种西瓜类型,假设空间中的一部分类型可能与训练集给出的所有西瓜类型相同,那么这部分类型的集合,我们称之为“版本空间”(Version Space)。

    例如,只有一条数据的训练集:{[青绿,蜷缩,浊响]}是好瓜,假设空间的假设为{[青绿,蜷缩,浊响], [乌黑,硬挺,清脆]},那么版本空间就是假设空间的子集:{[青绿,蜷缩,浊响]}

    百度百科的解释:概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合

    关于版本空间例子的详细解释:西瓜书(周志华):什么是版本空间以及如何求取版本空间

    9. 归纳偏好 Inductive Bias

    如果版本空间中有多个不同的假设,均与训练集一致,但同样的输入数据可能导致不同的输出结果 0/1。我们如何判断使用哪个假设更好呢?

    事实上每个模型都必定有各自的偏好来判断瓜的好坏。这时候,选择哪个模型,就需要看实际的任务需求来决定。

    Processed: 0.034, SQL: 9