模型
所要学习的条件分布概率或者决策函数.
决策
按照什么样的方法学习或者选择最优的模型(即,选择参数空间内最优的一组参数)
算法
学习模型(参数)的具体计算方法.
Y = 损失函数 + 正则化项.
过拟和产生原因是因为模型学习训练数据过度,甚至学习到了噪声点.
正则化目的在于减少模型复杂度,做法是将模型的参数的某种范式+损失函数共同作为最后的经验损失.
损失函数的本质目的是计算的经验损失值越小模型越好,基于这个目的训练,会限制其内的正则项不会太大(模型不会过于复杂,参数偏小,避免过拟和).
L1正则和L2正则的区别
https://blog.csdn.net/jinping_shi/article/details/52433975
总结来说: L1正则产生稀疏模型,L2不会,但是会使模型参数偏小,从而有更强的抗扰动能力.
交叉验证数据量大:
划分:
训练集:训练模型,
验证集:模型选择(就是调参),
测试集,验证模型泛化能力.
数据量小(思想:重复地使用数据)
简单交叉验证
S折交叉验证(会进行S次选择,最后从里面选择最好的)
目的: 求P( Y | X )
生成模型: 学习P(X,Y),再以此推出P(Y | X ).
优点:
P(Y | X)只是 学习到的P(X,Y)的产物之一,很明显,P(X,Y)还可以推出其他信息,例如,边缘概率.
隐变量存在只能用生成模型做.
收敛速度快
缺点:
需要更多的样本数据和更多的计算实践中多数情况判别模型效果更好判别模型: 直接学习P( Y | X )
优点:
节省计算资源,样本数目要求少于生成模型效果好于生成模型直接学习P(Y | X),允许我们对输入进行抽象(特征工程)