人的一生,就像是一场修行。没有荆棘满地,有的只是脚下的路,还有远处的信仰。
——杰
参照文章:
http://blog.sciencenet.cn/blog-491809-400893.htmlhttps://baike.sogou.com/v305474.htm?fromTitle=%E9%AB%98%E6%96%AF%E5%88%86%E5%B8%83https://blog.csdn.net/Ding_xiaofei/article/details/80093024https://blog.csdn.net/Ding_xiaofei/article/details/80093024推荐书籍
模式识别与机器学习统计学习方法机器学习通常采用增大数据量和测试样本集的方法对分类器性能进行评价。 或者采用贝叶斯方法,参数的有效数量会自动根据数据集的规模调节; 另外还有正则化。它是通过增加一个惩罚项,使得系数不会达到很大的值。
A与B的联合概率表示为
密度概率的最大值的概念取决于变量的选择,变量是否离散
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
这里的条件概率p(D|W),由观测数据集D来估计,可以被看成是参数向量W的函数,被称为似然函数,表达在不同的参数向量w下,观测数据出现的可能性的大小。
在频率学家的观点中,w被认为是一个固定的参数,它的值由某种形式的“估计”来确定,与考察可能的数据集D的概率分布有很大的关系贝叶斯的观点,只有一个数据集,参数的不确定性通过W的概率分布来表达。这也是为什么它可以解决过拟合的原因最大似然估计,表达在不同的参数向量W下,观测数据出现的可能性的大小。
最大似然估计法的基本思想 最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个 作为真 的估计
每一个模型,都有它自身的优劣。 多项式的阶数,控制了模型的自由参数的个数,可以控制模型的复杂度。通过正则化的最小平方,可以避免过拟合 在最大似然方法中,由于过拟合的现象,模型在训练集上的表现并不能很好的表示模型对于未知数据的预测能力。使用交叉验证可以解决。但是缺点是需要进行的训练次数随着S而增加
损失函数,代价函数对于所有的决策或者动作可能产生的损失的一种整体的度量。
分类问题可以划分为两个阶段:推断和决策,另外还有一种判别
显式地或者隐式地对输入以及输出进行建模的方法,称为生成式模型,(这里需要人工生成大量的样本)GM 直接对后验概率建模的方法。称为判别式模型。DM DM:关注X和Y的关系 GM:试图描述X和Y的联合分布
熵,这个概念,就是指不确定性, 在后面的学习过程中,我们会遇到信息熵、最大熵等概念
我们需要的平均的附加信息量,称为分布p(x)和q(x)之间的相对熵。 由p(x,y)给出的两个变量x和y组成的数据集。考察联合概率分布与边缘概率分布乘积之间的KL散度来判断它们是否“接近”于相互独立。这被称为变量X和变量Y之间的互信息
>=0 这是互信息和条件熵的关系
泛化:正确分类与训练集不同的新样本的能力叫做泛化
特征抽取:原始输入向量通常被预处理,变换到新的变量空间的阶段。(一般它的出现,是为了提高计算速度)
监督学习:训练数据的样本包含输入向量以及对应的目标向量的应用
反馈学习技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最大值。它的通用特征是探索和利用。探索是指系统尝试新类型的动作,利用是指系统使用已知的能产生较高奖励的动作。
机器学习是一门关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的学科。包括监督学习、非监督学习和强化学习。 通过查阅资料,我们可以发现学习方法包含三部分:模型、策略、算法 了解了一些普通的概念,对我们接下来的学习有很好的帮助,希望小编可以帮到大家,让我们一起学习,一起进步。