统计学习方法四----朴素贝叶斯分类器

科技2022-08-15 105

/# 0. 概率在模式识别领域的⼀个关键概念是不确定性的概念。它可以由测量的误差引起，也可以由数据集的有限⼤⼩引起。概率论提供了⼀个合理的框架，⽤来对不确定性进⾏量化和计算。在概率图模型中，每个结点表⽰⼀个随机变量（或⼀组随机变量），链接表⽰这些变量之间的概率关系。

0.1 交叉熵

$=-\int p(x)lnq(x)dx$

0.2 相对熵(KL散度)

假设p(x) , q(x)是X中取值的angie概率分布,则p对q的相对熵是:

=-\int p(x)ln q(x)dx - (-\int p(x)ln p(x)dx)\\ =\int p(x)ln\frac{p(x)}{q(x)}dx

0.3 互信息

两个随机变量X,Y的互信息,定义为X,Y联合分布和独立分布乘积的相对熵.

I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))

1. 概率公式

概率论两个最基本的规则:加和规则,乘积规则 sum rule

$\sum_Y P(X,Y)$

product rule

P (X, Y) = P (Y ∣ X) P (X)

条件概率公式

$\frac{P(AB)}{P(B)}$

全概率公式

$\sum_i P(A|B_{i})P(B_{i})$

贝叶斯公式

P(B_{i}|A) = \frac{P(A|B_{i})P(B_{i})}{\sum_i P(A|B_{i})P(B_{i})}

2. 先验/后验/似然

在了解以前,有另一个角度解释贝叶斯公式: 详见: 一个例子搞清楚（先验分布/后验分布/似然估计）

3. 朴素贝叶斯

3.1 模型

朴素贝叶斯第一步要求出一个联合分布概率P(X,Y)

$P(Y_{i}|X) = \frac{P(Y_{i},X)}{P(X)} \\ = \frac{P(X|Y_{i})P(Y_{i})}{\sum_i P(X|Y_{i})P(Y_{i})}$

由上式我们可以看到,我们可以将联合概率分解成两部分.先验分布 * 条件概率分布

我们看条件概率分布的形式: $P(X=x|Y=c_{k}) = P(X^{(1)} = x^{(1)},...,X^{(n)} = x^{(n)}|Y=c_{k})$

假设 $x^{(j)}$ 取值有 $S_{j}$ 个,Y取值有K个,那么需要求的参数有 $\prod_{j = 1}^{n}S_{j}$ 个

为了简化计算,提出了"朴素假设"(条件独立性假设): 一个特征出现的概率与其他特征独立

原贝叶斯公式: $P(y|x_{1},x_{2},....x_{n}) = \frac{P(y)P(x_{1},x_{2},....x_{n}|y)}{P(x_{1},x_{2},....x_{n})}$

由假设简化: $P(y)P(x_{1},x_{2},....x_{n}|y) = P(y)\prod_{i = 1}^n P(x_{i}|y)$

由于分子 $P(x_{1},x_{2},....x_{n})$ 和y无关,不再考虑,因此可得 $P(y|x_{1},x_{2},....x_{n}) \propto P(y)\prod_{i = 1}^n P(x_{i}|y)$

得到朴素贝叶斯分类器(最大化后验概率) $max_{c_{k}} P(Y = c_{k}) \prod_{j}P(X^{j} = x^{j} | Y = c_{k})$

注: <统计学习方法中>推导了由期望风险最小出发,导出最大后验概率的过程

3.2 策略(学习)

这里主要介绍如何估计贝叶斯分类器内的参数:

P(Y = c_{k})

和

P(X^{j} = x^{j} | Y = c_{k})

3.2.1 最大似然估计

书上针对的是离散情况的讨论,直接根据频率统计得出概率等以后遇到连续情况时再展开

3.2.2 贝叶斯估计

极大似然估计会出现概率为0的情况(比方说,某词未出现,统计频率为0,导致概率为0)采用贝叶斯估计(其中条件概率的贝叶斯估计为)

$P_{\lambda}(X^{j} = a_{jl} | Y = c_{k}) = \frac{\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl},y_{i} = c_{k} ) + \lambda}{\sum_{i = 1}^{N}I(y_{i} = c_{k} + S_{j}\lambda)}$

\lambda

为正数,其实就是稍微修正了一下,避免出现零情况

4. 实例

感兴趣可以看一下一个朴素贝叶斯的简单例子:3. 垃圾邮件分类

参考

1. 一个例子搞清楚（先验分布/后验分布/似然估计） 2. 朴素贝叶斯分类器详细解析 3. 从贝叶斯方法谈到贝叶斯网络

Processed: 0.018, SQL: 9