/# 0. 概率 ~~~~~ 在模式识别领域的⼀个关键概念是不确定性的概念。它可以由测量的误差引起,也可以由数据集的有限⼤⼩引起。概率论提供了⼀个合理的框架,⽤来对不确定性进⾏量化和计算。 ~~~~~ 在概率图模型中,每个结点表⽰⼀个随机变量(或⼀组随机变量),链接表⽰这些变量之间的概率关系。
c e = − ∫ p ( x ) l n q ( x ) d x ce =-\int p(x)lnq(x)dx ce=−∫p(x)lnq(x)dx
P ( X ) = ∑ Y P ( X , Y ) P(X) = \sum_Y P(X,Y) P(X)=Y∑P(X,Y)
product rule P ( X , Y ) = P ( Y ∣ X ) P ( X ) P(X,Y) = P(Y|X) P(X) P(X,Y)=P(Y∣X)P(X)条件概率公式P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
全概率公式P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A) = \sum_i P(A|B_{i})P(B_{i}) P(A)=i∑P(A∣Bi)P(Bi)
贝叶斯公式 P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ i P ( A ∣ B i ) P ( B i ) P(B_{i}|A) = \frac{P(A|B_{i})P(B_{i})}{\sum_i P(A|B_{i})P(B_{i})} P(Bi∣A)=∑iP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)P ( Y i ∣ X ) = P ( Y i , X ) P ( X ) = P ( X ∣ Y i ) P ( Y i ) ∑ i P ( X ∣ Y i ) P ( Y i ) P(Y_{i}|X) = \frac{P(Y_{i},X)}{P(X)} \\ = \frac{P(X|Y_{i})P(Y_{i})}{\sum_i P(X|Y_{i})P(Y_{i})} P(Yi∣X)=P(X)P(Yi,X)=∑iP(X∣Yi)P(Yi)P(X∣Yi)P(Yi)
由上式我们可以看到,我们可以将联合概率分解成两部分.先验分布 * 条件概率分布
我们看条件概率分布的形式: P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) P(X=x|Y=c_{k}) = P(X^{(1)} = x^{(1)},...,X^{(n)} = x^{(n)}|Y=c_{k}) P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck)
假设 x ( j ) x^{(j)} x(j)取值有 S j S_{j} Sj个,Y取值有K个,那么需要求的参数有 K ∏ j = 1 n S j K \prod_{j = 1}^{n}S_{j} K∏j=1nSj个
为了简化计算,提出了"朴素假设"(条件独立性假设): 一个特征出现的概率与其他特征独立
原贝叶斯公式: P ( y ∣ x 1 , x 2 , . . . . x n ) = P ( y ) P ( x 1 , x 2 , . . . . x n ∣ y ) P ( x 1 , x 2 , . . . . x n ) P(y|x_{1},x_{2},....x_{n}) = \frac{P(y)P(x_{1},x_{2},....x_{n}|y)}{P(x_{1},x_{2},....x_{n})} P(y∣x1,x2,....xn)=P(x1,x2,....xn)P(y)P(x1,x2,....xn∣y)
由假设简化: P ( y ) P ( x 1 , x 2 , . . . . x n ∣ y ) = P ( y ) ∏ i = 1 n P ( x i ∣ y ) P(y)P(x_{1},x_{2},....x_{n}|y) = P(y)\prod_{i = 1}^n P(x_{i}|y) P(y)P(x1,x2,....xn∣y)=P(y)i=1∏nP(xi∣y)
由于分子 P ( x 1 , x 2 , . . . . x n ) P(x_{1},x_{2},....x_{n}) P(x1,x2,....xn)和y无关,不再考虑,因此可得 P ( y ∣ x 1 , x 2 , . . . . x n ) ∝ P ( y ) ∏ i = 1 n P ( x i ∣ y ) P(y|x_{1},x_{2},....x_{n}) \propto P(y)\prod_{i = 1}^n P(x_{i}|y) P(y∣x1,x2,....xn)∝P(y)i=1∏nP(xi∣y)
得到朴素贝叶斯分类器(最大化后验概率) y = a r g m a x c k P ( Y = c k ) ∏ j P ( X j = x j ∣ Y = c k ) y = arg max_{c_{k}} P(Y = c_{k}) \prod_{j}P(X^{j} = x^{j} | Y = c_{k}) y=argmaxckP(Y=ck)j∏P(Xj=xj∣Y=ck)
注: <统计学习方法中>推导了由期望风险最小出发,导出最大后验概率的过程
P λ ( X j = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i j = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = c k + S j λ ) P_{\lambda}(X^{j} = a_{jl} | Y = c_{k}) = \frac{\sum_{i=1}^{N}I(x_{i}^{j} = a_{jl},y_{i} = c_{k} ) + \lambda}{\sum_{i = 1}^{N}I(y_{i} = c_{k} + S_{j}\lambda)} Pλ(Xj=ajl∣Y=ck)=∑i=1NI(yi=ck+Sjλ)∑i=1NI(xij=ajl,yi=ck)+λ
λ \lambda λ为正数,其实就是稍微修正了一下,避免出现零情况1. 一个例子搞清楚(先验分布/后验分布/似然估计) 2. 朴素贝叶斯分类器 详细解析 3. 从贝叶斯方法谈到贝叶斯网络
