假设有 N N N种可能的类别标记,即 y y y= { c 1 , c 2 , … c N c_{1}, c_{2} ,… c_{N} c1,c2,…cN} , λ i j \lambda_{ij} λij 是将一个真实标记为 c j c_{j} cj的样本误分类为 c i c_{i} ci 所产生的损失。 R ( c i ∣ x ) R(c_{i}|x) R(ci∣x)样本 x x x分类为 c i c_{i} ci所产生的期望损失(expected loss) ,也称风险。
我们的任务是寻找一个判定准则 h : x − > y h:x->y h:x−>y 以最小化总体风险: 对每个样本 x x x,若 h h h 能最小化条件风险 R ( h ( x ) ∣ x ) R(h(x)|x) R(h(x)∣x)叫,则总体风险 R ( h ) R(h) R(h)将被最小化. h ∗ h^* h∗称为贝叶斯最优分类器。
则误判损失 λ i j \lambda_{ij} λij可以写为: 条件风险: 由前面的公式可以推导如下公式: 不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概 P ( c ∣ x ) P(c | x) P(c∣x). 然而,在现实任务中这通常难以直接获得. P ( c ) P(c) P(c) 是类"先验"(prior) 概率,类先验概率 P ( c ) P(c) P(c) 表达了样本空间中各类样本所占的比例。 P ( x ∣ c ) P(x | c) P(x∣c) 是样本 x x x相对于类标记 c c c 的类条件概率 ,或称为"似然"。 P ( x ) P(x) P(x) 对所有类标记均相同。估计 P ( c ∣ x ) P(c | x) P(c∣x) 的问题就转化为如何基于训练数据 D D D来估计先验 P ( c ) P(c) P(c) 和似然 P ( x ∣ c ) P(x | c) P(x∣c)。
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计.假设 P ( x ∣ c ) P(x | c) P(x∣c) 具有确定的形式并且被参数向量 θ c \theta_{c} θc唯一确定,则我们的任务就是利用训练集 D D D估计参数 θ c \theta_{c} θc。
令 D c D_{c} Dc 表示训练集中第 c c c类样本组成的集合,假设这些样本是独立同分布的,则参数 θ c θ_{c} θc 对于数据集 D c D_{c} Dc 的似然是: 极大似然估计是试图在 θ c θ_{c} θc 所有可能的取值中,找到一个能使数据出现的"可能性"最大的值.
连乘操作易造成下溢,通常使用对数似然: 此时参数 θ c \theta_{c} θc的极大似然估计 : 例如,在连续属性情形下,假设概率密度函数 p ( x ∣ c ) N ( μ c , σ c 2 ) p(x|c)~N(\mu_{c},\sigma_{c}^2) p(x∣c) N(μc,σc2),则参数 μ c \mu_{c} μc和 σ c 2 \sigma_{c}^2 σc2的极大似然估计为: 估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布.
假设每个属性独立地对分类结果发生影响. d d d为属性数目, x i x_{i} xi为 x x x在第 i i i个属性上的取值.
对所有类别来说 P(x) 相同: D c D_{c} Dc 表示训练集 D D D中第 c c c类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率 对离散属性而言,令 D c , x i D_{c,x_{i}} Dc,xi 表示 D c D_{c} Dc 中在第 i i i个属性上取值为 x i x_{i} xi 的样本组成的集合: 对连续属性可考虑概率密度函数,假定 p ( x i ∣ c ) N ( μ c , i , σ c , i 2 ) p(x_{i}|c) ~N(\mu_{c,i},\sigma_{c,i}^2) p(xi∣c) N(μc,i,σc,i2) 其中 μ c , i \mu_{c,i} μc,i和 σ c , i 2 \sigma_{c,i}^2 σc,i2分别是第 c c c类样本在第 i i i个属性上取值的均值和方差, 为了避免其他属性携带的信息被训练集中未出现的属性值"抹去’,在估计概率值时通常要进行"平滑" ,常用"拉普拉斯修正" 。具体来说,令 N N N表示训练集 D D D中可能的类别数, N i N_{i} Ni 表示第 i i i个属性可能的取值数。 拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题。