模式识别-贝叶斯分类器-知识总结与作业（python版）

科技2024-01-05 96

基于贝叶斯理论的分类器

采用贝叶斯决策理论的前提为：目标观测值随机且服从一定的分布

贝叶斯公式

设样本空间S划分为Bi，A为某一事件，则在A发生的条件下Bi发生的概率为：

$P(B_i|A)=P(B_iA)/P(A)=P(A|B_i)P(B_i)/P(A)$

关键概念：先验概率 $P(B_i)$ 、后验概率 $P(B_i|A)$ 、类条件概率密度 $P(A|B_i)$ 先验概率通过各类别数量计算，类条件概率密度通过估计分布与参数计算

基于最小错误率的贝叶斯决策

决策规则： $\in w_i$ if $argmaxP(w|x)=P(w_i|x)$ why? 错误率定义: $_{-\infty} ^\infty p(e,x)dx= ∫ _{-\infty} ^\infty p(e|x)p(x)dx$ 一维为例：阴影部分为总错误率，只有按照上述决策规则决策，总错误率最小。（决策分类点向左或向右都会使阴影面积变大）

待解决的问题：

类条件概率密度函数的参数如何估计

1 需要利用样本集估计 $P(x|w_i)$ 得到 $\hat{P}(x|w_i)$ ，期望当 $n\rightarrow \infty$ 时， $\hat{P}(x|w_i)$ 可以收敛于 $P(x|w_i)$ 2 估计方法包括(1)极大似然估计(2)贝叶斯估计 (1)极大似然估计把待估参数看作确定性的量，最佳估计就是使训练样本的概率为最大的那个值,即：使似然函数达到最大的参数值作为估计值。其中参数 $\theta$ 是确定的未知量（非随机）设样本独立抽取，似然函数为: $P(X|\theta) = p(x_1,x_2,...,x_N|\theta) = \prod_{k=1}^Np(x_k|\theta)$ 使 $P(X|\theta)$ 达极大值的参数向量 $\hat{\theta}$ ，就是 $\theta$ 的最大似然估计，令 $l(\theta) = P(X|\theta)$ ，（为了方便也可以取对数），极大似然的结果就是 $maxl(\theta)$ 即： $\nabla_{\theta}l(\theta) = 0$ 假设为高斯分布令 $\theta_1=\mu,\theta_2=\sigma^2$ ，似然函数为: $H(\theta) = lnl(\theta) = \sum_{k=1}^Nlnp(x_k|\theta)$ 对于一维正态分布 $lnp(x_k|\theta) = -1/2(ln2\pi\theta_2+1/\theta_1(x_k-\theta_1)^2$ 求导并使导数为零得到： (2)贝叶斯估计 $\theta$ 为服从某种先验分布的随机量，其先验概率密度为p( $\theta$ ),利用已知的训练样本，使 $\theta$ 的初始密度估计转化为后验概率密度 $p(\theta|X)$ 。与贝叶斯决策基本思想一样，都是使贝叶斯风险最小。不同是一个决策真实类别，一个估计真实参数。引入估计风险（代价函数） $\lambda(\hat{\theta},\theta)$ 表示利用 $\hat{\theta}$ 代替 $\theta$ 带来的损失，对应 $\lambda(\alpha_i,\omega_i)$ 。则贝叶斯统计总平均风险为： $_{s}\sum_{j=1}^C\lambda(\alpha_i,\omega_i)P(x,\omega_j)dx$ 其中s是包含x的空间，C为类别数贝叶斯估计总平均风险为： $∫_sR(\hat{\theta}|x)p(x)dx$ 其中 $R(\hat{\theta}|x) = ∫_\theta\lambda(\hat{\theta},\theta)p(\theta|x)d\theta$ 求得的 $\theta$ 的估计值 $\hat{\theta}$ 应使R最小，等价于求使条件风险 $R(\hat{\theta}|x)$ 最小的估计值 $\hat{\theta}$ ，其中估计风险可以自定义，较为常见的事平方误差函数假设为高斯分布已知正态分布的方差，需估计均值，假设 $p(x|\mu) \backsim N(\mu,\sigma^2),p(\mu) \backsim N(\mu_0,\sigma_0^2)$ $\mu$ 的后验概率为： $p(\mu|X) = p(X|\mu)p(\mu)/ ∫p(X|\mu)p(\mu)d\mu = a* \prod_{k=1}^Np(x_k|\mu)p(\mu)$ 代入可得： $p(\mu|X) = a*exp\{-{\frac{1}{2}}[(\frac{N}{\sigma^2}+\frac{1}{\sigma^2})\mu^2-2(\frac{1}{\sigma^2}\sum_{k=1}^Nx_k+\frac{\mu_0}{\sigma_0^2})\mu]\}$ 因为是一个关于 $\mu$ 的二次函数的指数函数所以可以假设 $p(\mu|X) \backsim N(\mu_n,\sigma_N^2)$ ，则对应关系为： $\frac{1}{\sigma_N^2} = \frac{N}{\sigma^2}+\frac{1}{\sigma^2}$ $\frac{\mu_N}{\sigma_N^2} = \frac{1}{\sigma^2}\sum_{k=1}^Nx_k+\frac{\mu_0}{\sigma_0^2}$ 得到 $\mu_N = \frac{\sigma_0^2}{N\sigma_0^2+\sigma^2}\sum_{k=1}^Nx_k+ \frac{\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_0$ 因为 $\hat{\mu} = ∫\mu P(\mu|X)d\mu = \mu_N$ 所以 $\hat{\mu} = \frac{\sigma_0^2}{N\sigma_0^2+\sigma^2}\sum_{k=1}^Nx_k+ \frac{\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_0$

决策面和判别函数如何获得

决策面方程即当两类区域相邻，可以表示为 $g_i(x) = g_j(x)$ 其中 $g_i(x) = P(w_j|x)$ ，方便起见可以进行对数变化得到: $g_i(x) = ln(P(w_i|x) )=-\frac{1}{2}(x-\mu_i)^T\Sigma_i^{-1} (x-\mu_i)-\frac{d}{2}ln2\pi -\frac{1}{2}ln|\Sigma_i^{-1}| + lnP(w_i)$ 决策面方程为: $g_i(x) - g_j(x) = 0$

一些课堂作业

极大似然估计

print('最大似然结果:') male_height = male_data['身高(cm)'] # 处理身高 female_height = female_data['身高(cm)'] male_height.dropna() # 删除nan female_height.dropna() [male_u_height, male_sig_height] = norm.fit(male_height) # loc = data.mean() scale = np.sqrt(((data - loc)**2).mean()) [female_u_height, female_sig_height] = norm.fit(female_height) print('身高的参数:男性均值{},方差{},女性均值{},方差{}'.format(male_u_height, male_sig_height, female_u_height, female_sig_height)) # 体重 male_weight = male_data['体重(kg)'] # 体重身高 female_weight = female_data['体重(kg)'] male_weight.dropna() # 删除nan female_weight.dropna() [male_u_weight, male_sig_weight] = norm.fit(male_weight) [female_u_weight, female_sig_weight] = norm.fit(female_weight) print('体重的参数:男性均值{},方差{},女性均值{},方差{}'.format(male_u_weight, male_sig_weight, female_u_weight, female_sig_weight)) # 50米 [male_u_50, male_sig_50] = norm.fit(male_50) [female_u_50, female_sig_50] = norm.fit(female_50) print('50米参数:男性均值{},方差{},女性均值{},方差{}'.format(male_u_50, male_sig_50, female_u_50, female_sig_50))

贝叶斯估计。利用上题得到的方差进行均值估计

print('\n*********************\n') print('贝叶斯估计结果:') u0 = 0 sig0 = 1 male_N = len(male_height) male_u_height_bayes = (1/(male_N + male_sig_height**2))*(male_height.sum()) # 参考贝叶斯估计 female_N = len(female_height) female_u_height_bayes = (1/(female_N + female_sig_height**2))*(female_height.sum()) print('身高的参数:男性均值{},女性均值{}'.format(male_u_height_bayes, female_u_height_bayes))

决策面

male = male_data[['身高(cm)','体重(kg)']] male = np.array(male) female = female_data[['身高(cm)','体重(kg)']] female = np.array(female) plt.scatter(male[:,0], male[:,1], alpha = 0.6) plt.scatter(female[:,0], female[:,1], alpha = 0.6) plt.xlabel('身高') plt.ylabel('体重') # 先验概率 P_male = len(male)/(len(male) + len(female)) P_famale = 1 - P_male # 协方差矩阵 sig_male = np.cov(male.T) sig_female = np.cov(female.T) # 均值 mean_male = np.array([male_u_height, male_u_weight]).reshape(-1,1) # 列向量 mean_female = np.array([female_u_height, female_u_weight]).reshape(-1,1) # 构建决策面 sample_height = np.linspace(150,200,50) # 构建50*50的一个待检测区域 sample_weight = np.linspace(40,100,50) sample = np.zeros((50, 50)) for i in range(50): for j in range(50): x = np.array([sample_height[i],sample_weight[j]]).reshape(-1,1) sample[i,j] = 0.5 * (np.dot(np.dot((x-mean_male).T,np.linalg.inv(sig_male)), (x-mean_male))-\ np.dot(np.dot((x-mean_female).T,np.linalg.inv(sig_female)), (x-mean_female))) +\ 0.5 * math.log(np.linalg.det(sig_male)/np.linalg.det(sig_female)) - math.log(P_male/P_famale) plt.contour(sample_height, sample_weight, sample, 0, colors = 'green',linewidths=2) # 画待区分的点 plt.scatter(170, 52, norm = 2, c = 'red', marker='s') plt.scatter(178, 71, norm = 2, c = 'red', marker='s') plt.legend(['男性','女性','待检测'])

结果展示

Processed: 0.016, SQL: 8