一、贝叶斯定理

1.1 条件概率

条件概率属于概率论的内容,指的是已知在情况A的条件下,求发生事件B的概率,即P(B|A),计算方法如下。

$$P(B|A)=\frac{P(AB)}{P(A)}$$

1.2 贝叶斯定理

相对于条件概率,贝叶斯定理是其逆过程。已知发生事件B,求事件发生的情况A的概率,即P(A|B),计算方法如下,其中分母是全概率公式。

$$P(A|B)=\frac{P(AB)}{P(B)}=\frac{P(A|B)\cdot P(B)}{P(B|A)\cdot P(A)+P(B|\hat A)\cdot P(\hat A)}$$

同理推广到分类问题,已知存在K类$c_1,c_2\dots c_k$,给定一个新的实例$x=(x^{(1)},x^{(2)}\dots x^{(n)})$,求该实例点归属于$c_i$类的可能。

$$P(Y=c_i|X=x)=\frac{P(X=x|Y=c_i)\cdot P(Y=c_i)}{P(X=x)}=\frac{P(X=x|Y=c_i)\cdot P(Y=c_i)}{\sum^K_{i=1}P(X=x|Y=c_i)\cdot P(Y=c_i)}$$

1.3 朴素贝叶斯

朴素贝叶斯相较于贝叶斯,多了实例特征之间相互独立这个条件,这样更便于计算

即$P(X=x|Y=c_i)=\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_i)$

因此

$$P(Y=c_i|X=x)=\frac{P(X=x|Y=c_i)\cdot P(Y=c_i)}{\sum^K_{c_i}P(Y=c_i)\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_i)}$$

$$P(Y=c_i|X=x)=\frac{P(Y=c_i)\cdot \prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum^K_{c_i}P(Y=c_i)\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_i)}$$

可以看出$x$属于任何分类$c_i$的概率,其分母都是一样的,因此实际计算时只需要比较分子即可,即

$$argmax P(Y=c_i)\cdot \prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_i)$$

通过训练数据集,我们可以得到联合概率分布。

二、后验概率最大化准则

三、极大似然估计