朴素贝叶斯法
笔记摘要
-
条件概率分布P(X=x∣Y=ck)有指数级数量的参数,其实际估计是不可行的
-
指数级数量的参数 K∏j=1nSj,实际估计不可行是实际上没有那么多样本
-
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法
贝叶斯定理
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
条件独立假设
independent and identically distributed
- 求P(Y∣X),其中X∈{X1,X2,…,Xn},条件独立假设这里给定Y的情况下:
- 每一个Xi和其他的每个Xk是条件独立的
- 每一个Xi和其他的每个Xk的子集是条件独立的
P(X=x∣Y=ck)=P(X(1),…,X(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)
- 条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的
参数估计
极大似然估计
为了估计状态变量的条件分布,利用贝叶斯法则,有
posteriorP(X∣Y)=evidenceP(Y)P(Y∣X)likelihoodP(X)prior=evidencex∑P(Y∣X)P(X)P(Y∣X)likelihoodP(X)prior
其中P(X∣Y)为给定Y下X的后验概率(Posterior), P(Y∣X)称为似然(Likelyhood),P(X)称为先验(Prior)。
贝叶斯估计
- 对于x的某个特征的取值没有在先验中出现的情况 ,如果用极大似然估计就会出现所要估计的概率值为0的情况。这样会影响后验概率的计算结果,使分类产生偏差
- 但是出现这种情况的原因通常是因为数据集不能全覆盖样本空间,出现未知的情况处理的策略就是做平滑
Pλ(X(j)=ajl∣Y=ck)=i=1∑NI(yj=ck)+Sjλi=1∑NI(xij=ajl,yj=ck)+λ
习题解答
- 4.1 用极大似然估计法推出朴素贝叶斯法中的概率估计公式(4.8)及公式 (4.9)
- 由于朴素贝叶斯法假设Y是定义在输出空间上的随机变量,因此可以定义P(Y=ck)=p,令m=∑i=1NI(yi=ck)
- 得出似然函数 L(p)=pm(1−p)N−m
- 求导求最值:mpm−1(1−p)N−m−(N−m)pm(1−p)N−m−1=0
- pm−1(1−p)N−m−1(m−Np)=0,易得p=Nm,即为公式(4.8)
- 公式(4.9)的证明与公式(4.8)完全相同,定义P(X(j)=ajl∣Y=ck)=p,令m=∑i=1NI(yi=ck),q=∑i=1NI(xi(j)=ajl,yi=ck)即可
- 4.2 用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式(4.10)及公式(4.11)
- 贝叶斯估计和传统的极大似然估计的区别就是,参数值是固定的还是也当做随机变量。传统的极大似然估计,把参数θ当做固定的一个值,不变的,只是目前还不知道,通过最大化L求出θ;贝叶斯估计认为参数θ也是随机变量,它也服从一个分布(β分布)
- 设P(Y=ck)=p,m=∑i=1NI(yi=ck),加入先验概率,认为是均匀的p=K1,对照上题极大似然概率下的条件概率约束
- 得到λ(pK−1)+pN−m=0,从而解出P(Y=ck)=N+Kλm+λ,即为公式(4.11)