#

机器学习(四)


朴素贝叶斯法

笔记摘要

  • 条件概率分布P(X=xY=ck)P(X=x|Y=c_k)有指数级数量的参数,其实际估计是不可行的

  • 指数级数量的参数 Kj=1nSjK\prod_{j=1}^nS_j,实际估计不可行是实际上没有那么多样本

  • 朴素贝叶斯法是基于贝叶斯定理特征条件独立假设的分类方法

贝叶斯定理

P(BiA)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum _{j=1}^nP(B_j)P(A|B_j)}

条件独立假设

independent and identically distributed

  • P(YX)P(Y|X),其中X{X1,X2,,Xn}X\in\{X_1,X_2,\dots,X_n\},条件独立假设这里给定YY的情况下:
  1. 每一个XiX_i和其他的每个XkX_k是条件独立的
  2. 每一个XiX_i和其他的每个XkX_k的子集是条件独立的
  • 条件独立性假设是:

P(X=xY=ck)=P(X(1),,X(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck)\begin{aligned} P(X=x|Y=c_k)&=P(X^{(1)},\dots,X^{(n)}|Y=c_k)\\ &=\prod^n_{j=1}P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}

  • 条件独立假设等于是说用于分类的特征类确定的条件下都是条件独立

参数估计

极大似然估计

为了估计状态变量的条件分布,利用贝叶斯法则,有

P(XY)posterior=P(YX)likelihoodP(X)priorP(Y)evidence=P(YX)likelihoodP(X)priorxP(YX)P(X)evidence \underbrace{P(X|Y)}_{posterior}=\frac{\overbrace{P(Y|X)}^{likelihood}\overbrace{P(X)}^{prior}}{\underbrace{P(Y)}_{evidence}}=\frac{\overbrace{P(Y|X)}^{likelihood}\overbrace{P(X)}^{prior}}{\underbrace{\sum\limits_x P(Y|X)P(X)}_{evidence}}

其中P(XY)P(X|Y)为给定YYXX的后验概率(Posterior), P(YX)P(Y|X)称为似然(Likelyhood),P(X)P(X)称为先验(Prior)。

  • 后验概率最大化的含义

    朴素贝叶斯法将实例分到后验概率最大的类中, 这等价于期望风险最小化

  • 后验是指观察到YY之后,对XX的信念

贝叶斯估计

  • 对于xx的某个特征的取值没有在先验中出现的情况 ,如果用极大似然估计就会出现所要估计的概率值为0的情况。这样会影响后验概率的计算结果,使分类产生偏差
  • 但是出现这种情况的原因通常是因为数据集不能全覆盖样本空间,出现未知的情况处理的策略就是做平滑

Pλ(X(j)=ajlY=ck)=i=1NI(xij=ajl,yj=ck)+λi=1NI(yj=ck)+SjλP_{\lambda}(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum\limits_{i=1}^NI(x_i^{j}=a_{jl},y_j=c_k)+\lambda}{\sum\limits_{i=1}^NI(y_j=c_k)+S_j\lambda}

  • λ=0\lambda = 0的时候,就是极大似然估计

  • λ=1\lambda=1的时候,这个平滑方案叫做Laplace Smoothing。拉普拉斯平滑相当于给未知变量给定了先验概率

习题解答

  • 4.1 用极大似然估计法推出朴素贝叶斯法中的概率估计公式(4.8)及公式 (4.9)
    • 由于朴素贝叶斯法假设Y是定义在输出空间上的随机变量,因此可以定义P(Y=ck)=pP(Y=c_k)=p,令m=i=1NI(yi=ck)m=\sum _{i=1}^NI(y_i=c_k)
    • 得出似然函数 L(p)=pm(1p)NmL(p)=p^m(1-p)^{N-m}
    • 求导求最值:mpm1(1p)Nm(Nm)pm(1p)Nm1=0mp^{m-1}(1-p)^{N-m}-(N-m)p^m(1-p)^{N-m-1}=0
    • pm1(1p)Nm1(mNp)=0p^{m-1}(1-p)^{N-m-1}(m-Np)=0,易得p=mNp=\frac mN,即为公式(4.8)
    • 公式(4.9)的证明与公式(4.8)完全相同,定义P(X(j)=ajlY=ck)=pP(X^{(j)}=a_{jl}{\mid}Y=c_k)=p,令m=i=1NI(yi=ck)m=\sum_{i=1}^NI(y_i=c_k)q=i=1NI(xi(j)=ajl,yi=ck)q=\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)即可
  • 4.2 用贝叶斯估计法推出朴素贝叶斯法中的慨率估计公式(4.10)及公式(4.11)
    • 贝叶斯估计和传统的极大似然估计的区别就是,参数值是固定的还是也当做随机变量。传统的极大似然估计,把参数θ\theta当做固定的一个值,不变的,只是目前还不知道,通过最大化LL求出θ\theta;贝叶斯估计认为参数θ\theta也是随机变量,它也服从一个分布(β分布)
    • P(Y=ck)=pP(Y=c_k)=p,m=i=1NI(yi=ck)m=\sum _{i=1}^NI(y_i=c_k),加入先验概率,认为是均匀的p=1Kp=\frac{1}{K},对照上题极大似然概率下的条件概率约束
    • 得到λ(pK1)+pNm=0\lambda (pK-1)+pN-m=0,从而解出P(Y=ck)=m+λN+KλP(Y=c_k)=\frac{m+\lambda}{N+K\lambda},即为公式(4.11)

文章作者: 王胜鹏
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 王胜鹏 !
评论
 上一篇
机器学习(五) 机器学习(五)
决策树 笔记摘要 决策树可以认为是if-then规则的集合,也可以认为是定义在特征空间上的条件概率分布 根据损失函数最小化的原则建立决策树模型 决策树的路径或其对应的if-then规则集合具有一个重要性质:互斥且完备 决策树的学习算法包含
2021-10-30
下一篇 
机器学习(三) 机器学习(三)
k近邻法 k值的选择、距离度量及分类决策规则是k近邻法的三要素 三要素在算法之中完整体现出来: 算法 输入: T={(x1,y1),(x2,y2),…,(xN,yN)},xi∈X⊆Rn,yi∈Y={c1,c2,…,ck}T=\{(x_
2021-10-30
  目录