提升方法

笔记摘要

在PAC（概率近似正确(PAC, Probably approximately correct)）学习框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的。
提升方法的两个问题

初始化训练数据的权值分布 $D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N},w_{1i}=\frac{1}{N})$
m = 1,2, $\cdots$ ,M
( a ) 使用具有权值分布 $D_m$ 的训练数据集学习，得到基本的分类器 $G_m(x):X→\{-1,+1\}$ ( b ) 计算 $G_m(x)$ 在训练集上的分类误差率 $e_m=\sum_{i=1}^{N}P(G_m(x_i)\not= y_i)=\sum_{i=1}^{N}w_{mi}I(G_m(x_i)\not=y_i)$ ( c ) 计算 $G_m(x)$ 的系数 $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$ ( d ) 更新训练数据集的权值分布 $w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))$ $Z_m=\sum_{i=1}^Nw_{mi}exp(-\alpha_my_iG_m(x_i))$
$f(x)=\sum_{m=1}^M\alpha_mG_m(x)$
最终分类器 $G(x)=sign(f(x))=sign(\sum_{m=1}^M\alpha_mG_m(x))$

误分类样本在下一轮学习中起更大的作用。不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用，这是AdaBoost的一个特点
利用基本分类器的线性组合构建最终分类器使AdaBoost的另一特点

\frac{1}{N}\sum\limits_{i=1}\limits^N I(G(x_i)\neq y_i)\le\frac{1}{N}\sum\limits_i\exp(-y_i f(x_i))=\prod\limits_m Z_m

这个的意思就是说指数损失是0-1损失的上界，这个上界使通过递推得到的，是归一化系数的连乘

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in X \subseteq R^n, y_i\in \{-1, 1\}$ ，损失函数 $L(y, f(x))$ ; 基函数集合 $\{b(x;\gamma)\}$
输出：加法模型 $f(x)$
步骤：

初始化 $f_0(x)=0$
对 $m=1,2,\cdots,M$ , 极小化损失函数
$(\beta_m,\gamma_m)=\arg\min \limits_ {\beta,\gamma}\sum_{i=1}^NL(y_i, f_{m-1}(x_i)+\beta b(x_i;\gamma))$
更新
$f_m(x)=f_{m-1}(x)+\beta _mb(x;\gamma_m)$
得到加法模型
$f(x)=f_M(x)=\sum_{m=1}^M\beta_m b(x;\gamma_m)$

f_M(x)=\sum_{m=1}^MT(x;\Theta_m)

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in X \subseteq R^n,y_i \in Y \subseteq R$
输出：提升树 $f_M(x)$
步骤：

初始化 $f_0(x)=0$
对 $m=1,2,\dots,M$ $m = 1, 2, \dots, M$
1. 计算残差
$r_{mi}=y_i-f_{m-1}(x_i), i=1,2,\dots,N$
1. 拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;\Theta_m)$
2. 更新 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
得到回归问题提升树 $f(x)=f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}, x_i \in x \subseteq R^n, y_i \in y \subseteq R$ ；损失函数 $L(y,f(x))$
输出：回归树 $\hat{f}(x)$
步骤：

（ a ）对 $i=1,2,\cdots,N$ ,计算

r_{mi}=-\left[\frac{\partial L(y_i, f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)}

（ b ）对 $r_{mi}$ 拟合一个回归树，得到第 $m$ 棵树的叶节点区域 $R_{mj}, j=1,2,\dots,J$

（ c ）对 $j=1,2,\dots,J$ ，计算

c_{mj}=\arg\min_c\sum_{xi\in R_{mj}}L(y_i,f_{m-1}(x_i)+c)

比较支持向量机、 AdaBoost 、逻辑斯谛回归模型的学习策略与算法。
- 支持向量机的学习策略是当训练数据近似线性可分时，通过软间隔最大化，学习一个线性分类器，其学习算法是SMO序列最小最优化算法
- AdaBoost的学习策略是通过极小化加法模型的指数损失，得到一个强分类器，其学习算法是前向分步算法
- 逻辑斯谛回归模型的学习策略是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计，其学习算法可以是改进的迭代尺度算法（IIS），梯度下降法，牛顿法以及拟牛顿法