《统计学习方法》第一章: 统计学习方法概论读书笔记

第一章

1.统计学习方法概论

1.1概念
1.2.统计学习三要素

假设空间
策略
算法

1.3.正则化与交叉验证
1.4.泛化误差上界
1.5.生成模型/判别模型
1.6.分类问题
1.7.一个极大似然估计和贝叶斯估计的实例

一切为了数据挖掘的准备

1.统计学习方法概论

1.1概念

机器学习的分类
- 监督学习：从给定的训练数据集中学习处一个函数。训练集要求包括输入和输出，特征和目标。常见的监督学习有回归分析和统计分类（连续/离散）
- 无监督学习：训练集没有认为标注的结果。常见的有据类。
- 半监督学习：介于监督学习和半监督学习之间
- 增强学习：通过观察学习做成动作。每个动作都会对环境有所影响。学习对象根据观察到的周围环境的反馈来做出判断。
假设空间：假设要学的模型属于某个函数的集合，模型可以将输入空间映射到输出空间，这个集合称为假设空间。需要从假设空间选取一个最优的模型，使其在给定的评价准则下对已知数据有最优的预测。
统计学习三要素：模型（模型的假设空间）、策略（评价模型）、算法（模型的学习算法）
输入/输出空间：在监督学习中，将输入与输出所有可能取值的集合分别称为输入空间、输出空间。
特征空间：每个具体的输入是一个实例，通常由特征向量表示。所有特征向量存在的空间为特征空间。
数学表达：
- 输入变量X,输出变量Y。
- 输入变量X所取的值x,输出变量的取值y。 $x=(x^{(1)},x^{(2)},\cdots,x^{(i)},\cdots,x^{(n)})^T$ , $x^{(i)}$ 为第i个特征。
- $x_i$ 是第i个输入。
- 训练集表示为： $T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)}$
预测问题：
- 回归问题：输入输出都连续
- 分类问题：输出有限离散变量
- 标注问题：输入输出都是变量序列，
监督学习的模型可以是概率模型或非概率模型，由条件概率分布 $P(Y|X)$ 或决策函数 $Y=f(X)$ 表示
泛化能力：学习方法对未知数据的预测能力称为泛化能力
过拟合：学习时的模型包含参数过多，对已知数据预测的很好，对未知数据预测差

1.2.统计学习三要素

假设空间

决策函数的集合： $F=\{f|Y=f(X)\}$ ,此时F通常是一个参数向量决定的函数族 $F=\{f|Y=f_\theta(X)\}$
条件概率的集合： $F=\{P|P_\theta(Y|X)\}$ ，此时F通常是一个参数向量决定的概率分布族

策略

损失函数：度量预测错误的程度，是f(X)（预测值）和 Y（实际值）的非负实值函数，L( Y , f(X));
- 0-1损失函数
  $L(Y,f(X))=\begin{cases} 1, & Y \neq f(X) \\ 0, & Y=f(X) \end{cases}$
- 平方损失函数
  $L(Y,f(X)) = ( Y-f(X))^2$
- 绝对损失函数
  $ L( Y , f(X)) = | Y-f(X) |$
- 对数损失函数
  $L( Y , P(Y|X) ) = -logP(Y|X)$
风险函数/期望损失：损失函数的期望 $R_{exp}(f) = E[L(Y, f(X))]= \int L( Y , f(X) ) P(Y|X)dxdy$ ，是模型关于联合分布的平均损失
经验风险/经验损失: $R_{emp} =\frac{1}{N}\sum_{i=1}^N L( y_i,f(x_i) )$ ,是训练数据集的平均损失，当N趋于无穷时，经验风险趋于期望风险.经验风险最小化等价于极大似然估计。
结构风险： $R =\frac{1}{N}\sum_{i=1}^N L( y_i,f(x_i) ) + \lambda J(f)$ 。结构风险最小化等价于最大后验概率估计。
- $J(f)$ :表示模型复杂度的正则化项或惩罚项
- $\lambda$ ：权衡经验风险和复杂度
经验风险最小化： $min\frac{1}{N}\sum_{i=1}^N L( y_i,f(x_i) )$
结构风险最小化： $min\frac{1}{N}\sum_{i=1}^N L( y_i,f(x_i) ) + \lambda J(f)$

算法

求解最优化问题的算法

1.3.正则化与交叉验证

正则化：在经验风险上加上一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大。
- 正则化项是参数向量的 $L_2$ 范数： $L(w) = \frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+ \frac{\lambda}{2}||w||^2$
- 正则化项是参数向量的 $L_1$ 范数: $L(w) = \frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda||w||$
交叉验证：把原始数据切分为train data和test data.训练数据再切分几组，其中一份为验证集，其他几份做训练数据；再抽取另一份做验证集，剩下的做训练数据；在训练集上训练不同的模型，在抽取的验证集上验证模型，比较这些验证结果，选取效果好模型。

1.4.泛化误差上界

泛化误差：如果学到的模型是 $\hat{f}$ ，那么用这个模型对未知数预测的误差为泛化误差。 $R_{exp}(\hat{y}) = E_p[L(Y,\hat{f}(X))] = \int L(Y,\hat{f}(X))P(x,y)dxdy$ .泛化误差反映了泛化能力，也是学习到模型的期望风险。
泛化误差上界：泛化误差概率的上界。
$T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)}$ ，假设空间是函数的有限集合 $F=\{f_1,f_2,\cdots,f_d,\}$ d是函数的个数，假设f是从F中选取的函数，损失函数是0-1损失，有关f的期望风险和经验风险是：
$R(f) = E[L(Y,f(X))]$

$\hat{R}(f) = \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$
对于函数f，至少以概率 $1-\delta$ ,以下不等式成立
$R(f) \leqslant \hat{R}(f) +\epsilon(d,N,\delta)$

$\epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd + log\frac{1}{\delta})}$

第一项是训练误差，训练误差越小，泛化误差越小；训练集N越大，泛化误差越小；假设空间包含的函数越多，d越大，值越大。

证明：
设有随机变量 $X_1,X_2,\cdots,X_n$ , $S_n = \sum X_i$ , $X_i \in [a_i,b_i]$ ，对任意t>0，一下不等式成立
$P(S_n-ES_n \geqslant t)\leqslant exp(\frac{-2t^2}{\sum(b_i-a_i)^2})$
对于任意函数 $f \in F$ ,如果损失函数，取值范围[0,1]，由于 $\hat{R}(f)=\frac{1}{N}\sum L_i$ ,以下不等式成立
$P(R(f)-\hat{R}(f) \geqslant \epsilon)\leqslant exp(\frac{-2(N\epsilon)^2}{\sum(1-0)^2})=exp(-2N\epsilon^2)$
对于有限集合 $F=\{f_1,f_2,\cdots,f_d,\}$ ，想要计算所有函数 $R(f)-\hat{R}(f) \leqslant \epsilon$ 的概率，可以计算对立事件：存在某个函数f满足 $R(f)-\hat{R}(f) \geqslant \epsilon$ 条件的概率(即函数f1满足该条件或函数f2满足该条件… ,当事件AB独立时 $P(A\bigcup B)=P(A)+P(B)$ )：
$P(\exists f \in F:P(R(f)-\hat{R}(f) \geqslant \epsilon)$
$=P((R(f_1)-\hat{R}(f_1) \geqslant \epsilon) \bigcup (R(f_2)-\hat{R}(f_2) \geqslant \epsilon) \bigcup \cdots \bigcup (R(f_N)-\hat{R}(f_N) \geqslant \epsilon))$
$=P(R(f_1)-\hat{R}(f_1) \geqslant \epsilon) + P(R(f_2)-\hat{R}(f_2) \geqslant \epsilon) + \cdots + P(R(f_N)-\hat{R}(f_N) \geqslant \epsilon)$
$=dP(R(f_i)-\hat{R}(f_i) \geqslant \epsilon)\leqslant dexp(-2N\epsilon^2)$
$P(\forall f \in F:P(R(f)-\hat{R}(f) \leqslant \epsilon)\geqslant dexp(-2N\epsilon^2)$
令 $\delta=dexp(-2N\epsilon^2)$ ,则 $\epsilon=\sqrt{\frac{1}{2N}(logd + log\frac{1}{\delta})},R(f) \leqslant \hat{R}(f) + \epsilon$

1.5.生成模型/判别模型

监督学习的方法：生成方法，判别方法
生成方法：由数据学习联合概率分布，求出条件概率分布作为预测模型： $P(Y|X) = \frac{P(Y , X)}{P(X)}$ .
- 模型表示了给定输入X产生输出Y的生成关系
- 收敛速度快，存在隐变量
- 典型的生成模型：朴素贝叶斯、隐马尔科夫模型
判别方法：由数据直接学习决策函数f(X)或条件概率分布P(Y|X)做预测的模型。
- 典型的判别模型：k临近法，感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场)

1.6.分类问题

正类：关注的类；负类：其他类
tp：正类预测为正类
fn：正类预测为负类
fp：负类预测为正类
tn：负类预测为负类
精确率： $P = \frac{tp}{tp + fp}$ ，预测结果为正类的准确率
召回率： $R = \frac{tp}{tp + fn}$ ，实际为正类的实例中预测的准确率

1.7.一个极大似然估计和贝叶斯估计的实例

假设数据 $x_1,x_2,\cdots,x_n$ 来自正态分布 $N(\mu,\sigma^2)$ ， $\sigma$ 已知

根据样本计算 $\mu$ 的极大似然估计。
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
$L=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2}$
$\frac{\partial L}{\partial \mu}=(2\pi\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2}\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0$
$\hat{\mu}=\frac{1}{n}\sum x_i$
假设 $\mu$ 的先验分布是正态分布 $N(\mu,t^2)$ ,根据样本计算 $\mu$ 的贝叶斯估计
$\pi(\mu)=\frac{1}{\sqrt{2\pi}t}e^{-\frac{\mu^2}{2t^2}}$
$P(\mu|x_1,x_2,\cdots,x_n)=\frac{P(\mu,x_1,x_2,\cdots,x_n)}{P(x_1,x_2,\cdots,x_n)} = \frac{P(\mu)P(x_1|\mu)P(x_2|\mu)\cdots P(x_n|\mu)}{\int P(\mu,x_1,x_2,\cdots,x_n)d\mu}$
$\varpropto e^{-\frac{\mu^2}{2t^2}}\prod_{i=1}^ne^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 -\frac{\mu^2}{2t^2}}$
$L = e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 -\frac{\mu^2}{2t^2}}$
$\frac{\partial L}{\partial \mu}=L(\frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu)-\frac{\mu}{t^2})=0$
$\hat{\mu}=\frac{t^2}{nt^2+\sigma^2}\sum x_i$

《统计学习方法》第一章: 统计学习方法概论 读书笔记

第一章