统计学习方法笔记(一)

1.1实现统计学习方法的步骤

1.得到一个有限的训练数据集。

2.确定包含所有可能的模型的假设空间，即学习模型的集合。

3.确定模型选择的准则，即学习策略。

4.实现求解最优模型的算法，即学习方法。

5.通过学习方法选择最优化模型。

6.利用学习的最优化模型对数据进行预测或分析。

1.2监督学习

输入变量与输出变量

（表示方法按主流表示）

1.特征向量： $x=(x_1~,x_2,...x_n)^T$

2. $x^{(i)}$ 表示第i个输入实例： $x^{(i)}=(x_1^{(i)},x_2^{(i)}...x_n^{(i)})^T$

3.训练集表示为： $T={(x^{(1)},y_1),(x^{(2)},y_2)...(x^{(n)},y_n)}$

4.输入变量与输出变量写作：X,Y; 其取的值写作：x,y。

问题类型

样本：测试数据由输入和输出组对组成，输入与输出对又称为样本。

回归问题：输入变量与输出变量均为连续变量的预测问题。

分类问题：输入变量与输出变量均为有限个离散变量的预测问题。

标注问题：输入变量与输出变量均为变量序列的预测问题。

联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数，或分布密度函数。此为监督学习的基本假设。

假设空间

输入空间到输出空间的映射的集合，就是假设空间。

监督学习的模型可以为概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y= $f(X)$ 表示，具体值预测写作P(y|x)或 $y=f(x)$ 。

1.3统计学习三要素

方法=模型+策略+算法

模型

所要学习的条件概率分布或决策函数==模型 $\subseteq$ 模型假设空间

令假设空间为 $\digamma$ ，参数向量 $\theta$ 取值于n维欧式空间 $R^n$ ,称为参数空间。

假设空间可以定义为决策函数的集合：

$\digamma$ ={ $f$ | $Y$ = $f(X)$ }

X和Y是定义在输入空间 $\chi$ 和输出空间 $\gamma$ 上的变量，这时 $\digamma$ 通常是由一个参数向量决定的函数族：

$\digamma=$ { $f|Y=f_{\theta}(X),\theta\in{R^n}$ }

假设空间也可以定义为条件概率的集合

$\digamma$ ={ $P|P(Y|X)$ }

X和Y是定义在输入空间 $\chi$ 和输出空间 $\gamma$ 上的变量，这时 $\digamma$ 通常是由一个参数向量决定的条件分布族：

$\digamma$ ={ $P|P_{\theta}(Y|X),\theta\in{R^n}$ }

策略

损失函数度量模型预测一次的好坏

风险函数度量平均意义下模型预测的好坏

监督学习问题是在假设空间中 $\digamma$ 中选取模型 $f$ 作为决策函数，给定的输入X，由 $f(X)$ 给定输出Y，这个输出的预测值 $f(X)$ 与真实值Y会有所误差，用一个损失函数或代价函数来度量预测错误的程度，损失函数 $f(X)$ 和Y的非负实值函数记作L(Y, $f(X)$ )。

常用损失函数：

1.0-1损失函数

L(Y, $f(X)$ )=

{\begin{array}{cc} 1, & Y \neq f (X) \\ 0, & Y = f (X) \end{array}

$\left\{\begin{array}{cc} 1, & Y{\ne}f(X)\\ 0, & Y=f(X) \end{array}\right.$

2.平方损失函数

L(Y, $f(X)$ )=(Y- $f(X)$ ) $^2$

3.绝对损失函数

L(Y, $f(X)$ )= $|Y-f(X)|$

4.对数损失函数或对数似然损失函数

L(Y,P(Y|X))= $-logP(Y|X)$

经验风险：

通过损失函数我们可以得到对于单个样本的预测能力，对于训练样本集中所有数据的预测可以通过累加得到再取平均值，这就是经验风险：

$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^NL(y^{(i)},f(x^{(i)})$

期望风险：

当样本容量足够时，经验风险越小则说明对于训练集数据的拟合程度越好，由于未知样本的数量不知，无法采取平均值的方式求得。这里假设X,Y服从联合分布P（X,Y），期望风险可表示为：

$R{exp}(f)=E_p[L(Y,f(x))]=\int_{xy}L(y,f(x))P(x,y)dxdy$

结构风险：

但是由于联合分布函数P（X,Y）是很难求得的。所以期望风险是不容易得到的。但是如果采用经验风险来代替期望风险，当训练集数据过小时有可能出现过度拟合的问题，即决策函数对于训练集几乎全部拟合，但是对于测试集拟合效果过差，于是·这里又引入结构风险：

$R_{srm}(f)=\frac{1}{N}\sum^N_{i=1}l(y^{(i)},f(x^{(i)}))+\lambda{J(f)}$

经验风险越小，模型决策函数越复杂，包含参数越多，拟合效果越好，但是到一定程度又容易出现过度拟合的问题，这里引入正则化项，其中λ是参数， $J(f)$ 表示模型复杂度，通过降低模型复杂度来防止过拟合的出现，即 $\lambda{J(f)}$ 的值最小化，因为经验风险目的是求的最小化，正则化目的也是求取最小化，因此这里将两者相加来求取最小化，即可得结构风险。

经验风险是局部概念，针对训练样本的损失函数，可求得。
期望风险是全局概念，针对未知测试样本的损失函数，不可求得。
结构风险是两者的折中处理，是经验风险和正则化的加和。

算法

算法是只学习模型的具体计算方法，统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后考虑求解最优模型的计算方法。

即：统计学习方法为求解最优解的方法。