统计学习三要素

原文链接：https://www.mlpod.com/mlbase/23.html

三要素：方法=模型+策略+算法。

1.1 模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。假设空间用$\mathcal{F}$表示，假设空间可以定义为$$\mathcal{F} = \left\{ {f|Y = {f_\theta }\left( X \right),\theta \in {\mathbb{R}^n}} \right\}$$或$$\mathcal{F} = \left\{ {P|{P_\theta }\left( {Y|X} \right),\theta \in {\mathbb{R}^n}} \right\}$$，$\theta$为参数向量。

1.2 策略

1.2.1 损失函数和风险函数

监督学习问题是在假设空间$\mathcal{F}$中选取模型$f$作为决策函数，对于给定的输入$X$，由$f(X)$给出相应的输出$Y$，这个输出的预测值$f(X)$与真实值$Y$可能一致也可能不一致，用一个损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。损失函数是$f(X)$和$Y$的非负实值函数,记作$L(Y,f(x))$。

统计学习常用以下几种损失函数：

（1）0-1损失函数（0-1 loss function）

$$ L(Y,f(X))=\left\{
\begin{aligned}
1,Y \ne f(X) \\
0,Y = f(X)
\end{aligned}
\right.
$$

（2）平方损失函数（quadratic loss function）

$$L(Y,f(X))=(Y-f(X))^2$$

（3）绝对损失函数（absolute loss function）

$$L(Y,f(X))=|Y-f(X)|$$

（4）对数损失函数（logarithmic loss function）或对数似然函数（loglikelihood loss function）

$$L(Y,P(Y|X))=-logP(Y|X)$$

损失越小，模型越好。由于模型的输入输出$(X,Y)$都是随机变量，遵循联合分布$P(X,Y)$，所以损失函数的期望是$${R_{\exp }}\left( f \right) = E\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int\limits_{\mathcal{X} \times \mathcal{Y}} {L\left( {y,f\left( x \right)} \right)P\left( {x,y} \right)dxdy} $$这是理论上模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失，称为风险函数（risk function）或期望损失（expected loss）。

学习的目标就是选择期望风险最小的模型。由于$P(X,Y)$未知，所以监督学习就成为一个病态问题（ill-formed problem）。

模型$f(X)$关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作$R_{emp}$:$${R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} $$根据大数定律，在样本$N$趋向于无穷时，经验风险趋于期望风险。由于现实中样本有限，所以要对经验风险进行矫正，因此关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

1.2.2 经验最小化与结构风险最小化

经验风险最小化即：$$\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^n {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} $$。训练样本较小时会产生过拟合现象（over-fitting），就是对已知数据预测效果很好，未知数据预测效果很差。

结构风险最小化（structual risk minimization，SRM）是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化（regularization）。结构风险在经验风险上加上模型复杂度的正则项（regularizer）或罚项（penalty term），其定义是：$${R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right) + \lambda J\left( f \right)} $$

1.3 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。这时，统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法。

1.1 模型

1.2 策略

1.2.1 损失函数和风险函数

1.2.2 经验最小化与结构风险最小化

1.3 算法

猜你喜欢