统计学习三要素

 原文链接:https://www.mlpod.com/mlbase/23.html

三要素:方法=模型+策略+算法。

1.1 模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。假设空间用$\mathcal{F}$表示,假设空间可以定义为$$\mathcal{F} = \left\{ {f|Y = {f_\theta }\left( X \right),\theta \in {\mathbb{R}^n}} \right\}$$或$$\mathcal{F} = \left\{ {P|{P_\theta }\left( {Y|X} \right),\theta \in {\mathbb{R}^n}} \right\}$$,$\theta$为参数向量。

1.2 策略

1.2.1 损失函数和风险函数

监督学习问题是在假设空间$\mathcal{F}$中选取模型$f$作为决策函数,对于给定的输入$X$,由$f(X)$给出相应的输出$Y$,这个输出的预测值$f(X)$与真实值$Y$可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是$f(X)$和$Y$的非负实值函数,记作$L(Y,f(x))$。

统计学习常用以下几种损失函数:

(1)0-1损失函数(0-1 loss function)

$$ L(Y,f(X))=\left\{
\begin{aligned}
1,Y \ne f(X) \\
0,Y = f(X)
\end{aligned}
\right.
$$

(2)平方损失函数(quadratic loss function)

$$L(Y,f(X))=(Y-f(X))^2$$

(3)绝对损失函数(absolute loss function)

$$L(Y,f(X))=|Y-f(X)|$$

(4)对数损失函数(logarithmic loss function)或对数似然函数(loglikelihood loss function)

$$L(Y,P(Y|X))=-logP(Y|X)$$

损失越小,模型越好。由于模型的输入输出$(X,Y)$都是随机变量,遵循联合分布$P(X,Y)$,所以损失函数的期望是$${R_{\exp }}\left( f \right) = E\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int\limits_{\mathcal{X} \times \mathcal{Y}} {L\left( {y,f\left( x \right)} \right)P\left( {x,y} \right)dxdy} $$这是理论上模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。

学习的目标就是选择期望风险最小的模型。由于$P(X,Y)$未知,所以监督学习就成为一个病态问题(ill-formed problem)。

模型$f(X)$关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作$R_{emp}$:$${R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} $$根据大数定律,在样本$N$趋向于无穷时,经验风险趋于期望风险。由于现实中样本有限,所以要对经验风险进行矫正,因此关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

1.2.2 经验最小化与结构风险最小化

经验风险最小化即:$$\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^n {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} $$。训练样本较小时会产生过拟合现象(over-fitting),就是对已知数据预测效果很好,未知数据预测效果很差。

结构风险最小化(structual risk minimization,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上模型复杂度的正则项(regularizer)或罚项(penalty term),其定义是:$${R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right) + \lambda J\left( f \right)} $$

1.3 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。

猜你喜欢

转载自www.cnblogs.com/0xcafe/p/9572060.html