统计学习的三个招式：模型、策略和算法

https://mp.weixin.qq.com/s/12yhAZ79i_ENAdtyOX63lQ

李航老师在统计学习方法中讲到：方法=模型+策略+算法

可以说模型、策略和算法是统计学习的三个重要因素，确定了三个要素也就确定了整个方法。也就是说建模的基本框架就定下来了。

这里要说一下，三要素确定了建模的基本框架，但我们要得到的最终模型还有数据集、模型评估与选择等问题。

三要素的概念简述如下：
 模型，条件概率分布或决策函数，在监督学习中指的是所有可能的目标分布或函数的假设空间。
 策略，按照什么样的准则学习，从而得到最优的模型，比如损失函数、风险函数、正则化等等。
 算法，学习模型的具体计算方法，比如梯度下降、随机梯度下降等。

一个炒股的故事

我们的目标是找到一只股票的价格变化规律。

 模型：经过分析我们认为这个规律应该是一个多项式函数，那么多项式函数中参数的所有可能性加起来比如有十万种可能性，那么这十万个可能的函数就是模型的假设空间。
 策略：我们最关心的是预测股价和将来的真实股价之间越接近越好，那么模型的预测输出与真值的误差就越小越好，这里衡量误差大小的方法有很多种，比如选择一个点的误差，还是一段时间内多个点的平均误差，还是误差的均方根等等。

不同的衡量方式会带来模型拟合程度、泛化能力的不同。

在监督学习问题中，通常用到的有经验风险最小化和结构风险最小化。策略通常就是经验风险和结构风险最优化问题。
 算法：那么如何解这个最优化问题，即如何利用数据集，寻找结构风险最小的多项式函数就是算法问题。比如我用穷举法计算，就是不停的试所有可能的参数从1次多项式一直到100次多项式，每个参数全部试一遍，这也是一种算法，当然效率很低。
算法主要有：
通常的算法有解析法和数值法。数值法中的迭代优化方法比较常用，在神经网络中的随机梯度下降就是一种迭代优化求解的过程，存在了尝试的意思在里面，步长等很多设置都是经验性设置没有明确的理论指导，但是非常有效。

再打一个粗略的比方
我们要找到一支非常有潜力的股票。
 模型：我们将有潜力定义为十年后价格上涨十倍，那么所有可能十年后上涨十倍的股票就是模型的假设空间。
 策略：我们定义十年上涨十倍的股票的寻找标准就是盈利能力高、被低估值的股票，那么找到了这样的股票就是找到了我们要的潜力股，策略就定下来了。
 算法：A股中有一千多只股票，我们怎么找呢？一个个去试是一种算法；先把高盈利的找出来，再看看哪些被低估了也是一种算法；还可以先计算低估值股票有哪些，再找其中高盈利的是哪些还是一种算法等等。

主要模型、策略和方法
简要总结：
        模型决定了建模方向是否正确，即模型空间中是否存在我们要的那个。
        策略决定是否有可能找到最优模型，策略错误可能导致无法收敛。
        算法决定了计算效率的高低，与之相关的计算成本、时间都是不一样的。

下面直接罗列一下监督学习中的主要模型、策略和方法有哪些。

模型：
1. 决策函数，是一种非概率模型；
2. 条件概率，是一种概率模型。

策略：
1. 损失函数，度量模型一次预测的好坏。常见损失函数有:0-1损失函数；平方损失函数；绝对损失函数；对数损失函数。损失函数的值越小，模型就越好。
2. 风险函数，度量平均意义下的模型预测好坏。也叫做期望损失，在模型符合联合分布的情况下，对损失函数求期望（积分）就是风险函数了。
3. 经验风险最小化：即平均的误差最小，当样本容量足够大的时候，这种方法很有效。但是样本比较小的时候容易造成过拟合问题。
4. 结构风险最小化：在经验风险最好化基础上加入了表示模型复杂度的正则化项，来均衡模型的复杂度和平均输出误差，避免过拟合问题。

算法：
1. 梯度下降法
2. 随机梯度下降
3. ……

参考资料
 李航，统计学习方法

统计学习的三个招式：模型、策略和算法

猜你喜欢