统计学习的三个招式:模型、策略和算法

统计学习的三个招式:模型、策略和算法

https://mp.weixin.qq.com/s/12yhAZ79i_ENAdtyOX63lQ

 李航老师在统计学习方法中讲到:方法=模型+策略+算法

        可以说模型、策略和算法是统计学习的三个重要因素,确定了三个要素也就确定了整个方法。也就是说建模的基本框架就定下来了。

        这里要说一下,三要素确定了建模的基本框架,但我们要得到的最终模型还有数据集、模型评估与选择等问题。

三要素的概念简述如下:
 模型,条件概率分布或决策函数,在监督学习中指的是所有可能的目标分布或函数的假设空间。
 策略,按照什么样的准则学习,从而得到最优的模型,比如损失函数、风险函数、正则化等等。
 算法,学习模型的具体计算方法,比如梯度下降、随机梯度下降等。

一个炒股的故事


        我们的目标是找到一只股票的价格变化规律。
 
 模型:经过分析我们认为这个规律应该是一个多项式函数,那么多项式函数中参数的所有可能性加起来比如有十万种可能性,那么这十万个可能的函数就是模型的假设空间。
 策略:我们最关心的是预测股价和将来的真实股价之间越接近越好,那么模型的预测输出与真值的误差就越小越好,这里衡量误差大小的方法有很多种,比如选择一个点的误差,还是一段时间内多个点的平均误差,还是误差的均方根等等。
   

不同的衡量方式会带来模型拟合程度、泛化能力的不同。
   
在监督学习问题中,通常用到的有经验风险最小化和结构风险最小化。策略通常就是经验风险和结构风险最优化问题。
 算法:那么如何解这个最优化问题,即如何利用数据集,寻找结构风险最小的多项式函数就是算法问题。比如我用穷举法计算,就是不停的试所有可能的参数从1次多项式一直到100次多项式,每个参数全部试一遍,这也是一种算法,当然效率很低。
算法主要有:
通常的算法有解析法和数值法。数值法中的迭代优化方法比较常用,在神经网络中的随机梯度下降就是一种迭代优化求解的过程,存在了尝试的意思在里面,步长等很多设置都是经验性设置没有明确的理论指导,但是非常有效。

再打一个粗略的比方
        我们要找到一支非常有潜力的股票。
 模型:我们将有潜力定义为十年后价格上涨十倍,那么所有可能十年后上涨十倍的股票就是模型的假设空间。
 策略:我们定义十年上涨十倍的股票的寻找标准就是盈利能力高、被低估值的股票,那么找到了这样的股票就是找到了我们要的潜力股,策略就定下来了。
 算法:A股中有一千多只股票,我们怎么找呢?一个个去试是一种算法;先把高盈利的找出来,再看看哪些被低估了也是一种算法;还可以先计算低估值股票有哪些,再找其中高盈利的是哪些还是一种算法等等。

主要模型、策略和方法
简要总结:
        模型决定了建模方向是否正确,即模型空间中是否存在我们要的那个。
        策略决定是否有可能找到最优模型,策略错误可能导致无法收敛。
        算法决定了计算效率的高低,与之相关的计算成本、时间都是不一样的。
       
下面直接罗列一下监督学习中的主要模型、策略和方法有哪些。

模型:
1. 决策函数,是一种非概率模型;
2. 条件概率,是一种概率模型。


策略:
1. 损失函数,度量模型一次预测的好坏。常见损失函数有:0-1损失函数;平方损失函数;绝对损失函数;对数损失函数。损失函数的值越小,模型就越好。
2. 风险函数,度量平均意义下的模型预测好坏。也叫做期望损失,在模型符合联合分布的情况下,对损失函数求期望(积分)就是风险函数了。
3. 经验风险最小化:即平均的误差最小,当样本容量足够大的时候,这种方法很有效。但是样本比较小的时候容易造成过拟合问题。
4. 结构风险最小化:在经验风险最好化基础上加入了表示模型复杂度的正则化项,来均衡模型的复杂度和平均输出误差,避免过拟合问题。

算法:
1. 梯度下降法
2. 随机梯度下降
3. ……

参考资料
 李航,统计学习方法

猜你喜欢

转载自blog.csdn.net/weixin_42137700/article/details/81665019
今日推荐