数据挖掘-探讨提升方法

浅谈提升方法
在传统的分类问题的情况中，不管是决策树或是朴素贝叶斯等方法，都是对训练数据进行训练，然后得到模型来去进行预测。这次我们谈的提升方法（boosting）本质上是集成学习的一种，另一种是bagging方法，我们下一次再讨论。
提升方法其实是一种机器学习思路，目标是通过多次学习得到多个分类器，然后将多个分类器进行加权的线性组合，然后得出一个预测性能更好更稳健的分类器，从而提高性能。但是我们不禁会思考，如何在训练数据只有一份的基础上，去训练多个分类器。这里就要借鉴我们在初中或者高中的一个学习的方法，即“纠错本”。当我们遇到一道题不会做时，我们会将该题目收纳进“纠错本”，然后将该题目搞清楚后，下一次遇到同样的问题就可以解决。
提升方法的思路其实也很像“纠错本”，当机器在第一次学习时，所以数据的权重都是一样的，即都是一样重要。而当机器在第二次、第三次等后续学习中，会将之前的误分类数据拿出来去做成“纠错本”，即改变数据的权重。通常认为，那些误分类的数据是比较重要的，即当下一次训练数据时，这些“纠错本”中的数据会通过设置较大的权重去影响损失函数，即让模型更“看重”这些之前被误分类的数据。
那么经过上述的一个大致说明后，其实还有一个疑问，也就是将这些多个分类器的预测效果去超过普通单个的弱分类器预测效果。其实这里可以引出另一个概念，即强分类器。
在机器学习研究人员眼中，针对分类问题训练得到的模型有两种，一种是弱分类器、另一种是强分类器。这两者的区别我们可以这样理解：强分类器是一种训练的较好地模型，在分类问题中，它可以较为准确的去对数据进行分类，从数据角度来看，这种分类器的分类规则是较为准确的，但是容易过拟合并且稳健性不够强。弱分类器是一种较为粗糙的分类器，它的分类准确率往往较为一般，但从另一个角度来说，这种分类器的稳健性还不错，因为其分类规则较为粗糙，所以不管数据多么异常，它的预测能力不会被过于干扰。
我们继续引用生活中的例子去理解强分类器和弱分类器，在一个班级中，强分类器可以视为一个学习非常好的学生，各门功课都是在95分以上；弱分类器可以视为一个学习较为一般的学生，有一两门功能在95分以上，其它功课都在85分左右。当班级举行一些开放式比赛时，显然学习非常好的学生更有优势，那么作为一个学习较为一般的学生要如何在比赛中击败好学生呢，最直接且显然的方法就是，去找几个学习一般的同学，联合组成一个团队去和这个好学生去竞争。当遇到比赛的难题时，可以让擅长这个难题的同学去解决，强化他在这个题目的决定权，并且最后通过团队中的投票进行表决，决定对这个难题做出怎么样的解答。
根据上述的例子，我想理解这个提升方法的第二个思路大家也能够理解了，就是加大误分类率小的弱分类器的权重，最终多个弱分类器一起进行投票，得出最终的预测，使得预测的准确率超过强分类器。
总的来说，提升方法的思路就是两个，第一是多次训练，但是每次训练中之前误分类的样本会被加大权重，从而引起后续分类器的重视。第二是投票决定结果，但是之前在训练过程中相对误分类率较小的分类器会被加大权重，最终多个分类器投票得出预测。综上所述，提升学习其实是一种学习策略，它将多个弱分类器进行组合，在某种情况得到比简单强分类器的预测效果更好的学习方法。

喷火龙与水箭龟

发布了23 篇原创文章 · 获赞 24 · 访问量 4515

私信关注

泛统计理论初探——集成学习之提升方法探讨

数据挖掘-探讨提升方法

猜你喜欢