Ensemble 协同工作

Ensembl e的框架

Ensemble的方法就是一种团队合作，好几个模型一起上的方法。

第一步：通常情况是有很多的classifier，想把他们集合在一起发挥更强大的功能，这些classifier一般是diverse的，这些classifier有不同的属性和不同的作用。
第二步：就是要把classifier用比较好的方法集合在一起，就好像打王的时候坦和DD都站不同的位置，通常用ensemble可以让我们的表现提升一个档次，一般在kaggle之类的比赛中，ensemble用的最多的也是效果最好的，一般前几名都需要用ensemble。

Bagging

上图表示了用自己采样的数据进行Bagging的过程。在原来的N笔训练数据中进行采样，过程就是每次从N笔训练数据中取N‘（通常N=N’）建立很多个dataset，

这个过程抽取到的可能会有重复的数据，但是每次抽取的是随机形成的dataset。每个dataset都有N'笔data，但是每个dataset的数据都是不一样的，接下来就是用一个复杂的模型对四个dataset都进行学习得到四个function，

接下来在testing的时候，就把这testing data放到这四个function里面，再把得出来的结果做平均（回归）或者投票（分类），通常来说表现（variance比较小）都比之前的好，这样就不容易产生过拟合。

做Bagging的情况：模型比较复杂，容易产生过拟合。（容易产生过拟合的模型：决策树）目的：降低方差

决策树的实际例子：初音问题

上图可以看到，深度是5的时候效果并不好，图中白色的就是class1，黑色的是class2.当深度是10的时候有一点初音的样子，当深度是15的时候，基本初音的轮廓就出来了，但是一些细节还是很奇怪（比如一些凸起来的边角）

当深度是20的时候，就可以完美的把class1和class2的位置区别开来，就可以完美地把初音的样子勾勒出来了。对于决策树，理想的状况下可以达到错误是0的时候，最极端的就是每一笔data point就是很深的树的一个节点，这样正确率就可以达到100%（树够深，决策树可以做出任何的function）但是决策树很容易过拟合，如果只用决策树一般很难达到好的结果