数据挖掘竞赛利器1-Embeding方式

一.集成方式简述

1.集成模型的主要方式分为:            

      *基于线性加权的Embeding方式。            

      *使用分类器学习投票分配的Blending和Stacking方式。

二.Embeding方式

2.第一种方式最为简单,是在预测结果上面建立的集成方式,分为投票集成、平均、排名集成三种方式,为什么经过集成之后,效果会更加好那,原因可以用下面的概率计算表示。

  

                        

可以看出,加入每个结果的投票准确率在0.7时,经过集体的投票集成可以使得最后的正确率变成0.44+0.34=0.78,准确率有所提升,回归问题也是同理的,而且投票的偏重也是可以设置加权设置的。

3.但是在集成时候,集成成员的选择应该是:效果较好且差不多、模型之间相关性较低的模型,只有这样的组内成员进行集成之后可以起到相当不错的效果。

我们举个例子,下面是三个相关性较大模型的预测结果,各自的预测准确率分别为0.8,0.8,0.7,集成之后的准确率结果仍是0.8.

而当我们选取出三个相关性不大的模型进行集成时的结果,可以提升了10%个点。

所以我们在模型集成时候,往往是使用(不完全一样的特征)训练多个效果差不多的模型,或者使用不同参数、不同随机种子、不同类型的模型进行融合,这样的效果比较棒。

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/82220030