数据挖掘竞赛利器1-Embeding方式

其他 2018-09-11 16:18:53 阅读次数: 0

一.集成方式简述

1.集成模型的主要方式分为：

*基于线性加权的Embeding方式。

*使用分类器学习投票分配的Blending和Stacking方式。

二.Embeding方式

2.第一种方式最为简单，是在预测结果上面建立的集成方式，分为投票集成、平均、排名集成三种方式，为什么经过集成之后，效果会更加好那，原因可以用下面的概率计算表示。

可以看出，加入每个结果的投票准确率在0.7时，经过集体的投票集成可以使得最后的正确率变成0.44+0.34=0.78，准确率有所提升，回归问题也是同理的，而且投票的偏重也是可以设置加权设置的。

3.但是在集成时候，集成成员的选择应该是：效果较好且差不多、模型之间相关性较低的模型，只有这样的组内成员进行集成之后可以起到相当不错的效果。

我们举个例子，下面是三个相关性较大模型的预测结果，各自的预测准确率分别为0.8,0.8,0.7,集成之后的准确率结果仍是0.8.

而当我们选取出三个相关性不大的模型进行集成时的结果，可以提升了10%个点。

所以我们在模型集成时候，往往是使用（不完全一样的特征）训练多个效果差不多的模型，或者使用不同参数、不同随机种子、不同类型的模型进行融合，这样的效果比较棒。

猜你喜欢

转载自blog.csdn.net/maqunfi/article/details/82220030

数据挖掘竞赛利器1-Embeding方式

数据挖掘竞赛利器-Stacking和Blending方式

数据挖掘竞赛网站

数据挖掘竞赛资料

数据挖掘竞赛

数据挖掘竞赛--数据清洗

数据挖掘竞赛的基本步骤

【天池竞赛】心跳数据挖掘

数据科学竞赛-数据挖掘赛流程

数据挖掘竞赛经验（1）- 6个月拿下kaggle master

数据挖掘天池竞赛——心电图心跳信号多分类预测Task1赛题理解

数据挖掘竞赛中常用的ML

滴滴数据挖掘竞赛题目

数据挖掘相关领域竞赛推荐

数据挖掘：智慧教育竞赛复盘

数据挖掘的简介（1）

数据挖掘随笔1

浅谈数据挖掘（1）----什么是数据挖掘

【数据挖掘】挖掘建模-回归分析（1）

工业大数据挖掘的利器——Spark MLlib

OI (信息 ) 竞赛中的对拍程序，造数据，对拍利器

"阿里巴巴"杯北邮数据挖掘竞赛（一）

数据挖掘竞赛-员工离职预测训练赛

数据挖掘竞赛-轴承故障检测训练赛

数据挖掘竞赛黑科技——对抗验证（Adversarial validation）

【听课笔记】数据挖掘竞赛——特征工程中的开发与技巧

数据挖掘竞赛-优胜解决方案实战

《数据挖掘导论》研读(1)

数据挖掘-概念与技术1

数据挖掘-R语言(1)

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)