数据挖掘入门 - 代码天地

数据挖掘入门

其他 2018-08-27 18:11:25 阅读次数: 0

基本过程

1 数据清洗
2 特征工程
3 模型调参
4 生成结果

1.1 数据清洗

重要性：数据决定一切，数据越多模型效果越好
1）数值类型

加载数据为pandas数据表（python语言）或其他方便进行处理的数据类型
处理缺失值：直接删掉或者用其他值填充
归一化
标准化
转化数据的浮点类型等

2）文本类型

数值化/层级化

简言之，将原始数据转换成基本特征*

2.1 特征工程

重要性：决定了模型训练的上界

可视化观察特征关系
分组比较找出不同特征之间的关系
组合、创建新特征
深度学习找出潜在的特征关系（非监督学习）

3.1 模型调参

不必纠结于单个最优模型、单个最优参数，找好各个模型的最适参数后进行融合可以集大成

选择模型、改动参数进行按照规定评判原则对比调优
- 交叉验证确定训练子集和测试子集的比例
- 学习速率决定了最佳的运行速度
得到每个模型的最优结果后可以先尝试进行过基本权重融合
也可以使用GBDT或AdaBoost进行融合

4.1 提交结果

使用以上已训练好的数据对测试集数据进行预测，生成符合格式的submission.csv文件进行提交

最后，这只是本人在学习数据挖掘过程中总结的一些小经验，难免疏漏，欢迎指正。

猜你喜欢

转载自blog.csdn.net/Shuang_Mo/article/details/80899767

数据挖掘入门笔记

数据挖掘-分词入门

数据挖掘入门

数据挖掘的入门概念

数据挖掘的入门

数据挖掘入门学习

数据挖掘入门学习笔记

数据挖掘入门基础（一）

数据挖掘入门--概念梳理

数据挖掘 —— 从入门到求职

《数据挖掘 —— 从入门到求职》

「数据挖掘入门系列」Python快速入门

如何入门大数据（数据挖掘方面）

「数据挖掘入门系列」数据探索

入门大数据---机器学习与数据挖掘

Python数据挖掘学习笔记（1）文本挖掘入门

漫谈数据挖掘从入门到进阶(转)

数据挖掘 pandas基础入门之选择

数据挖掘的入门(Programmer Guide to Data Mining)

数据挖掘 pandas基础入门之操作

数据挖掘入门算法ID3

数据挖掘入门算法C4.5

数据挖掘入门必看的几个问题

python数据挖掘入门与实践（二）

python数据挖掘入门与实践（一）

数据挖掘资料———Weka平台入门

零基础入门数据挖掘-Baseline

Python数据挖掘入门与实践：带你入门数据挖掘技术，应用实际项目

「数据挖掘入门系列」数据探索之数据特征分析

数据挖掘 pandas基础入门之查看数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)