机器学习实战基础（八）：sklearn中的数据预处理和特征工程（一）简介 - 代码天地

机器学习实战基础（八）：sklearn中的数据预处理和特征工程（一）简介

其他 2020-05-28 13:24:53 阅读次数: 0

1 简介

数据挖掘的五大流程：

1. 获取数据

2. 数据预处理

数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程
可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。
也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小
数据预处理的目的：让数据适应模型，匹配模型的需求

3. 特征工程：

特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选最相关的特征，提取特征以及创造特征来实现。

其中创造特征又经常以降维算法的方式实现。
可能面对的问题有：特征之间有相关性，特征和标签无关，特征太多或太小，或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌
特征工程的目的：1) 降低计算成本，2）提升模型上限

4. 建模，测试模型并预测出结果

5. 上线，验证模型效果

2 sklearn中的数据预处理和特征工程

sklearn中包含众多数据预处理和特征工程相关的模块，虽然刚接触sklearn时，大家都会为其中包含的各种算法的广度深度所震惊，但其实sklearn六大板块中有两块都是关于数据预处理和特征工程的，两个板块互相交互，为建模之前的全部工程打下基础。

模块preprocessing：几乎包含数据预处理的所有内容
模块Impute：填补缺失值专用
模块feature_selection：包含特征选择的各种方法的实践

模块decomposition：包含降维算法

对于特征工程，来介绍O'Reilly Media出版社的新书：

猜你喜欢

转载自www.cnblogs.com/qiu-hua/p/12980078.html

机器学习实战基础（八）：sklearn中的数据预处理和特征工程（一）简介

机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化

机器学习实战基础（十）：sklearn中的数据预处理和特征工程（三）数据预处理 Preprocessing & Impute 之缺失值

sklearn中的数据预处理和特征工程

机器学习sklearn—数据的特征预处理

【skLearn 数据预处理和特征工程】数据预处理

【skLearn 数据预处理和特征工程】特征工程

机器学习总结——数据预处理和特征工程

机器学习 | 特征工程（一）- 数据预处理

【机器学习】数据预处理与特征工程

机器学习sklearn之数据预处理及特征选择

【sklearn】数据预处理+特征工程

机器学习基础之《特征工程（3）—特征预处理》

机器学习 sklearn 特征预处理

天池赛学习笔记——使用sklearn+机器学习进行分类/回归任务之(二)数据集划分、预处理和特征工程

机器学习中的特征工程和数据预处理技术是什么？如何处理缺失值和异常值？

机器学习实战基础（一）：数据预处理技术

机器学习里数据预处理及特征工程

机器学习里数据预处理及特征工程总结

机器学习之特征工程-数据预处理

【机器学习之特征工程】数据预处理02

机器学习系列(3)_特征工程01数据预处理

机器学习特征工程之-数据预处理-1

机器学习中的数据预处理（sklearn preprocessing）

机器学习小组第三周：简单的数据预处理和特征工程

[机器学习 03] 数据预处理-sklearn

机器学习实践（四）—sklearn之特征预处理

机器学习 - 数据预处理中的特征离散化方法

机器学习_特征工程文本处理、数据特征的预处理

【机器学习之特征工程】数据预处理、特征选择、降维及不平衡处理

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)