机器学习之数据预处理-构造好的训练数据集 - 代码天地

机器学习之数据预处理-构造好的训练数据集

其他 2018-06-07 09:07:36 阅读次数: 2

一缺失数据的处理

df.isnull().sum() 得到每列缺失值数量

（1）将存在缺失值的特征或样本删除

df.dropna()删除数据集中包含缺失值的行

df.dropna(axis=1)删除数据集中至少包含一个NAN值得列

（2）缺失数据填充

常用的插值技术之一就是均值插补，即使用相应的特征均值来替换缺失值。可以使用sklearn中的Impute类实现此方法。

二处理类别数据

类别数据包括标称特征（举例：T恤的颜色）和有序特征（举例：衣服的尺寸，XL>L>M）。

（1）有序特征的映射

我们可以将类别字符串转换为整数。

（2）类标的编码

类标并不是有序的，对于特定的字符串类标，赋予哪个整数值对我们来说并不重要。我们可以采用枚举的方式从0开始设定类标。

（3）标称特征上的独热编码（举例：color特征将转换为新的特征:blue,green,red,可以使用二进制编码）

三将数据集划分为训练数据集和测试数据集

这里调用sklearn中的train_test_split函数可以实现。

四将特征的值缩放到相同的区间

两种常用的方法为：归一化和标准化。归一化指的是将特征的值缩放到区间[0,1],它是最小-最大缩放的一个特例。但在大部分机器学习算法中，标准化的方法却更实用。前者可以调用MinMaxScaler类实现，后者可以调用StandardScaler类实现。

五选择有意义的特征

六通过随机森林判定特征的重要性

利用RandomForestClassifier类实现

猜你喜欢

转载自blog.csdn.net/qq_27584277/article/details/80346731

机器学习之数据预处理-构造好的训练数据集

sklearn机器学习包中的对原始数据的预处理及训练集、测试集的分割

机器学习之数据预处理

python 机器学习之数据预处理

Python机器学习之数据预处理

机器学习：数据预处理之LabelBinarier()

机器学习之数据预处理——降噪

Python机器学习数据预处理：读取txt数据文件并切分为训练和测试数据集

机器学习数据预处理

机器学习--数据预处理

数据预处理-机器学习

机器学习 —— 数据预处理

机器学习—数据预处理

机器学习：数据预处理

机器学习之数据预处理，Pandas读取excel数据

机器学习数据预处理：数据降维之PCA

深度学习数据集预处理之打标签

机器学习 --2 特征预处理之数据将维

机器学习之特征工程-数据预处理

机器学习数据预处理之One-Hot Encoding

机器学习sklearn之数据预处理及特征选择

【机器学习之特征工程】数据预处理02

机器学习之数据预处理——缺失值

机器学习之数据预处理——缺失值填充

(二)机器学习笔记之数据预处理

数据集的预处理

深度学习对数据集的预处理

机器学习-数据预处理（Python实现）

机器学习sklearn—数据的特征预处理

机器学习-常见的数据预处理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)