机器学习中的数据预处理 - 代码天地

机器学习中的数据预处理

其他 2018-11-24 15:59:13 阅读次数: 0

数据的预处理总共可以大致分为6步。

导入需要的库
这两个是我们每次都需要导入的库
Numpy包含数学计算函数
Pandas用于导入和管理数据集
导入数据集
数据集通常是.csv格式。csv文件以文本形式保存表格数据。文件的每一行是一条数据记录。我们使用pandas的read_csv方法读取本地CSV文件为一个数据帧。然后从数据帧中制作自变量和因变量的矩阵和向量。
处理丢失数据
我们得到的数据很少是完整的。数据可能因为各种原因丢失，为了不降低机器学习模型的性能，需要处理数据。我们可以用整列的平均值或中间值替换丢失的数据。我们用sklearn.preprocessiong库中的Imputer类完成这项任务
解析分类数据
分类数据指的是函数标签值而不是数字值的变量。取值范围通常是固定的。例如“YES”和“NO”不能用于模型的数字计算，所以需要解析成数字。为实现这一功能，我们从sklearn.preprocessing库导入LabelEndoer类。
拆分数据集为测试集合和训练集合
把数据集拆分成两个：一个是用来训练模型的训练集合，另一个是用来验证模型的测试集合。两者比例一般是80：20。我们导入sklearn.crossvalidation库中的train_test_split()方法。
特征缩放
大部分模型算法使用两点间的欧式距离表示，但此特征在幅度、单位和范围姿态问题上变化很大。在距离计算中，高幅度的特征比低幅度特征权重更大。可用特征标准化或Z值归一化解决。导入sklearn.preprocessing库中的StandardScalar类。

本文摘抄自
https://github.com/MLEveryday/100-Days-Of-ML-Code

猜你喜欢

转载自blog.csdn.net/flyfor2013/article/details/83478866

机器学习中数据预处理的方式

机器学习中的数据预处理

机器学习中数据清洗&预处理

机器学习数据预处理

机器学习--数据预处理

数据预处理-机器学习

机器学习 —— 数据预处理

机器学习—数据预处理

机器学习：数据预处理

机器学习中的数据预处理（sklearn preprocessing）

机器学习 - 数据预处理中的特征离散化方法

机器学习中的数据预处理是什么？

机器学习中的预处理及Python实现

机器学习之数据预处理

机器学习-数据预处理（Python实现）

python 机器学习之数据预处理

机器学习sklearn—数据的特征预处理

机器学习-常见的数据预处理

机器学习初探---数据预处理

【机器学习】数据预处理与特征工程

机器学习系列--数据预处理

机器学习预备-Pandas数据预处理

Python机器学习之数据预处理

机器学习一：数据预处理

机器学习——数据特征预处理

机器学习-数据预处理(Data Preprocessing)

机器学习1-数据预处理

机器学习的典型例子-数据预处理

机器学习#数据划分与预处理

机器学习：数据预处理之LabelBinarier()

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)