机器学习 | 机器学习100天(1) --- 数据预处理 - 代码天地

机器学习 | 机器学习100天(1) --- 数据预处理

其他 2019-01-29 20:01:05 阅读次数: 0

机器学习100天系列学习笔记基于机器学习100天(中文翻译版),机器学习100天(英文原版）

所有代码使用iPython Notebook实现

目录

1.导入必要的库

2.导入数据集

3.处理丢失数据

4.解析分类数据

5.把数据集分割为训练集和测试集

1.导入必要的库

import numpy as np
import pandas as pd

2.导入数据集

data = pd.read_csv('Data.csv')
print(data.head()) #查看数据集的前5行
#从数据集中分离特征矩阵X和标签向量Y
X = data.iloc[:,:-1].values  
Y = data.iloc[:,-1].values

3.处理丢失数据

from sklearn.preprocessing import Imputer
#axis=0 沿0轴(沿各个行的方向对每一列进行处理)  用每一列的均值替换该列的缺失值
imputer = Imputer(missing_values = 'NaN',strategy = 'mean',axis = 0)
imputer = imputer.fit(X[:,1:3])  #仅限于对数值处理
X[:,1:3] = imputer.transform(X[:,1:3])

4.解析分类数据

from sklearn.preprocessing import LabelEncoder,OneHotEncoder

labelencoder_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0])  #把国家名转换为数字

#创建虚拟变量
onehotencoder = OneHotEncoder(categorical_features=[0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y) #把Yes，No转换为1，0

5.把数据集分割为训练集和测试集

from sklearn.cross_validation import train_test_split
#测试集占20%
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=0.2,random_state=0)

6.特征缩放

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

猜你喜欢

转载自blog.csdn.net/sdu_hao/article/details/86370310

机器学习 | 机器学习100天(1) --- 数据预处理

机器学习1/100天-数据预处理

机器学习100天-day1数据预处理

100天机器学习1---数据预处理

100天搞定机器学习|Day1数据预处理

100天机器学习算法-Day1: 数据预处理

机器学习数据预处理

机器学习--数据预处理

数据预处理-机器学习

机器学习 —— 数据预处理

机器学习—数据预处理

机器学习：数据预处理

机器学习1-数据预处理

机器学习100天——数据预处理(第一天)

学习机器学习100天系列_Day01_数据预处理

机器学习之数据预处理

机器学习-数据预处理（Python实现）

python 机器学习之数据预处理

机器学习sklearn—数据的特征预处理

机器学习-常见的数据预处理

机器学习中数据预处理的方式

机器学习初探---数据预处理

【机器学习】数据预处理与特征工程

机器学习系列--数据预处理

机器学习预备-Pandas数据预处理

Python机器学习之数据预处理

机器学习一：数据预处理

机器学习——数据特征预处理

机器学习中的数据预处理

机器学习-数据预处理(Data Preprocessing)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)