Day 1_Data PreProcessing

其他 2018-08-14 21:42:23 阅读次数: 0

100-Days-Of-ML-Code 评注版

Day 1_Data PreProcessing

本文主要介绍数据预处理中的一些基础知识, 分别以Python、R、Julia三种语言进行介绍
-- 引用自 Day 1_Data PreProcessing

Info-graphs

导入数据

dataset = pd.read_csv('Data.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

处理缺失数据

Country	Age	Salary	Purchased
France	44	72000	No
Spain	27	48000	Yes
Germany	30	54000	No
Spain	38	61000	No
Germany	40		Yes
France	35	58000	Yes
Spain		52000	No
France	48	79000	Yes
Germany	50	83000	No
France	37	67000	Yes

通过观察，可以发现导入的数据中存在部分缺失，这样的数据必须处理后才能进行数据分析，这个过程被称为数据清理。一般来说数据清理主要处理缺失值和噪声数据。<<数据挖掘概念与技>>中对数据清理有详细的描述。这里作者用了比较通用的方法，分别用Age、Salary两列的平均值来填充缺失值。

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

分离变量编码

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

划分测试数据集和训练数据集

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

特征规约

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

参考资料

猜你喜欢

转载自www.cnblogs.com/elixir/p/9477991.html

Day 1_Data PreProcessing

Day 1 Preprocessing data

Day1--Data Preprocessing

preprocessing

data preprocessing ——time series clip

Preprocessing data数据预处理

data-sklearn数据预处理 Preprocessing

机器学习-数据预处理(Data Preprocessing)

Maltab-机器学习-Importing and Preprocessing Data

Transformers数据预处理：Preprocessing data

C1W1-07_preprocessing

sklearn库学习笔记1——preprocessing库

[Machine Learning with Python] My First Data Preprocessing Pipeline with Titanic Dataset

Top 5 Open Source Tools for Data Preprocessing in AI an

FXC Preprocessing

The sklearn preprocessing

Sklearn用户手册学习笔记 -- Transformers for data preprocessing

13_Loading and Preprocessing Data from multiple CSV with TensorFlow_custom training loop_TFRecord

【DeepLearning 文本分类实战】IMDB Data Preprocessing数据预处理

【hackerrank】-Day 1: Data Types

Data Analysis Day1

使用preprocessing将一些变化幅度较大的特征化到[-1,1]之内。

preprocessing模块的sklearn.preprocessing.scale()方法

13_Loading & Preprocessing Data with TF 3_TF Datasets_images[index, ...,0]_plt images_profiling data

preprocessing数据预处理

sklearn.preprocessing.LabelBinarizer

sklearn.preprocessing.Imputer()

Sklearn-preprocessing.PolynomialFeatures

sklearn.preprocessing.Imputer

数据预处理——preprocessing

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)