Python机器学习之数据预处理 - 代码天地

Python机器学习之数据预处理

其他 2018-11-09 15:29:40 阅读次数: 0

# -*- coding: utf-8 -*-
"""
Created on Sat Sep 29 22:39:26 2018

@author: Lxiao217
email:[email protected]
"""

#数据预处理
#CSV(comma-srpared values,以逗号为分隔符的数值)
#如果数据以csv文件的形式存储在硬盘上，就可以通过StringIO以字符串的方式从文件中
#读取数据，并将其转换为DataFrame的格式赋给csv_data
import pandas as pd
from io import StringIO
csv_data = '''A,B,C,D
,2.0,,4.0
5.0,6.0,7.0,8.0
0.0,,12.0,'''
df = pd.read_csv(StringIO(csv_data))
print(df)
print(df.isnull().sum())
#isnull()返回一个bool型的DataFrame值，有缺失值返回True，没有返回False
#sum()方法统计缺失值个数

#在使用sklearn处理数据之前，可以通过DataFrame的value属性来访问相关的Numpy数组：
print(df.values)
print()

'''缺失值的处理方法'''
#将存在缺失值的特征或样本删除
#缺点：会丢失有价值的数据
print(df.dropna()) #删除包含缺失数据的行
print()
print(df.dropna(axis=1)) #删除包含缺失数据的列
print()
print(df.dropna(thresh = 2))
print()

#缺失数据填充
#常用的差值技术之一是：均值插补
#sklearn的Imputer类可以实现此方法。
'''
strategy = 'mean'时，首先计算各特征列的值，后取均值替换相应的NaN.
axis=1则计算相应的行；
'''
#Imputer类属于sklearn的转换器类，用于数据转换，常用方法为fit和transform
#fit用于对数据集中的参数进行识别并构建相应的数据补齐模型
#transform方法则使用刚构建的数据补齐模型对数据集中相应的参数的缺失值进行补齐。
from sklearn.preprocessing import Imputer
imr = Imputer()
imr = imr.fit(df)
Imputed_data = imr.transform(df.values)
print(Imputed_data)

猜你喜欢

转载自blog.csdn.net/lxiao428/article/details/82990272

python 机器学习之数据预处理

Python机器学习之数据预处理

机器学习之数据预处理

机器学习：数据预处理之LabelBinarier()

机器学习之数据预处理——降噪

机器学习-数据预处理（Python实现）

【机器学习】Python数据预处理（1）异常值处理

机器学习数据预处理

机器学习--数据预处理

数据预处理-机器学习

机器学习 —— 数据预处理

机器学习—数据预处理

机器学习：数据预处理

机器学习之数据预处理，Pandas读取excel数据

机器学习数据预处理：数据降维之PCA

python机器学习之sklearn分类、聚类、回归、模型选择、降维、数据预处理

机器学习 --2 特征预处理之数据将维

机器学习之特征工程-数据预处理

机器学习数据预处理之One-Hot Encoding

机器学习sklearn之数据预处理及特征选择

【机器学习之特征工程】数据预处理02

机器学习之数据预处理——缺失值

机器学习之数据预处理——缺失值填充

(二)机器学习笔记之数据预处理

【我的python机器学习之路·1】数据预处理

python机器学习：：数据预处理（1）【转】

Python机器学习（七十四）Keras 预处理数据

python机器学习—— 数据预处理 & 算法初步

机器学习中的预处理及Python实现

机器学习sklearn—数据的特征预处理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)