利用Python进行数据初步处理 - 代码天地

利用Python进行数据初步处理

其他 2019-03-12 19:11:07 阅读次数: 0

import pandas as pd

df = pd.read_csv('路径/文件名') # 读取数据

# 查看数据信息

print(df.info())
print(df.describe())
print(df.head()) #查看表头
print(df.shape) #查看行列
print(df.dtypes) #查看数据类型
print(df["x-box"].hist()) #查看变量分布
print(df.isnull().sum()) #查看每一列缺失值情况
print(df.isnull().sum(axis=1)) #查看每一行缺失值情况
print(df["high"].value_counts()) #查看 high 这一列的值统计
print(df['high'].unique()) #查看 high 这一列数据有哪些不同的取值

# 查看特征相关性 df.corr（）皮尔森相关系数
df.corr()

# 数据预处理

# 缺失值填充
df.fillna(df.mode().iloc[0],inplace=True) #众数填充，inplace=True，修改应用于df
df.fillna(df.median()) # 中位数填充
df["high"][df.age.isnull()] = "0" #对某一列填充

# Imputer填充缺失值
from sklearn.preprocessing import Imputer
names = list(df.columns)
imp = Imputer(missing_values='NaN', strategy='mean', axis=0) # axis=0 用该列的其余数值的平均值填充空值，按行往下进行
imp2 = Imputer(missing_values='NaN', strategy='median', axis=0)
imp3 = Imputer(missing_values='NaN', strategy='most_frequent', axis=0)
df = imp.fit_transform(df) # 处理后的表为numpy格式，并且没有列名
df = pd.DataFrame(df,columns=names) # 转换成pandas格式，添加列名

# 删除不需要的字段
df.drop(['id', 'uid'], axis=1, inplace=True) # 删除id，uid字段

# 亚编码：pandas内置方法
sex = pd.get_dummies(df['性别']) # 亚编码
# 将原表中性别字段删除，拼接上亚编码以后的表，形成一个新的表
df = pd.concat([df.drop(['性别'], axis=1), sex], axis=1)

# rank()函数
df['high']=df['high'].rank()

# 连续特征离散化
df['high2']=pd.cut(df['high'],bins=[0,5,10,15,20]).astype('str')
# 连续特征按照给定的范围进行切割分类，切割以后转换成str类型的数据
df['high2']=LabelEncoder().fit_transform(df['high2'])
# 对切割后的不同范围的数据进行编码

# 降维
# PCA降维
from sklearn.decomposition import PCA
pca = PCA(n_components=2) # n_components保留维度数
pca.fit(x_test)
# LDA降维
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda = LinearDiscriminantAnalysis(n_components=2)
lda.fit(x_test, y_test)
lda.transform(x_test)

猜你喜欢

转载自blog.csdn.net/weixin_38110091/article/details/88239557

利用Python进行数据初步处理

利用Python进行数据预处理

Python学习 | Numpy 利用数组进行数据处理

利用数组进行数据处理

利用python数据分析——Numpy基础：通用函数、利用数组进行数据处理

利用Python进行数据分析

《利用Python进行数据分析》

利用python 进行数据清洗

利用python进行数据清洗

《利用Python进行数据分析》第5章 pandas的数据汇总与处理缺失数据

《利用python进行数据分析》之处理缺失数据

利用Python进行数据分析_Pandas_处理缺失数据

Python数据分析 | (11)利用NumPy数组进行数据处理

python进行数据处理与分析

《利用Python进行数据分析》第10章时区处理笔记

《利用python进行数据分析》——4.3 利用数组进行数据处理——np.meshgrid方法——读书笔记

利用python进行数据分析——第二章引言（1）：利用pandas对MovieLens数据集简单处理

Python图书之《利用Python进行数据分析》

【利用python进行数据分析】附录A Python 学习

python学习日记——利用python进行数据分析

利用Python进行数据分析——数据清洗与准备

利用Python进行数据分析---数据规整化

《利用Python进行数据分析》电影数据

《利用Python进行数据分析》 12.1 分类数据

利用Python进行数据分析——Ipython

pandas-利用python进行数据分析

利用Python进行数据分析——pandas入门

《利用Python进行数据分析》笔记二

《利用python进行数据分析》读书笔记

思维导图-利用Python进行数据分析

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)