python利用pandas读取.data文件并对nan进行处理 - 代码天地

python利用pandas读取.data文件并对nan进行处理

其他 2020-08-03 13:40:20 阅读次数: 0

在数据挖掘的很多领域，数据内容往往以.data形式给出，因此读取data文件到矩阵中并对异常值进行处理就变得很重要了。
一个data文件的截图：
在这里插入图片描述
该data文件为一个1567 X 590的矩阵，每一行代表一个样本。
操作步骤：

读取数据到矩阵中

先直接pd.read_csv()，然后通过输出了解到数据一共有多少列。

data = pd.read_csv('manifold/secom.data', sep=' ')
print(data.shape[1])

输出590，于是我们知道了一共590列。但是这种读法默认会把第一行当成列索引。

完整读取数据

data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
data = np.array(data)

这样数据就变成了一个矩阵。

处理异常值nan

思路：求得每一列除nan以外数据的平均值，填充到这一列中是nan的地方。
求取除nan以外数据的平均值，我的思路是先把这一列转成list，然后利用np.nanmean(list)函数，跳过nan求平均值。

temp = np.array(data)[:, i].tolist()  #第i列转成list
mean = np.nanmean(temp)  #跳过nan求mean

填充

data[np.argwhere(np.isnan(data[:, i].T)), i] = mean
#argwhere用于查找满足nan的位置

完整代码：

def load_file():
   data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
   data = np.array(data)

   for i in range(data.shape[1]):
       temp = np.array(data)[:, i].tolist()
       mean = np.nanmean(temp)
       data[np.argwhere(np.isnan(data[:, i].T)), i] = mean

   return data

猜你喜欢

转载自blog.csdn.net/Cyril_KI/article/details/107733256

python利用pandas读取.data文件并对nan进行处理

python解决pandas读取nan的问题

Python_pandas：读取CSV文件、查找指定列和单元格、解决NaN问题

pandas nan值处理

Pandas之处理 NaN

python 读取.data文件

python数据处理——pandas去除有Nan的行

Python之pandas学习【4】：处理丢失的数据，NaN数据

pandas对excel遍历读取与填充：涉及多张表的保存、NAN的类型处理、NAN的处理（str类型下）

在Pandas中处理NaN值

pandas中关于nan的处理

pandas处理NaN缺失值

python利用Pandas处理excel

Python pandas读取表格时nan值判断，dataframe中nan值判断，判断表格中nan值的类型，判断数组中nan值的类型

利用Pandas对数据进行处理

【Python】Pandas读取tsv文件

pandas数组(pandas Series)-(4)NaN的处理

使用pandas进行excel文件的读取写入

[Python Debug] pandas.read_csv读取csv文件时提示：pandas.errors.ParserError: Error tokenizing data.

pandas读取csv文件进行处理时报错： TypeError: invalid type compariso

python读取文件数据并进行简单处理

pandas读取并处理csv文件

pandas.read_table读取文件后设置DataFrame列名数据变为NaN解决

pandas对列数据进行处理，将Nan变为0，将str变为0

【数据库】利用python的pandas库读取csv文件保存至mysql

《利用Python进行数据分析》第5章 pandas的数据汇总与处理缺失数据

利用Python进行数据分析_Pandas_处理缺失数据

已解决Python pandas读取Excel表格某些数值字段结果为NaN问题

使用python pandas对csv文件进行基础操作（读、添加列、读取值、保存）

在Python中pandas进行文件读取和写入方法详解

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)