pandas读取列数不同的CSV文件 - 代码天地

pandas读取列数不同的CSV文件

企业开发 2023-09-20 20:34:34 阅读次数: 0

使用pandas读取每行不同列的CSV文件

对于序列模型而言，每条数据的大小都不一定相等，但对于一般的神经网络要求输入大小相等。目前的一种方法是选取当前数据集中最大长度的数据作为基准数据大小，其余的数据末尾补零来规范整个数据集每条数据的大小。

本文重点关注小规模的CSV数据集，通过pandas读取每行不同列的CSV文件，最终生成神经网络可以使用的数据

PS: 本文仅具有一般性，对于特定的数据集，还需要具体问题具体分析！！

如图：

遍历train、test文件，获取最大列数据largest_colum

train_path = 'train.csv'
test_path = 'test.csv'
largest_colum = 0  # 数据集中最大的列数
with open(train_path, 'r') as f:  # 遍历train.csv, 获取训练集中的最大列数
    datas = f.readlines()
    for i, l in enumerate(datas):
        largest_colum = largest_colum if largest_colum > len(l.split(',')) + 1 else len(l.split(',')) + 1

with open(test_path, 'r') as f:  # 编列test.csv, 获取测试集中的最大列数
    datas = f.readlines()
    for i, l in enumerate(datas):
        largest_colum = largest_colum if largest_colum > len(l.split(',')) + 1 else len(l.split(',')) + 1

抛弃原有csv的列索引，使用largest_colum作为索引读取csv文件

col_name = [i for i in range(largest_colum)]  # 生成CSV数据每一列的索引
train_data = pd.read_csv(train_path, header=None, sep=',', names=col_name,  engin='python')
train_data = pd.read_csv(test_path, header=None, sep=',', names=col_name,  engin='python')

读出后数据为：

将末尾不够长的数据填充为0（不一定必须是0，要与数据集中原有数据区分开）
```
train_data = train_data.fillna(-1)
test_data = test_data.fillna(-1)
```

将pandas矩阵转化为torch tensor

train_features = torch.tensor(train_data, dtype=torch.float32)
test_features = torch.tensor(test_data, dtype=torch.float32)

猜你喜欢

转载自blog.csdn.net/qq_44733706/article/details/130202164

pandas读取列数不同的CSV文件

生成的数据集，csv文件列数不同，无法正常读取的解决方法

pandas.read_csv()函数读取文件时，关于“header=None”影响读取列数区间的右闭合总结

pandas读取csv文件

【自用】 pandas 读取 CSV 文件

Pandas读取Excel 、CSV文件

Pandas 读取，写入csv文件

Pandas——读取csv,txt文件

Pandas读取txt/csv文件

pandas写入读取csv文件

pandas.read_csv() 读取csv文件

python pandas 把数据保存成csv文件，以及读取csv文件获取指定行、指定列数据

使用python pandas对csv文件进行基础操作（读、添加列、读取值、保存）

Python_pandas：读取CSV文件、查找指定列和单元格、解决NaN问题

python pandas.read_csv()读取csv文件，第一列数据作为index(索引)的解决办法

Python-利用xlrd、numpy、pandas读取excel文件某行某列的数据（.csv文件）（.xls文件）

pandas读取并处理csv文件

CSV文件的读取，TensorFlow和pandas

怎么使用pandas读取较大的CSV文件

Pandas读取路径包含中文的csv文件

Pandas读取csv文件报错UnicodeDecodeError

pandas读取文件的read_csv()

解决pandas读取csv文件出错的问题

Pandas read_csv 少读取一列的问题

Python 读取文件列数

pandas批量读取csv文件获取某一行某一列的固定值

python-pandas读取mongodb、读取csv文件

pandas批量读取csv文件--按行索引读取

pandas分段读取csv

pandas读取csv

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)