我的编程笔记本

大数据清洗过程- pandas的文件读取

一般比较简单的方式就直接读取

import pandas as pd 

df = pd.read_csv('data.csv')

但是遇到比较复杂结构的文件,层级较多的情况,例如csv里面的分隔符有分号,又有逗号的时候,需要标注清楚分割方式

df = pd.read_csv('data.csv',sep = ';')

python也有自带的csv文件读取和处理的函数import csv

with open('data.csv', newline = ' ') as csvfile:
    spamreader = csv.reader(csvfile, delimiter= ' ', quotechar = '|')
headers = next(spamreader)
for row in spamreader: print(','.join(row))

还有一种选择是将数据读到dict字典里面

with open('data.csv') as f :
f_csv = csv.DictReader(f)
for row in f_csv:
#process row

如果是Excel格式, 又有点不同

import xlrd 

data = xlrd.open_workbook('Excel.xls')
#读取其中所有的工作表
print(data.sheet_names())
# 打开第一个工作表
table = data.sheet()[0]
# 获取第一个工作表的行数 
print(table.nrows)

可见对于excel 格式和csv格式的处理方式有些不同

猜你喜欢

转载自www.cnblogs.com/eileencara/p/13399091.html