大数据清洗过程- pandas的文件读取
一般比较简单的方式就直接读取
import pandas as pd
df = pd.read_csv('data.csv')
但是遇到比较复杂结构的文件,层级较多的情况,例如csv里面的分隔符有分号,又有逗号的时候,需要标注清楚分割方式
df = pd.read_csv('data.csv',sep = ';')
python也有自带的csv文件读取和处理的函数import csv
with open('data.csv', newline = ' ') as csvfile: spamreader = csv.reader(csvfile, delimiter= ' ', quotechar = '|')
headers = next(spamreader) for row in spamreader: print(','.join(row))
还有一种选择是将数据读到dict字典里面
with open('data.csv') as f :
f_csv = csv.DictReader(f)
for row in f_csv:
#process row
如果是Excel格式, 又有点不同
import xlrd data = xlrd.open_workbook('Excel.xls') #读取其中所有的工作表 print(data.sheet_names()) # 打开第一个工作表 table = data.sheet()[0] # 获取第一个工作表的行数 print(table.nrows)
可见对于excel 格式和csv格式的处理方式有些不同