早上把经管的同学处理一些表格数据,遇到一些问题,总结一下。
拿到的数据类型如下所示:
#导入所需包
import os
import matplotlib.pyplot as plt
import numpy as np
import xlrd
import pandas as pd
from datetime import datetime
from pandas import Series,DataFrame
首先利用pandas打开Excel看看数据类型等表格信息。
df = pd.read_excel('resume.xlsx') #打开Excel表格
print(df) #打印所有数据
print(df.shape) #打印表格大小
print(df.dtypes) #打印表格各列数据类型
print(df.head(5)) #打印前五行数据
f = open('data.txt','w',encoding='utf-8') #打开data.txt文件,并以汉字字符写入
from xlrd import open_workbook
wb=open_workbook(r'resume.xlsx')
tb=wb.sheets()[0]
data=[]
for r in range(tb.nrows):
val=[]
for c in range(tb.ncols):
val.append(tb.cell_value(r,c))
f.write(str(val)+'\n')
data.append(tuple(val))
f.close()
这时data.txt文件就写入数据了
因为数据中出现很多缺值需要对数据进行清洗,pandas里有一些函数可以帮助我们清洗数据。
删除空值 (dropna函数)
填充空值(fillna函数)