导入csv文件
from pandas import read_csv
df = read_csv('路径//文件名.csv')
或:
df = read_csv('路径//文件名.csv', encoding='UTF-8')
导入文本文件
from pandas import read_table
简易方式:
df = read_table('路径名//文件名.txt')
read_table函数语法:
df = read_table('file_path', names=['列名1','列名2',...], sep=' ', encoding='', ...)
#file_path:文件路径
#names:列名,默认为文件第一行为列名
#sep:分隔符,默认为空,表示默认导入为一列
#encoding:文件编码,中文需设置UTF-8
导入excel文件
from padans import read_excel
df = read_excel('file_path', sheetname='表名', header)
导出数据
导出文本文件
- to_csv函数语法:
to_csv('file_path', sep=',', index=TRUE, header=TRUE)
#index:是否导出行序号,默认为TRUE,也就是导出行序号
#header:是否导出列名,默认为TRUE
重复值去除
- drop_duplicates()
例:
from pandas import read_csv
df = read_csv('file_path//file_name.csv')
newDf = df.drop_duplicates()
缺失值处理
- 去除空值Nan:dropna()
- 清除字符型数据左右的空格:strip()
例:
newCol1 = df['col1'].str.strip()
df['col1'] = newCol1
字段抽取
slice(star,stop)
例:
#抽取电话号码列,先将数值转换成str类型
df['tel'] = df['tel'].astype(str)
#运营商
bands = df['tel'].str.slice(0,3)
#地区
areas = df['tel'].str.slice(3,7)
#号码段
nums = df['tel'].str.slice
字段拆分
split(sep, n, expand=False)
split(分割的字符串,分割为n列,是否展开为数据框)
返回值如果expand为Ture,则返回DATaFrame,False返回Series