Python 文件导入数据导出数据去重drop_duplicates 去空值dropna 去空格strip 字段抽取slice 拆分split

导入csv文件

from pandas import read_csv

df = read_csv('路径//文件名.csv')

或：

df = read_csv('路径//文件名.csv', encoding='UTF-8')

导入文本文件

from pandas import read_table

简易方式：

df = read_table('路径名//文件名.txt')

read_table函数语法：

df = read_table('file_path', names=['列名1','列名2',...], sep=' ', encoding='', ...)

#file_path：文件路径

#names：列名，默认为文件第一行为列名

#sep：分隔符，默认为空，表示默认导入为一列

#encoding：文件编码，中文需设置UTF-8

导入excel文件

from padans import read_excel

df = read_excel('file_path', sheetname='表名', header)

导出数据

导出文本文件

to_csv函数语法：

to_csv('file_path', sep=',', index=TRUE, header=TRUE)

#index：是否导出行序号，默认为TRUE，也就是导出行序号

#header：是否导出列名，默认为TRUE

重复值去除

drop_duplicates()

例：

from pandas import read_csv

df = read_csv('file_path//file_name.csv')

newDf = df.drop_duplicates()

缺失值处理

去除空值Nan：dropna()

清除字符型数据左右的空格：strip()

例：

newCol1 = df['col1'].str.strip()

df['col1'] = newCol1

字段抽取

slice(star,stop)

例：

#抽取电话号码列，先将数值转换成str类型

df['tel'] = df['tel'].astype(str)

#运营商

bands = df['tel'].str.slice(0,3)

#地区

areas = df['tel'].str.slice(3,7)

#号码段

nums = df['tel'].str.slice

字段拆分

split(sep, n, expand=False)

split(分割的字符串，分割为n列，是否展开为数据框)

返回值如果expand为Ture，则返回DATaFrame，False返回Series

Python 文件导入 数据导出 数据去重drop_duplicates 去空值dropna 去空格strip 字段抽取slice 拆分split