Python 文件导入 数据导出 数据去重drop_duplicates 去空值dropna 去空格strip 字段抽取slice 拆分split

导入csv文件

from pandas import read_csv

df = read_csv('路径//文件名.csv')

或:

df = read_csv('路径//文件名.csv', encoding='UTF-8')


导入文本文件

from pandas import read_table

简易方式:

df = read_table('路径名//文件名.txt')

read_table函数语法:

df = read_table('file_path', names=['列名1','列名2',...], sep=' ', encoding='', ...)

#file_path:文件路径

#names:列名,默认为文件第一行为列名

#sep:分隔符,默认为空,表示默认导入为一列

#encoding:文件编码,中文需设置UTF-8


导入excel文件

from padans import read_excel

df = read_excel('file_path', sheetname='表名', header)


导出数据

导出文本文件

  • to_csv函数语法:

to_csv('file_path', sep=',', index=TRUE, header=TRUE)

#index:是否导出行序号,默认为TRUE,也就是导出行序号

#header:是否导出列名,默认为TRUE


重复值去除

  • drop_duplicates()

例:

from pandas import read_csv

df = read_csv('file_path//file_name.csv')

newDf = df.drop_duplicates()


缺失值处理

  • 去除空值Nan:dropna()
  • 清除字符型数据左右的空格strip()

例:

newCol1 = df['col1'].str.strip()

df['col1'] = newCol1


字段抽取

slice(star,stop)

例:

#抽取电话号码列,先将数值转换成str类型

df['tel'] = df['tel'].astype(str)

#运营商

bands = df['tel'].str.slice(0,3)

#地区

areas = df['tel'].str.slice(3,7)

#号码段

nums = df['tel'].str.slice

字段拆分

split(sep, n, expand=False)

split(分割的字符串,分割为n列,是否展开为数据框)

返回值如果expand为Ture,则返回DATaFrame,False返回Series



猜你喜欢

转载自blog.csdn.net/weixin_41471128/article/details/80445777
今日推荐