pandas数据分析读书笔记(二)

pd.isnull(df),返回空的值为True,非空值为False

最常用的数据加载函数有:Read_csv()与read_table()

Pd.read_table(sep=),如果是csv文件,也可以用read_table函数来读取,只是需要设定分隔符sep

Pd.read_csv(header = None, name)

header参数,当文件没有标题行时,可以设置这个参数为None

Names参数,读取文件时,可以指定列名

Index_col参数,可以指定某列为DataFrame的索引,也可以传入一个列表,则会做成一个层次化索引,也可以是编号

skiprows跳过文件的某行,比如skiprows[0, 2, 3],则跳过文件的第一行、第三行和第四行

Parse_dates,将数据解析为日期,默认为False,如果为True,则尝试解析所有列

Nrows,需要读取的行数

skip_footer,需要忽略的行数,从文件末尾处算起

Chunksize,逐块读取文件,该参数用于指定块大小,返回的是一个迭代器,每次都根据chunksize读取一小块

 

Df.to_csv(),这个函数用于将数据写到一个csv文件中。

参数如下:

Na_rep,将空字符串表示为别的标记值

Index,是否写入索引

Header,是否写入列名

Columns,传入列名列表,可以指定列输出的顺序

 

Json库

Json.loads(),将json字符串转化为python形式

Json.dumps(),将python对象转换为JSON形式

 

Pd.read_json(),将json文件读取为DataFrame

Df.to_json(),将数据输出到json

 

Pd.read_excel(sheet_name = ),读取excel文件,sheet_name参数是读取哪个sheet页

Frame.to_excel(sheet_name),将数据存储到excel文件中

 

Df.isnull(),返回一个只有True和False的df,如果df的值为空,则对应的为True

Df.notnull(),与isnull的反义词

Df.dropna(axis = 0, how = ),删除缺失值,如果是DdataFrame对象,那会删除含有空的行或者烈,默认是丢弃含有缺失值的行,当传入axis = 1时,删除有空的列,how=’all’只删除全部为空的那些行,

Df.fillna(value = , method=, inplace = , axis = 0, inpalce = False, limit),填充缺失数据,可以通过method进行填充,可以用ffil和bfill,ffil是向前填充,bfill是向后填充,还可以传入一个字典,实现根据不同的列填充不同的值,还可以传入inplace参数为True,即对现有的对象进行本地修改,还可以传入平均数等等

Df.duplicated(),返回一个布尔型的Series,表示各行是否有重复行

Df.drop_duplicates(),删除重复的行,也根据某列获多列删除重复项,传入列名即可

猜你喜欢

转载自blog.csdn.net/u012724887/article/details/107035545