Pandas大全(一直补充)3

1.python中pandas库里的read_table和read_csv的区别

他们的默认切割符号不一样,其他,除了方法名不一样,都一样

       read_table默认是'\t'(也就是tab)切割数据集的;

       read_csv默认是','(也就是逗号)切割数据集的;

2.滤除缺失数据:dropna()函数

对于DataFrame,dropna()函数会丢掉所有含有空元素的数据:

但是可以指定how='all',这表示只有行里的数据全部为空时才丢弃,例如:

如果想以同样的方式按列丢弃,可以传入axis=1,例如:

3.Pandas里Groupby的apply用法

Pandas的Groupby函数即分组聚合函数,与SQL的Groupby有着异曲同工之妙,而我这里记录的是Groupby里的apply函数用法,即针对每个分组进行相应的数据处理,如下图简单的分组求和:

4.Pandas里Groupby的agg函数用法

agg函数传入一个字典,键指对应的列名,值指聚合函数如{'sum', 'count', 'mean'}之类

而当需要在原数据的index上返回结果,可以使用pandas.Groupby.transform, 这样可以将统计结果还原到组内每一条数据中

5.pandas的map

map只对一个序列而言的。

label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

将df_train中label标签的值全部替换为数字1,2,3,4····等

发布了33 篇原创文章 · 获赞 43 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/qq_31967985/article/details/81633025