1.python中pandas库里的read_table和read_csv的区别

他们的默认切割符号不一样,其他,除了方法名不一样,都一样

read_table默认是'\t'(也就是tab)切割数据集的;

read_csv默认是','(也就是逗号)切割数据集的;

2.滤除缺失数据：dropna()函数

对于DataFrame，dropna()函数会丢掉所有含有空元素的数据:

但是可以指定how='all'，这表示只有行里的数据全部为空时才丢弃，例如：

如果想以同样的方式按列丢弃，可以传入axis=1，例如：

3.Pandas里Groupby的apply用法

Pandas的Groupby函数即分组聚合函数，与SQL的Groupby有着异曲同工之妙，而我这里记录的是Groupby里的apply函数用法，即针对每个分组进行相应的数据处理，如下图简单的分组求和:

4.Pandas里Groupby的agg函数用法

agg函数传入一个字典，键指对应的列名，值指聚合函数如{'sum', 'count', 'mean'}之类

而当需要在原数据的index上返回结果，可以使用pandas.Groupby.transform, 这样可以将统计结果还原到组内每一条数据中

5.pandas的map

map只对一个序列而言的。

label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

将df_train中label标签的值全部替换为数字1,2,3,4····等

goodlovingz

发布了33 篇原创文章 · 获赞 43 · 访问量 8万+

私信关注

Pandas大全（一直补充）3