1.python中pandas库里的read_table和read_csv的区别
他们的默认切割符号不一样,其他,除了方法名不一样,都一样
read_table默认是'\t'(也就是tab)切割数据集的;
read_csv默认是','(也就是逗号)切割数据集的;
2.滤除缺失数据:dropna()函数
对于DataFrame,dropna()函数会丢掉所有含有空元素的数据:
但是可以指定how='all',这表示只有行里的数据全部为空时才丢弃,例如:
如果想以同样的方式按列丢弃,可以传入axis=1,例如:
3.Pandas里Groupby的apply用法
Pandas的Groupby函数即分组聚合函数,与SQL的Groupby有着异曲同工之妙,而我这里记录的是Groupby里的apply函数用法,即针对每个分组进行相应的数据处理,如下图简单的分组求和:
4.Pandas里Groupby的agg函数用法
agg函数传入一个字典,键指对应的列名,值指聚合函数如{'sum', 'count', 'mean'}之类
而当需要在原数据的index上返回结果,可以使用pandas.Groupby.transform, 这样可以将统计结果还原到组内每一条数据中
5.pandas的map
map只对一个序列而言的。
label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()
将df_train中label标签的值全部替换为数字1,2,3,4····等