pandas与data.table比较和常用操作整理

在对数据表进行日常操作时,有一些操作是经常用到的,记录如下:
1.输入:从文件读取数据/从头创建一个dataframe
pd.DataFrame(data,index=[list],columns=[list])

2.修改列名、索引列
a.columns = [your list here]
DataFrame可以通过set_index方法,可以设置单索引和复合索引。
3.切片操作
df可以[]直接切片,不过规则比较混乱
http://www.cnblogs.com/daozhongshu/archive/2018/04/30/8973439.html
loc使用标签来索引数据
iloc使用数字来索引数据
ix是一种混合索引,字符型标签和整型数据索引都可以,不过这个方法已经废弃。
df.loc[[0, 1, 10, 100], [‘country’, ‘province’, ‘region_1’, ‘region_2’]] ##根据index和column名字选取。左闭右开
#使用iloc函数选取第3行到第5行与第3列到第5列的数据
df.iloc[3:5,3:5] ##根据index和column用数字表示的位置选取 双侧开

4.类sql查询操作
5.新增,删除,修改列
pd.concat([df, pd.DataFrame(columns=list(‘DE’))]) #新增列
df[‘newcolumn’]=None
6.分类汇总
df.groupby
7.输出到文件/数据库

猜你喜欢

转载自blog.csdn.net/kekefen01/article/details/84840389