【数据挖掘】——pandas中Series和Dataframe

一、Series

类似numpy中的一维数组，但series更灵活，可以自定义索引。

是一个二维表，可存储不同类型的数据

创建二维数组：①直接创建：pd.DataFrame([[‘1’,‘2’,‘3’],[‘4’,‘5’,‘6’]]])
②通过二维数组创建：m=np.random.randint(0,10,(3,3))
m=DataFrame(m,index=[1,2,3],columns=[‘a’,‘b’,‘c’])
③通过字典创建: dict={‘name’:[‘t’,‘r’,‘y’],‘score’:[‘1’,‘2’,‘3’]})
m=pd.Dataframe(dict)或m=pd.Dataframe.from_dict(dict)
字典的key转换为列索引；字典中每个key对应值个数不同时，转化后，没有值的位置返回nan
获取行、列数：m.shape()
获取行索引：m.index.tolist()
获取列索引：m.columns.tolist()
获取数据类型：m.dtypes
返回数组信息：m.info()
获取前几行：m.head()
获取后几行：m.tail()
获取某一列：m[‘索引名’]返回的是一个Series
获取多列：m[ [ ‘索引名1’, ‘索引名2’ ] ] 返回的是一个DataFrame
获取多行：m[0:2]使用切片
获取多行多列：m[0:2] [ [ ‘索引名1’, ‘索引名2’ ] ]
m.iloc[1:3,2:5]通过位置信息提取
m.loc[[1,2],[‘b’,’c’]]通过索引信息提取

①删除缺失值

Series：
删除nan：s.dropna( )
返回不为空的值：s.notnull( )返回值为布尔值
过滤空值：s [ s.notnull( ) ]

Dataframe ：

m.dropna(axis=1,how=‘any’) 默认只要包含nan则删除整行，axis表示按列/列判断，how表示是全部为nan时删除/只要包含一个nan即删除
m.dropna(thresh=1) 只要有1个元素不是nan就保留

②填充空缺值：

m.fillna(m.mean(),inplace=True)inplace表示是否在原数据上修改，或返回一个新的数组

填充方式：

判断是否重复：m.drop_duplicated( )返回布尔值
去除重复值：m.drop_duplicates( )
指定列去除重复值：m.drop_duplicates([‘索引名’] ，inplace=True,keep=last)keep代表重复值中保留哪一个

m.join(n,how=‘left’)针对行操作， how表示连接方式：left、right、outer。选择left时，以m为主，选择outer时，所有元素均含有。
pd.merge(m,n,how=‘left’)针对列操作,类似数据库操作