Python数据分析_Pandas学习__1

结构：

DataFrame是一个类似于表格的数据类型，如图：

参数：

data（方框内的数据）: numpy ndarray (structured or homogeneous), dict, or DataFrame

index（行索引索引） : Index or array-like

columns （列索引）: Index or array-like

dtype（data的数据类型） : dtype, default None

DataFrame的相关操作

创建：

# 新建对象
df = pd.DataFrame([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e'])
df2 = pd.DataFrame([[1, 2, 3],[4, 5, 6]], columns=['col1','col2','col3'], index=['a','b'])
df2结果：
   col1  col2  col3
a     1     2     3
b     4     5     6

# 从csv文件中读取数据   
df = pd.read_csv("iris.csv",  
                 sep=',',
                 names=["A","B","C","D"])
# 从excel中读取数据    
df = pd.read_excel("iris.xlsx",
                   sheetname='XXXX',
                   header=True)

常用api

展示行、列

loc    list of colum
# 索引为ａ这一行的数据
df2.loc['a']   
# 结果    
col1    1
col2    2
col3    3
print df2.loc[['a','b']]
# 结果
    col1  col2  col3
a     1     2     3
b     4     5     6
print df.loc[df.index[1:3]]
#结果
   cols
b     2
c     3

# 访问列数据
print df2[['col1','col3']]
# 结果
   col1  col3
a     1     3
b     4     6

计算

# DataFrame元素求和
# 默认是对每列元素求和
print df2.sum()
#结果
col1    5
col2    7
col3    9

# 行求和
print df2.sum(1)
#结果
a     6
b    15
dtype: int64
    
# 对每个元素乘以２
print df2.apply(lambda x:x*2)

合并

df_a = pd.DataFrame(['wang','jing','hui','is','a','master'],columns=['col6'],index=['a','b','c','d','e','f'])

dfb = pd.DataFrame([1,2,4,5,6,7],columns=['col1'],index=['a','b','c','d','f','g'])

# 默认合并之接受索引已经存在的值
# 通过指定参数 how，指定合并的方式
print dfb.join(df_a,how='inner')   # 合并两个DataFrame对象的交集
# 结果 
   col1    col6
a     1    wang
b     2    jing
c     4     hui
d     5      is
f     6  master

print dfb.join(df_a,how='outer')
#结果
   col1    col6
a   1.0    wang
b   2.0    jing
c   4.0     hui
d   5.0      is
e   NaN       a
f   6.0  master
g   7.0     NaN

Python数据分析_Pandas学习__1

结构：

参数：

DataFrame的相关操作

创建：

常用api

展示行、列

计算

合并

猜你喜欢