pandas层次化索引

1. 创建多层行索引

import numpy as np

1) 隐式构造

最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

Series也可以创建多层索引

s = Series(data=[100,98,89,90],

张三  期中  a    100
    期末  b     98
李四  期中  a     89
    期末  b     90
dtype: int64

df = DataFrame(data=[100,98,89,90],

df1 = DataFrame(data=np.random.randint(0,150,size=(4,4)),

df1.index

MultiIndex(levels=[['张三', '李四'], ['期中', '期末'], ['a', 'b']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1], [0, 1, 0, 1]])

2) 显示构造pd.MultiIndex

使用数组

# 创建一个多层索引

MultiIndex(levels=[['a', 'b'], ['一单元', '三单元', '二单元']],
           labels=[[0, 0, 0, 1, 1, 1], [0, 2, 1, 0, 2, 1]])

# 用上面的多层索引创建一个df

df = DataFrame(np.random.randint(0,150,size=(1,6)),index=["python"],

使用tuple

mindex = pd.MultiIndex.from_tuples([("河南","郑州"),

MultiIndex(levels=[['北京', '四川', '山东', '江苏', '河北', '河南'], ['南京', '天安门', '成都', '洛阳', '济南', '石家庄', '郑州']],
           labels=[[5, 5, 2, 4, 0, 1, 3], [6, 3, 4, 5, 1, 2, 0]])

df = DataFrame(np.random.randint(1,100,size=(7,1)),index=mindex,

使用product
最简单，推荐使用

mindex = pd.MultiIndex.from_product([["河南","山东"],['郑州','济南']])

MultiIndex(levels=[['山东', '河南'], ['济南', '郑州']],
           labels=[[1, 1, 0, 0], [1, 0, 1, 0]])

df = DataFrame(np.random.randint(0,100,size=(4,1)),index=mindex)

sindex = pd.MultiIndex.from_product([["张三","李四"],["期中","期末"],

MultiIndex(levels=[['张三', '李四'], ['期中', '期末'], ['月考一', '月考三', '月考二']],
           labels=[[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1], [0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1], [0, 2, 1, 0, 2, 1, 0, 2, 1, 0, 2, 1]])

df = DataFrame(np.random.randint(0,150,size=(12,1)),index=sindex)

============================================

练习8：

创建一个DataFrame，表示出张三李四期中期末各科成绩

============================================

2. 多层列索引

除了行索引index，列索引columns也能用同样的方法创建多层索引

# 参照多层行索引

​

3. 多层索引对象的索引与切片操作

1）Series的操作

【重要】对于Series来说，直接中括号[]与使用.loc()完全一样，因此，推荐使用中括号索引和切片。

(1) 索引

s

张三  期中  a    100
    期末  b     98
李四  期中  a     89
    期末  b     90
dtype: int64

s["张三"]["期末"]["b"]

98

s["张三","期中","a"]

100

s[["张三","期中","afdsa","李四","李四"]]

张三  期中  a    100
    期末  b     98
李四  期中  a     89
    期末  b     90
dtype: int64

​

(2) 切片

s.loc["张三":"李四","期中":"期末"]

张三  期中  a    100
    期末  b     98
李四  期中  a     89
    期末  b     90
dtype: int64

s.iloc[0:4]

张三  期中  a    100
    期末  b     98
李四  期中  a     89
    期末  b     90
dtype: int64

2）DataFrame的操作

(1) 可以直接使用列名称来进行列索引

(2) 使用行索引需要用ix()，loc()等函数

【极其重要】推荐使用loc()函数

注意在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须让二级索引变成一级索引后才能对其进行索引！

sindex = pd.MultiIndex.from_product([["张三","李四"],["期中","期末"],

df["python"]["张三"]

期中  月考一     13
    月考二      5
    月考三    109
期末  月考一    140
    月考二     74
    月考三    143
Name: python, dtype: int32

df[["python"]].loc["张三","期中"]

df.loc["张三","期中",'月考一']

python     13
java      148
UI         80
Name: (张三, 期中, 月考一), dtype: int32

df.loc[["张三","期中",'月考一',"李四"]]

df.loc["张三":"李四"]

df.iloc[0:4]

============================================

练习9：

分析比较Series和DataFrame各种索引的方式，熟练掌握.loc()方法
假设张三再一次在期中考试的时候因为特殊原因放弃英语考试，如何实现？

============================================

​

4. 索引的堆（stack）

stack()
unstack()

df

df1 = df.unstack(level=2)

df1.stack(level=1)

【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。

【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

============================================

练习10：

使用unstack()将ddd变为两行，分别为期中期末
使用unstack()将ddd变为四行，分别为四个科目

============================================

5. 聚合操作

【注意】

需要指定axis
【小技巧】和unstack()相反，聚合的时候，axis等于哪一个，哪一个就保留。

所谓的聚合操作：平均数，方差，最大值，最小值……

df

df.div(10)

df.divide(10,axis=1)

df.sum(axis=1)

张三  期中  月考一    241
        月考二     67
        月考三    301
    期末  月考一    334
        月考二    193
        月考三    247
李四  期中  月考一    193
        月考二    295
        月考三    304
    期末  月考一    217
        月考二    253
        月考三      9
dtype: int64

df.std(axis=0)

python    61.193186
java      50.792731
UI        36.239419
dtype: float64

df.where(df>50,other=0) # 这个函数是根据条件来过滤

============================================

练习11：

计算各个科目期中期末平均成绩
计算各科目张三李四的最高分

============================================

​

			python	java	UI
张三	期中	月考一	1.3	14.8	8.0
		月考二	0.5	1.5	4.7
		月考三	10.9	7.0	12.2
	期末	月考一	14.0	13.7	5.7
		月考二	7.4	3.6	8.3
		月考三	14.3	5.4	5.0
李四	期中	月考一	0.0	14.0	5.3
		月考二	14.7	5.5	9.3
		月考三	12.4	4.3	13.7
	期末	月考一	13.9	2.3	5.5
		月考二	10.3	9.9	5.1
		月考三	0.3	0.3	0.3

			python	java	UI
张三	期中	月考一	1.3	14.8	8.0
		月考二	0.5	1.5	4.7
		月考三	10.9	7.0	12.2
	期末	月考一	14.0	13.7	5.7
		月考二	7.4	3.6	8.3
		月考三	14.3	5.4	5.0
李四	期中	月考一	0.0	14.0	5.3
		月考二	14.7	5.5	9.3
		月考三	12.4	4.3	13.7
	期末	月考一	13.9	2.3	5.5
		月考二	10.3	9.9	5.1
		月考三	0.3	0.3	0.3

pandas（三）pandas层次化索引

pandas层次化索引

1. 创建多层行索引

1) 隐式构造

2) 显示构造pd.MultiIndex

2. 多层列索引

3. 多层索引对象的索引与切片操作

1）Series的操作

2）DataFrame的操作

4. 索引的堆（stack）

5. 聚合操作

猜你喜欢

			后台		前端
			python	java	H5	jQuery
张三	期中	a	4	108	55	28
张三	期末	b	141	134	27	82
李四	期中	a	56	144	88	65
李四	期末	b	29	100	43	67

		python
a	一单元	89
	二单元	9
	三单元	128
b	一单元	6
	二单元	62
	三单元	22

		收入（万）
河南	郑州	75
河南	洛阳	42
山东	济南	11
河北	石家庄	30
北京	天安门	34
四川	成都	1
江苏	南京	2