5. 使用 Pandas 进行类 SQL 操作¶

5.1 新增¶

# 新增行或列
add = [{'Name': 'Alice', 'Age': 15, 'Gender': 'F', 'Height': 130, 'Weight': 88}, 
       {'Name': 'James', 'Age': 13, 'Gender': 'M', 'Height': 100, 'Weight': 120}]
df = pd.DataFrame(add)
print(df, '\n')


print(pd.concat([students, df]))

    Name  Age Gender  Height  Weight
0  Alice   15      F     130      88
1  James   13      M     100     120 

       Name  Age Gender  Height  Weight
0    Alfred   14      M    69.0   112.5
1     Alice   13      F    56.5    84.0
2   Barbara   13      F    65.3    98.0
3     Carol   14      F    62.8   102.5
4     Henry   14      M    63.5   102.5
5     James   12      M    57.3    83.0
6      Jane   12      F    59.8    84.5
7     Janet   15      F    62.5   112.5
8   Jeffrey   13      M    62.5    84.0
9      John   12      M    59.0    99.5
10    Joyce   11      F    51.3    50.5
11     Judy   14      F    64.3    90.0
12   Louise   12      F    56.3    77.0
13    Marry   15      F    66.5   112.0
14   Philip   16      M    72.0   150.0
15   Robert   12      M    64.8   128.0
16   Ronald   15      M    67.0   133.0
17   Thomas   11      M    57.5    85.0
18   Willam   15      M    66.5   112.0
0     Alice   15      F   130.0    88.0
1     James   13      M   100.0   120.0

# 重建索引
print(pd.concat([students, df], ignore_index=True))

       Name  Age Gender  Height  Weight
0    Alfred   14      M    69.0   112.5
1     Alice   13      F    56.5    84.0
2   Barbara   13      F    65.3    98.0
3     Carol   14      F    62.8   102.5
4     Henry   14      M    63.5   102.5
5     James   12      M    57.3    83.0
6      Jane   12      F    59.8    84.5
7     Janet   15      F    62.5   112.5
8   Jeffrey   13      M    62.5    84.0
9      John   12      M    59.0    99.5
10    Joyce   11      F    51.3    50.5
11     Judy   14      F    64.3    90.0
12   Louise   12      F    56.3    77.0
13    Marry   15      F    66.5   112.0
14   Philip   16      M    72.0   150.0
15   Robert   12      M    64.8   128.0
16   Ronald   15      M    67.0   133.0
17   Thomas   11      M    57.5    85.0
18   Willam   15      M    66.5   112.0
19    Alice   15      F   130.0    88.0
20    James   13      M   100.0   120.0

print(pd.DataFrame(students, columns=['Name', 'Age', 'Gender', 'Height', 'Weight', 'score']))

       Name  Age Gender  Height  Weight  score
0    Alfred   14      M    69.0   112.5    NaN
1     Alice   13      F    56.5    84.0    NaN
2   Barbara   13      F    65.3    98.0    NaN
3     Carol   14      F    62.8   102.5    NaN
4     Henry   14      M    63.5   102.5    NaN
5     James   12      M    57.3    83.0    NaN
6      Jane   12      F    59.8    84.5    NaN
7     Janet   15      F    62.5   112.5    NaN
8   Jeffrey   13      M    62.5    84.0    NaN
9      John   12      M    59.0    99.5    NaN
10    Joyce   11      F    51.3    50.5    NaN
11     Judy   14      F    64.3    90.0    NaN
12   Louise   12      F    56.3    77.0    NaN
13    Marry   15      F    66.5   112.0    NaN
14   Philip   16      M    72.0   150.0    NaN
15   Robert   12      M    64.8   128.0    NaN
16   Ronald   15      M    67.0   133.0    NaN
17   Thomas   11      M    57.5    85.0    NaN
18   Willam   15      M    66.5   112.0    NaN

5.2 删除¶

# 删除行
print(students.drop([2, 3, 5]))

       Name  Age Gender  Height  Weight
0    Alfred   14      M    69.0   112.5
1     Alice   13      F    56.5    84.0
4     Henry   14      M    63.5   102.5
6      Jane   12      F    59.8    84.5
7     Janet   15      F    62.5   112.5
8   Jeffrey   13      M    62.5    84.0
9      John   12      M    59.0    99.5
10    Joyce   11      F    51.3    50.5
11     Judy   14      F    64.3    90.0
12   Louise   12      F    56.3    77.0
13    Marry   15      F    66.5   112.0
14   Philip   16      M    72.0   150.0
15   Robert   12      M    64.8   128.0
16   Ronald   15      M    67.0   133.0
17   Thomas   11      M    57.5    85.0
18   Willam   15      M    66.5   112.0

# 删除列
print(students.drop(columns=['Age']))

       Name Gender  Height  Weight
0    Alfred      M    69.0   112.5
1     Alice      F    56.5    84.0
2   Barbara      F    65.3    98.0
3     Carol      F    62.8   102.5
4     Henry      M    63.5   102.5
5     James      M    57.3    83.0
6      Jane      F    59.8    84.5
7     Janet      F    62.5   112.5
8   Jeffrey      M    62.5    84.0
9      John      M    59.0    99.5
10    Joyce      F    51.3    50.5
11     Judy      F    64.3    90.0
12   Louise      F    56.3    77.0
13    Marry      F    66.5   112.0
14   Philip      M    72.0   150.0
15   Robert      M    64.8   128.0
16   Ronald      M    67.0   133.0
17   Thomas      M    57.5    85.0
18   Willam      M    66.5   112.0

# 删除 14 岁以下的女生, 就是筛选出 14岁以上或14岁以下的男生
print(students[(students['Age'] >= 14) | ((students['Age'] < 14) & (students['Gender'] == 'M')) ])

       Name  Age Gender  Height  Weight
0    Alfred   14      M    69.0   112.5
3     Carol   14      F    62.8   102.5
4     Henry   14      M    63.5   102.5
5     James   12      M    57.3    83.0
7     Janet   15      F    62.5   112.5
8   Jeffrey   13      M    62.5    84.0
9      John   12      M    59.0    99.5
11     Judy   14      F    64.3    90.0
13    Marry   15      F    66.5   112.0
14   Philip   16      M    72.0   150.0
15   Robert   12      M    64.8   128.0
16   Ronald   15      M    67.0   133.0
17   Thomas   11      M    57.5    85.0
18   Willam   15      M    66.5   112.0

5.3 修改¶

# 将 James 的身高修改为 1000
students.loc[students['Name'] == 'James', 'Height'] = 1000
print(students[students['Name'] == 'James'])

    Name  Age Gender  Height  Weight
5  James   12      M  1000.0    83.0

5.4 查询，即筛选¶

5.5 聚合¶

print(students.groupby('Gender').count())

        Name  Age  Height  Weight
Gender                           
F          9    9       9       9
M         10   10      10      10

print(students.drop('Age', axis=1).groupby('Gender').mean())

            Height      Weight
Gender                        
F        60.588889   90.111111
M       158.180000  108.950000

print(students.groupby(['Gender', 'Age']).mean())

            Height  Weight
Gender Age                
F      11    51.30   50.50
       12    58.05   80.75
       13    60.90   91.00
       14    63.55   96.25
       15    64.50  112.25
M      11    57.50   85.00
       12   374.60  103.50
       13    62.50   84.00
       14    66.25  107.50
       15    66.75  122.50
       16    72.00  150.00

5.6 排序 sort_index 和 sort_values¶

# 先按年龄，再按身高排序
print(students.sort_values(by=['Age', 'Height']))

       Name  Age Gender  Height  Weight
10    Joyce   11      F    51.3    50.5
17   Thomas   11      M    57.5    85.0
12   Louise   12      F    56.3    77.0
9      John   12      M    59.0    99.5
6      Jane   12      F    59.8    84.5
15   Robert   12      M    64.8   128.0
5     James   12      M  1000.0    83.0
1     Alice   13      F    56.5    84.0
8   Jeffrey   13      M    62.5    84.0
2   Barbara   13      F    65.3    98.0
3     Carol   14      F    62.8   102.5
4     Henry   14      M    63.5   102.5
11     Judy   14      F    64.3    90.0
0    Alfred   14      M    69.0   112.5
7     Janet   15      F    62.5   112.5
13    Marry   15      F    66.5   112.0
18   Willam   15      M    66.5   112.0
16   Ronald   15      M    67.0   133.0
14   Philip   16      M    72.0   150.0

# 降序
print(students.sort_values(by=['Age', 'Height'], ascending=False))

       Name  Age Gender  Height  Weight
14   Philip   16      M    72.0   150.0
16   Ronald   15      M    67.0   133.0
13    Marry   15      F    66.5   112.0
18   Willam   15      M    66.5   112.0
7     Janet   15      F    62.5   112.5
0    Alfred   14      M    69.0   112.5
11     Judy   14      F    64.3    90.0
4     Henry   14      M    63.5   102.5
3     Carol   14      F    62.8   102.5
2   Barbara   13      F    65.3    98.0
8   Jeffrey   13      M    62.5    84.0
1     Alice   13      F    56.5    84.0
5     James   12      M  1000.0    83.0
15   Robert   12      M    64.8   128.0
6      Jane   12      F    59.8    84.5
9      John   12      M    59.0    99.5
12   Louise   12      F    56.3    77.0
17   Thomas   11      M    57.5    85.0
10    Joyce   11      F    51.3    50.5

5.7 多表连接¶

dic2 = {'Name':['Alfred','Alice','Barbara','Carol','Henry','Jeffrey','Judy','Philip','Robert','Willam'],
        'Score':[88,76,89,67,79,90,92,86,73,77]}
score = pd.DataFrame(dic2)
students2 = pd.merge(students, score, on='Name')    # 默认内联
print(students2)

      Name  Age Gender  Height  Weight  Score
0   Alfred   14      M    69.0   112.5     88
1    Alice   13      F    56.5    84.0     76
2  Barbara   13      F    65.3    98.0     89
3    Carol   14      F    62.8   102.5     67
4    Henry   14      M    63.5   102.5     79
5  Jeffrey   13      M    62.5    84.0     90
6     Judy   14      F    64.3    90.0     92
7   Philip   16      M    72.0   150.0     86
8   Robert   12      M    64.8   128.0     73
9   Willam   15      M    66.5   112.0     77

students3 = pd.merge(students, score, on='Name', how='left')    # how 指定连接方式
print(students3)

       Name  Age Gender  Height  Weight  Score
0    Alfred   14      M    69.0   112.5   88.0
1     Alice   13      F    56.5    84.0   76.0
2   Barbara   13      F    65.3    98.0   89.0
3     Carol   14      F    62.8   102.5   67.0
4     Henry   14      M    63.5   102.5   79.0
5     James   12      M  1000.0    83.0    NaN
6      Jane   12      F    59.8    84.5    NaN
7     Janet   15      F    62.5   112.5    NaN
8   Jeffrey   13      M    62.5    84.0   90.0
9      John   12      M    59.0    99.5    NaN
10    Joyce   11      F    51.3    50.5    NaN
11     Judy   14      F    64.3    90.0   92.0
12   Louise   12      F    56.3    77.0    NaN
13    Marry   15      F    66.5   112.0    NaN
14   Philip   16      M    72.0   150.0   86.0
15   Robert   12      M    64.8   128.0   73.0
16   Ronald   15      M    67.0   133.0    NaN
17   Thomas   11      M    57.5    85.0    NaN
18   Willam   15      M    66.5   112.0   77.0

students4 = pd.merge(students, score, on='Name', how='right')
print(students4)

      Name  Age Gender  Height  Weight  Score
0   Alfred   14      M    69.0   112.5     88
1    Alice   13      F    56.5    84.0     76
2  Barbara   13      F    65.3    98.0     89
3    Carol   14      F    62.8   102.5     67
4    Henry   14      M    63.5   102.5     79
5  Jeffrey   13      M    62.5    84.0     90
6     Judy   14      F    64.3    90.0     92
7   Philip   16      M    72.0   150.0     86
8   Robert   12      M    64.8   128.0     73
9   Willam   15      M    66.5   112.0     77

6. Pandas 缺失值处理¶

6.1 删除法 dropna()¶

# 删除法
stu_score = students3['Score']
print(stu_score)

0     88.0
1     76.0
2     89.0
3     67.0
4     79.0
5      NaN
6      NaN
7      NaN
8     90.0
9      NaN
10     NaN
11    92.0
12     NaN
13     NaN
14    86.0
15    73.0
16     NaN
17     NaN
18    77.0
Name: Score, dtype: float64

print('缺失值记录数：', sum(pd.isnull(stu_score)))
# 删除缺失值的行
print(stu_score.dropna())

缺失值记录数： 9
0     88.0
1     76.0
2     89.0
3     67.0
4     79.0
8     90.0
11    92.0
14    86.0
15    73.0
18    77.0
Name: Score, dtype: float64

print(students3.dropna(axis=1))    # 删除含有 NaN 值的列

       Name  Age Gender  Height  Weight
0    Alfred   14      M    69.0   112.5
1     Alice   13      F    56.5    84.0
2   Barbara   13      F    65.3    98.0
3     Carol   14      F    62.8   102.5
4     Henry   14      M    63.5   102.5
5     James   12      M  1000.0    83.0
6      Jane   12      F    59.8    84.5
7     Janet   15      F    62.5   112.5
8   Jeffrey   13      M    62.5    84.0
9      John   12      M    59.0    99.5
10    Joyce   11      F    51.3    50.5
11     Judy   14      F    64.3    90.0
12   Louise   12      F    56.3    77.0
13    Marry   15      F    66.5   112.0
14   Philip   16      M    72.0   150.0
15   Robert   12      M    64.8   128.0
16   Ronald   15      M    67.0   133.0
17   Thomas   11      M    57.5    85.0
18   Willam   15      M    66.5   112.0

print(students3.dropna(axis=0))    # 删除含有 NaN 值的行

       Name  Age Gender  Height  Weight  Score
0    Alfred   14      M    69.0   112.5   88.0
1     Alice   13      F    56.5    84.0   76.0
2   Barbara   13      F    65.3    98.0   89.0
3     Carol   14      F    62.8   102.5   67.0
4     Henry   14      M    63.5   102.5   79.0
8   Jeffrey   13      M    62.5    84.0   90.0
11     Judy   14      F    64.3    90.0   92.0
14   Philip   16      M    72.0   150.0   86.0
15   Robert   12      M    64.8   128.0   73.0
18   Willam   15      M    66.5   112.0   77.0

6.2 补值法 fillna()¶

print(students3.fillna(0))    # 使用 0 来填补值为 NaN 的数据

       Name  Age Gender  Height  Weight  Score
0    Alfred   14      M    69.0   112.5   88.0
1     Alice   13      F    56.5    84.0   76.0
2   Barbara   13      F    65.3    98.0   89.0
3     Carol   14      F    62.8   102.5   67.0
4     Henry   14      M    63.5   102.5   79.0
5     James   12      M  1000.0    83.0    0.0
6      Jane   12      F    59.8    84.5    0.0
7     Janet   15      F    62.5   112.5    0.0
8   Jeffrey   13      M    62.5    84.0   90.0
9      John   12      M    59.0    99.5    0.0
10    Joyce   11      F    51.3    50.5    0.0
11     Judy   14      F    64.3    90.0   92.0
12   Louise   12      F    56.3    77.0    0.0
13    Marry   15      F    66.5   112.0    0.0
14   Philip   16      M    72.0   150.0   86.0
15   Robert   12      M    64.8   128.0   73.0
16   Ronald   15      M    67.0   133.0    0.0
17   Thomas   11      M    57.5    85.0    0.0
18   Willam   15      M    66.5   112.0   77.0

print(students3.fillna(method='ffill'))    # 使用前值填充

       Name  Age Gender  Height  Weight  Score
0    Alfred   14      M    69.0   112.5   88.0
1     Alice   13      F    56.5    84.0   76.0
2   Barbara   13      F    65.3    98.0   89.0
3     Carol   14      F    62.8   102.5   67.0
4     Henry   14      M    63.5   102.5   79.0
5     James   12      M  1000.0    83.0   79.0
6      Jane   12      F    59.8    84.5   79.0
7     Janet   15      F    62.5   112.5   79.0
8   Jeffrey   13      M    62.5    84.0   90.0
9      John   12      M    59.0    99.5   90.0
10    Joyce   11      F    51.3    50.5   90.0
11     Judy   14      F    64.3    90.0   92.0
12   Louise   12      F    56.3    77.0   92.0
13    Marry   15      F    66.5   112.0   92.0
14   Philip   16      M    72.0   150.0   86.0
15   Robert   12      M    64.8   128.0   73.0
16   Ronald   15      M    67.0   133.0   73.0
17   Thomas   11      M    57.5    85.0   73.0
18   Willam   15      M    66.5   112.0   77.0

print(students3.fillna(method='bfill'))    # 使用后值填充

       Name  Age Gender  Height  Weight  Score
0    Alfred   14      M    69.0   112.5   88.0
1     Alice   13      F    56.5    84.0   76.0
2   Barbara   13      F    65.3    98.0   89.0
3     Carol   14      F    62.8   102.5   67.0
4     Henry   14      M    63.5   102.5   79.0
5     James   12      M  1000.0    83.0   90.0
6      Jane   12      F    59.8    84.5   90.0
7     Janet   15      F    62.5   112.5   90.0
8   Jeffrey   13      M    62.5    84.0   90.0
9      John   12      M    59.0    99.5   92.0
10    Joyce   11      F    51.3    50.5   92.0
11     Judy   14      F    64.3    90.0   92.0
12   Louise   12      F    56.3    77.0   86.0
13    Marry   15      F    66.5   112.0   86.0
14   Philip   16      M    72.0   150.0   86.0
15   Robert   12      M    64.8   128.0   73.0
16   Ronald   15      M    67.0   133.0   77.0
17   Thomas   11      M    57.5    85.0   77.0
18   Willam   15      M    66.5   112.0   77.0

	Age	Height	Weight
std	1.492672	5.127075	22.773933
mean	13.315789	62.336842	100.026316
count	19.000000	19.000000	19.000000
max	16.000000	72.000000	150.000000
min	11.000000	51.300000	50.500000

【Python】Pandas 笔记

1. Pandas 数据结构¶

1.1 Series 一维数组¶

1.2 DataFrame 二维数组¶

2. 数据索引¶

2.1 通过索引获取数据¶

3.利用 Pandas 查询数据¶

如果是多个条件的查询，必须在&（且）或者|（或）的两端条件用括号括起来。¶

4. 利用 Pandas 进行数据统计分析¶

4.1 数据量、求和、均值、最值¶

4.2 中位数、众数、方差、分位数¶

4.3 标准差、平均绝对偏差、偏度、峰度¶

4.4 自定义数值统计 apply（）¶

5. 使用 Pandas 进行类 SQL 操作¶

5.1 新增¶

5.2 删除¶

5.3 修改¶

5.4 查询，即筛选¶

5.5 聚合¶

5.6 排序 sort_index 和 sort_values¶

5.7 多表连接¶

6. Pandas 缺失值处理¶

6.1 删除法 dropna()¶

6.2 补值法 fillna()¶

7. Pandas 数据透视¶

猜你喜欢

【Python】Pandas 笔记

1. Pandas 数据结构¶

1.1 Series 一维数组¶

1.2 DataFrame 二维数组¶

2. 数据索引¶

2.1 通过索引获取数据¶

3.利用 Pandas 查询数据¶

如果是多个条件的查询，必须在&（且）或者|（或）的两端条件用括号括起来。¶

4. 利用 Pandas 进行数据统计分析¶

4.1 数据量、求和、均值、最值¶

4.2 中位数、 众数、 方差、 分位数¶

4.3 标准差、平均绝对偏差、偏度、峰度¶

4.4 自定义数值统计 apply（）¶

5. 使用 Pandas 进行类 SQL 操作¶

5.1 新增¶

5.2 删除¶

5.3 修改¶

5.4 查询， 即筛选¶

5.5 聚合¶

5.6 排序 sort_index 和 sort_values¶

5.7 多表连接¶

6. Pandas 缺失值处理¶

6.1 删除法 dropna()¶

6.2 补值法 fillna()¶

7. Pandas 数据透视¶

猜你喜欢

4.2 中位数、众数、方差、分位数¶

5.4 查询，即筛选¶