pandas的拼接操作

# pandas的拼接操作分为两种：
# 级联: pd.concat
# pd.append
# 合并: pd.merge

# pd.join

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

import matplotlib.pyplot as plt
%matplotlib inline

#练习：生成2个5*5的矩阵，对其分别进行两个维度上的级联

n1 = np.random.randint(0,100,size=(5,5))
n2 = np.random.randint(0,100,size=(5,5))
n3 = np.concatenate((n1,n2),axis=0)
n3

n4 = np.concatenate((n1,n2),axis=1)
n4

def create_df(index,columns):
    data = {k:[k+str(i) for i in index] for k in columns}
    return DataFrame(data=data,index=index)

df1 = create_df(list('12345'),list('ABCDE'))
df1

df2 = create_df(list('12345'),list('EFGHI'))
df2

pd.concat((df1,df2),axis=1)

#使用pd.concat()函数级联与np.concatenate函数类似

#axis, ignore_index
#一般用于横向级联，就是以行标签为参考进行的级联，ignore_index会重新分配标签
pd.concat((df1,df2),axis=0,ignore_index=True)

#使用多层索引 keys
#concat([x,y],keys=['x','y'])
pd.concat((df1,df2),axis=1,keys=['期中','期末'])

df3 = create_df(list('123'),list('xyz'))
df3

total = pd.concat((df1,df3),axis=1)
total

#查看一张表中哪一列存在空值
nan_list = total.isnull().any(axis=0)
nan_list

total.loc[:,nan_list]

#需求：提取包含空值的列

n = np.array([True,False,True])
n.any()

#练习
#1，建立一个期中考试张三，李四的成绩表df
#2，假如新增考试科目'计算机'，如何实现

#3，新增王五同学的成绩，如何实现

data = np.random.randint(0,150,size=(2,3))
index = ['张三','李四']
columns = ['python','java','c']
df = DataFrame(data=data,index=index,columns=columns)
df

data1 = np.random.randint(0,150,size=(2,1))
index1 = ['张三','李四']
columns1 = ['计算机']
df1 = DataFrame(data=data1,index=index1,columns=columns1)
df1

score = pd.concat((df,df1),axis=1)
score

data2 = np.random.randint(0,150,size=(1,4))
index2 = ['王五']
columns2 = score.columns
df2 = DataFrame(data=data2,index=index2,columns=columns2)
df2

score.append(df2)

pd.concat((score,df2),axis=0)

不匹配级联

#不匹配指的是级联的维度的索引不一致
#比如：纵向级联时，列索引不一致
#再比如：横向级联时，行索引不一致

#有3种连接方式：
#  外连接：补NaN
#  内连接：只连接匹配的项
#  连接指定轴join_axes

df1 = create_df(list('12345'),list('ABCDE'))
df2 = create_df(list('234'),list('CDE'))
pd.concat((df1,df2),axis=1,join='inner')

pd.concat((df1,df2),axis=0,join_axes=[df2.columns])

index = pd.Index(['C','D'])
pd.concat((df1,df2), axis=0, join_axes=[index])

使用pd.merge()合并

#读取文件
#第一个参数：读取的excel文件的路径
#第二个参数：sheet_name=0/1/2/3
table1 = pd.read_excel('关系表.xlsx',sheet_name=1)

table2 = pd.read_excel('关系表.xlsx',sheet_name=2)
table3 = pd.read_excel('关系表.xlsx',sheet_name=3)
table4 = pd.read_excel('关系表.xlsx',sheet_name=4)

#display(table1,table2...)
display(table1,table2,table3,table4)

#merge与concat的区别在于，merge需要依据某一共同列来进行合并
#使用pd.merge()合并时，会自动根据两者相同的columns名称的那一列，
#作为key来进行合并
#每一列元素的顺序不要求一致

pd.merge(table1,table2,how='outer')

pd.merge(table1,table3,how='outer')

pd.merge(table3,table4,how='outer')

#key的规范化
#使用on=显式指定哪一列为key，当有多个key相同时使用
pd.merge(table3,table4,on='手机型号')

#使用left_on和right_on指定左右两边的列作为key，当左右两边的key都相等时使用

table1.columns = ['型号','参考价格']
table1

table = pd.merge(table1,table2,left_on='型号',right_on='手机型号',how='outer')
table

#删除一行或一列 drop()
#参数1：要删除的行，列标签名
#参数2：axis指定删除的方向，必须与标签名方向匹配

table.drop('手机型号',axis=1)

内合并与外合并

#内合并：只保留两者都有的key
#外合并：how='outer',补NaN
#左合并，右合并：how='left', how='right'

pd.merge(table1,table2,left_on='型号',right_on='手机型号',how='right')

#当列冲突时，即有多个列名相同时，需要使用on=来指定哪一列作为key，
#配合suffixes指定冲突列名

pd.merge(table3,table4,on='手机型号',suffixes=['_上半年','_下半年'])

#如果有更多相同的列，我们可以根据其中某几列来合并

pd.merge(table3,table4,on=['发货地区','手机型号'])

不匹配级联

使用pd.merge()合并

内合并与外合并

猜你喜欢