Pandas 第三部分

  1 import numpy as np
  2 import pandas as pd
  3 
  4 df = pd.read_excel("d:/test.xlsx")
  5 #数据重塑和轴向旋转
  6 if 0:
  7     #1,层次化索引
  8     if 0:
  9         #层次化索引是pandas 的一项重要功能，它能使我们在一个轴上拥有多个索引
 10 
 11         #Series 的层次化索引
 12         if 0:
 13             s = pd.Series(np.arange(1,10),index=[['a','a','a','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,3]])
 14             print(s)
 15             if 0:
 16                 print(s.index)
 17                 pass
 18             if 0:
 19                 #对外层索引进行操作
 20                 print(s['a'])
 21                 print(s['a':'b'])
 22             if 0:
 23                 #对内层索引进行操作
 24                 print(s[:,1])
 25 
 26                 #索引具体的值
 27                 print(s['a',1])
 28                 pass
 29 
 30             if 0:
 31                 #通过unstack 方法可以将Series 变成 DataFrame
 32                 ret = s.unstack()
 33                 print(ret)    #这时外层索引就成了行标签  ，内层索引就成了列标签
 34                 if 0:
 35                     ret = s.unstack().stack()
 36                     print(ret)  #可以使用 stack ()  将DataFrame 转回
 37                 pass
 38 
 39 
 40 
 41 
 42             pass
 43 
 44 
 45         #DataFrame 的层次化索引
 46         if 0:
 47             #对于 DataFrame 来说，行和列都是可以进行层次化索引的
 48             data  = pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['A','A','B' ],[1,2,3]])
 49             print(data) #这时就是需要四个索引才能确定一个数字了 ，这就将二维数据变成了四维数据   。
 50 
 51             if 0:
 52                 #索引列
 53                 print(data['A'])
 54                 pass
 55             if 0:
 56                 #给索引设置名称
 57                 data.index.names =['row1','row2']
 58                 data.columns.names = ['col1','col2']
 59                 print(data)
 60                 if 0:
 61                     #然后 使用swaplevel 对row1 和  row2 调换
 62                     ret  = data.swaplevel('row1','row2')
 63                     print(ret)
 64                     pass
 65 
 66                 pass
 67 
 68 
 69             pass
 70 
 71         #操作df 数据集
 72         if 1:
 73             if 0:
 74                 ret = df.index
 75                 print(ret)
 76                 # print(df.dtypes)
 77                 pass
 78             if 1:
 79                 #把学号设置成外索引，姓名设置为内索引
 80                 ret = df.set_index(['学号','姓名'])
 81                 print(ret)
 82                 #此时的每个索引都是个索引
 83                 if 0:
 84                     print(ret.index[0])  #(17096218, '张三')
 85 
 86                     pass
 87 
 88                 #获取17096218 学号的
 89                 if 0:
 90                     ret = ret.loc[17096218]
 91                     print(ret)  #此时姓名就成了外索引
 92                     
 93                     pass
 94 
 95 
 96                 pass
 97 
 98 
 99             pass
100         
101         #取消 层次化索引  
102         # df = df.reset_index()
103         pass
104 
105     #2,数据旋转
106     if 1:
107         data = df[:5]
108         print(data)  #下面就是单纯只操作这个data
109 
110         #行列转换 转置
111         if  0:
112             ret = data.T
113             print(ret)
114             pass
115 
116         #dataframe  可以使用stack 和  unstack  转化为层次化的Series
117         if 0:
118             ret = data.stack()  #转为了  层次化的Series
119             print(ret)
120             pass
121         pass
122     pass
123 #数据分组 ，分组运算
124 if 0:
125     #主要用的是groupby 计数：先分组，然后再进行聚合运算   类似于数据透视表
126             #需要注意的是  groupby 只会数值变量进行分组运算
127 
128     #按照 学号分组
129     group = df.groupby(df['学号'])
130 
131     #查看group
132     if 0:
133         print(group)
134         print(type(group))
135         pass
136     if 0:
137         #可以计算分组后的各个统计量
138         ret = group.mean()
139         print(ret)
140 
141         pass
142 
143     if 0:
144         #计算每个姓名 的平均工资
145         group = df['工资'].groupby(df['姓名'])
146         ret = group.mean()
147         print(ret)
148         pass
149 
150     if 0:
151         # 根据多个分组变量进行分组
152         group = df.groupby(['学号','姓名'])
153         ret = group.mean()
154         print(ret)
155         pass
156     if 0:
157         #获取每个学号，每个姓名的 工资的均值
158         group = df['工资'].groupby([df['学号'],df['姓名']])
159         # group = df['工资'].groupby(['学号','姓名'])  #错误
160         print(group.mean())
161 
162         ret = group.mean()
163         if 0:
164             #现在通过  unstack  将ret 转为 dataframe
165             ret = ret.unstack()
166             print(ret)
167             #需要注意的是 ，这会产生一些缺失值  NaN
168             pass
169         pass
170 
171     pass
172 
173 #离散化处理
174 if  0:
175     #pandas 为我们提供了 方便的函数 cut()；
176     #pd.cut(x,bins,right=True,labels=None,retbins= False,precision=3,include_lowest=False)
177     #参数解释
178     #x：需要离散化的数组  ， Series DataFrame 对象
179     #bins ：分组的依据  一般是个数字/或序列    数字指的的是分成几组
180     #right ：是否包含右端点
181     #inlcude_lowest  :是否包含左端点
182     #labels  可以指定分组的 名称
183 
184     #下面对年龄进行分组  0-18  18-30  30-50 50-99
185     if 0:
186         ret = pd.cut(df['年龄'], [0, 18, 30, 50, 99])  # 这时的bins 是个列表
187         print(ret)
188         # 316(0, 18]
189         # 317(18, 30]
190         # 318(18, 30]
191         # 319(18, 30]
192         # Name: 年龄, Length: 320, dtype: category
193         # Categories(4, interval[int64]): [(0, 18] < (18, 30] < (30, 50] < (50, 99]]
194         pass
195 
196     if 0:
197         #给各组加标签
198         ret = pd.cut(df['年龄'], [0, 18, 30, 50, 99],labels=['少年','青年','中年','老年'])
199         print(ret)
200         pass
201 
202     if 0:
203         #给各个分组加标签  并新增到 pd 中
204         df['年龄等级'] = pd.cut(df['年龄'], [0, 18, 30, 50, 99],labels=['少年','青年','中年','老年'])
205         print(df)
206         pass
207 
208     if 0:
209         #设置年龄的分位数
210         bins = np.percentile(df['年龄'],[0,20,50,100])
211         print(bins)  #[18. 26. 40. 98.]  #最小的是18 岁， 最大的98 岁
212 
213         pass
214 
215 
216     pass
217 
218 #合并数据集
219 
220 if 0:
221     #1,append  拼接时，尽量数据都是相同的
222         #它使用的不是很多，除非是一个excel 放不下，多个excel 文件，然后到python中合并
223     if 0:
224         df_zcb = df[df['姓名']== '张昌博']
225         df_zs = df[df['姓名'] == '张三']
226         ret = df_zcb.append(df_zs)
227         print(ret)
228 
229 
230         pass
231     #2,merge  (用的比较多 )  做横向的拼接
232     # df.merge(
233     #         left,  左边的数据文件
234     #         right,  右边的数据文件
235     #         how="inner",  拼接的方式  ，默认是内连接
236     #         on=None,   按照 那一列连接  （左右都有的）
237     #         left_on=None,  如果不是左右都有
238     #         right_on=None,
239     #         left_index=False,
240     #         right_index=False,
241     #         sort=False,
242     #         suffixes=("_x", "_y"),
243     #         copy=True,
244     #         indicator=False,
245     #         validate=None,
246     # )
247     if 0:
248         df1 = df[:5]
249         print(df1)
250         df2 = df[:5]
251         df2['工龄'] =[1,2,3,4,14]  #增加一列
252         # print(df2)
253 
254         #将df2 打乱
255         df2 = df2.sample(frac=1)
256         # print(df2)
257         df2.index = range(len(df2))  #将索引再次赋值
258         print(df2)
259 
260         #现在将df1  和  df2 进行合并  按学号连接
261         ret = pd.merge(df1,df2,how='inner',on = '学号')
262         print(ret)
263 
264 
265 
266 
267 
268 
269         pass
270 
271     #3,concat
272     #将多个数据集进行批量合并
273     if 0:
274         df1 = df[:10]
275         df2 = df[100:110]
276         df3 = df[200:210]
277 
278         # ret = pd.concat(df1,df2,df3)  #错误
279         ret = pd.concat([df1,df2,df3])
280         print(ret)
281         pass
282     pass
View Code
猜你喜欢