Pandas 第一部分

  1 import numpy as np
  2 import pandas as pd
  3 
  4 #Pandas 的基本数据结构
  5 if 0:
  6 
  7     # 两种
  8     # Series
  9     if 0:
 10         #一维Series 可以用一维列表来初始化
 11         if 0:
 12             s = pd.Series([1,2,3,np.nan,4,5])
 13             print(s)
 14 
 15             s1 = pd.Series([1,2,3,np.nan,4,5],index=['a','b','c','d','e','f'])
 16             print(s1)
 17 
 18         #索引 - 数据的行标签
 19         if 0:
 20             s = pd.Series([1,2,3,np.nan,4,5])
 21             print(s.index)  #RangeIndex(start=0, stop=6, step=1)
 22 
 23         #值
 24         if 0:
 25             s = pd.Series([1,2,3,np.nan,4,5])
 26             print(s.values)  #[ 1.  2.  3. nan  4.  5.]
 27             pass
 28 
 29         #切片操作
 30         if 0:
 31             s = pd.Series([1,2,3,np.nan,5,4])
 32             print(s[:-3])
 33 
 34             print(s[::2])
 35 
 36         #索引赋值
 37         if 0:
 38             s = pd.Series([1,2,3,np.nan,5,4])
 39             print(s)
 40             s.index.name = "idx"
 41             print(s)
 42 
 43             #可以通过index 直接修改索引的值
 44             s.index = list("abcdef")
 45             print(s)
 46             print(s[:3])  #照样可以使用
 47             print(s['a':'c'])  # 注，这里是包含‘c'
 48         pass
 49     # DataFrame
 50     if 1:
 51         #构造一个时间序列
 52         if 0:
 53             date  = pd.date_range('20190901',periods=60 )  #时间序列 60 天
 54             print(date)
 55         #创建一个dataframe 结构
 56         if 0:
 57             #使用一个二维数组来创建
 58             if 0:
 59                 df = pd.DataFrame(np.random.randn(3,4)) #3 行 4 列的正太分布二维数组传入
 60                 print(df)
 61 
 62                 date =pd.date_range('20190921',periods=3)
 63                 df2 = pd.DataFrame(np.random.randn(3,4),index=date  )
 64                 print(df2)
 65 
 66                 df3 = pd.DataFrame(np.random.randn(3,4),index=date,columns=list('ABCD'))
 67                 print(df3)
 68 
 69 
 70             #使用字典来创建
 71             if 0:
 72                 arr =np.array([4]*4)
 73                 print(arr) #[4 4 4 4]
 74             if 0:
 75                 #字典的每个key 代表一列，其value 可以是各种能转化为Series 的对象
 76                 #与series 要求不同，DataFrame 只要求每列数据类型相同
 77                 d = {"A":pd.date_range('20190921',periods=4),"B":pd.Timestamp('20190921'),"C":pd.Series(1,index=list("abcd")),'D':np.array([4]*4,dtype=float)}
 78                 df = pd.DataFrame(d)
 79                 print(df)
 80                 pass
 81 
 82         #查看数据
 83         if 1:
 84             df = pd.DataFrame({"date":pd.date_range("20190921",periods=15),"a":1,"b":pd.Series([4]*15,dtype=float)})
 85             #头尾数据
 86             if 0:
 87                 #head 和 tail方法 可以分别查看 前几行和后几行 默认是5
 88                 print(df)
 89                 print(df.head())
 90                 print(df.tail())
 91 
 92                 print(df.head(3))  #前3行
 93                 print(df.tail(3)) #后3行
 94 
 95                 pass
 96 
 97             #查看各个列的数据类型
 98             if 0:
 99                 print(df.dtypes)
100                 pass
101 
102             #行标 列标 和数据
103             if 0:
104                 print(df.index)  #RangeIndex(start=0, stop=15, step=1)
105                 print(df.columns)  #Index(['date', 'a', 'b'], dtype='object')
106                 print(df.values)
107 
108 
109 
110 
111             pass
112         pass
113 
114     pass
115 
116 
117 #Pandas 读取数据及数据操作
118 if 1:
119     #读取excel 数据文件
120     if 0:
121         #此时要注意 它依赖xlrd 包，所以要按照它
122         df = pd.read_excel("d:/test.xlsx")
123         print(df.head())
124         print(df.tail())
125         pass
126 
127     df = pd.read_excel("d:/test.xlsx")
128     #行操作
129     if 0:
130         print(df.iloc[0])
131         print(df.loc[0])
132 
133         #查看前五行
134         print(df.iloc[:5])
135         print(df.loc[:5])  # 它和iloc的区别是 它包含了右端
136 
137         pass
138 
139     #添加一行  #通过定义一个Series 然后append 到dataframe 中
140     if 0:
141         dit = {"学号":17096220,"姓名":"陈典","年龄":19}
142         s = pd.Series(dit)
143         s.name = "320"
144         print(s)
145         df = df.append(s)
146         print(df[-5:])
147 
148         pass
149 
150     #删除一行
151     if 0:
152         print(df[-2:])
153         df = df.drop([319])  #删除319 行
154         print(df[-2:])
155 
156         df = df.drop([317,318])  #也可以同时删除多行
157         print(df[-2:])
158 
159         pass
160 
161     #列操作
162     if 0:
163         print(df.columns)  #Index(['学号', '姓名', '年龄'], dtype='object')
164         #取一列
165         if 0:
166             print(df['姓名'])  #查看全部的名字
167 
168             print(df['姓名'][:5])  #查看前5个名字
169             print(df['姓名'][-5:])  #查看后5个名字
170 
171         #取多列
172         if 0:
173             print(df[['姓名','学号']][:5])  #取多列
174             pass
175 
176         #增加一列
177         if 0:
178             df['序号'] = range(1,len(df)+1)
179             print(df[-3:])
180             pass
181 
182         #删除一列
183         if 0:
184             df = df.drop('学号',axis=1) #注意要加上axis =1   默认是操作的行axis = 0
185             print(df[-5:])
186 
187             pass
188 
189         pass
190 
191     #通过标签选择数据
192     if 0:
193         #之前的df[]  选择的都是列数据，现在是通过标签选择数据
194         #选择一行一列
195         if 0:
196             print(df.loc[1,'姓名'])  #选择出 标签为1 的姓名数据
197             pass
198         #选择多行多列
199         if 0:
200             print(df.loc[316:,'姓名':'年龄']) #选择初标签为 316 到最后的标签，列是姓名和年龄的
201 
202             print(df.loc[[1,2,5,310],['学号','姓名']])  #通过标签来选择数据
203             pass
204 
205         pass
206 
207     #条件选择
208     if 0:
209         #选择姓名为张三的所有条目
210         if 0:
211             print( df['姓名'] == '张三')
212             # print(df[df['姓名'] == '张三'])
213             print(df[df['姓名'] == '张三'][:5])  #查看前5行
214         #选择姓名为张三，且年龄大于100   的所有条目
215         if 0:
216             # print( df['姓名']=='张三' & df['年龄']>100)  #不对
217             print( (df['姓名']=='张三') & (df['年龄']>100))  #多个条件要用（）括起来　　
218             #上一行等价于下面一行
219             # print( (df.姓名 == '张三' ) & (df.年龄 >100 ) )
220 
221             print(df[(df['姓名']=='张三') & (df['年龄']>100)])
222         # 选择姓名为张三或者张昌博，且  年龄大于100 小于 150   的所有条目
223         if 1:
224             #基本形式   df [ (  () | () ) & (  () &()  )]
225             # df.姓名 == '张三' df.姓名 == '张昌博'  df.年龄 >100 df.年龄<150
226             print(df[ (  (df.姓名 == '张三') | (df.姓名 == '张昌博') ) &(  (df.年龄 >100)  &  (df.年龄<150)  ) ])
227             pass
228 
229         pass
230 
231     #缺失值和异常值的处理
232     if 1:
233 
234         #缺失值的处理方法
235         if 0:
236             #常用的方法：
237             # 1,dropna  根据标签的缺失值进行过滤 ，删除缺失值
238             # 2,fillna 对缺失值进行填充
239             # 3,isnull 返回一个布尔值对象，判断那些值是缺失值
240             # 4,notnull   isnull 的否定式
241             pass
242 
243             #利用isnull 判断缺失值
244             if 0:
245                 # print( df.isnull())
246                 print(df['姓名'].isnull())   #一般是判断某一类是否有缺失值
247                 print(df[ df['姓名'].isnull()  ])
248                 pass
249 
250             #填充缺失值
251             if 0:
252                 # 填充一般用于数值型 的
253                 if 0:
254                 #判断年龄是否有缺失值
255                     print( df [ df['年龄'].isnull() ]  )
256 
257                     df['年龄'].fillna(0,inplace=True)  #填充为0
258                                 #inplace 代表的是是否在原始数据中进行填充
259                     print( df [ df['年龄'].isnull() ]  )
260                 #填充非数值型的
261                 if 1:
262                     print(df [ df['姓名'].isnull() ] )
263                     df['姓名'] = df['姓名'].fillna('未知姓名')
264                     print(df['姓名'][164:] )
265                     pass
266 
267 
268                 pass
269 
270             #删除缺失值
271             if 1:
272                 # df.dropna()　参数：
273                 # how ='all' 删除全为空值的行和列
274                 # inplace= True  覆盖原有数据
275                 # axis =0 选择要操作的维度
276                 if 0:
277                     print(len(df))
278                     df2 = df.dropna()
279                     print(len(df2))
280 
281                 print(len(df))
282                 df2 = df.dropna(how='all')
283                 print(len(df2))
284 
285                 pass
286 
287         #异常值的处理
288         if 0:
289             #异常值  例如 年龄为负数 等等.... 一般直接删除就好了
290             print(df[df['年龄'] < 0 ])
291             df = df[df['年龄'] >0 ]  #这样就将年龄小与 0  的给删除了
292 
293 
294         pass
295 
296     #数据保存
297     df.to_excel('d:/test02.xlsx')  #注意：如果要保存到excel  要pip 安装openpyxl  模块
298     pass
View Code
猜你喜欢