python学习-107-pandas一些数据截取的使用

前言:

     python在处理百万数据时的效率那是没得说,速度很快。本文主要讲一些使用pandas对数据进行截取,或者说根据自己的需要,选择自定义的数据的使用。可能并不是完整代码。

代码:

import pandas as pd

data=pd.read_csv("data2.csv")

#记数统计
a=data.ix[:,0]  #ix截取
b=a.value_counts()

data=data[(data[u'class']=='A')]#class为A的数据块

data['PL']=(data.result1/2)#构造新列

data5=data[['As_of_Year','Agency_Code']] #截取数据中的两列成为数据块

data=d[(d[u'Loan_Amount_000']>0)& (d[u'Loan_Amount_000']<=4000)]#截取值在某一范围内的数据块


data2=data[(data[u'C']>data[u'D'])] #两列的值进行比较的截取

#----------------pandas存储---------------
dataframe = pd.DataFrame(list)
dataframe.to_csv(resultfile,mode='a',index=False,encoding='utf-8',header=False)


#-----------------查看分布情况-----------------
import matplotlib.pyplot as plt
plt.hist(d.Loan_Amount_000)   #用图看某一列一些分布情况这个列一般是float类型
plt.show()

#--------去除空值数据------
data.dropna()

pandas非常好用尤其是处理海量数据。

猜你喜欢

转载自blog.csdn.net/u013521274/article/details/85060406