python数据分析 pandas库的学习(3)

  这一篇主要介绍怎么用read_csv方法读取文件并对文件进行初步的评估。

import pandas as pd 
import numpy as np 
'''这里主要讲pandas如何导入数据并对数据做最基本的操作和处理
pandas导入数据的方法主要有两种,一个是read_csv,另一个是read_excel'''



df = pd.read_csv(r"C:\Users\12046\Desktop\housing(1).csv")
'''read_csv函数作为最基本的读取函数一般是用的最多的,其表达式为
read_csv(r'routine',index_col可用来选取适合的列作为该列表中的主键,其实也不是特别必要)
当我们导出文件后第一步要观察该数据的结构
'''
'''print(df.head(5)) # 查看前n行的数据,注意是行不是列
print(df.tail(5)) # 查看后n行的数据
print(df.shape)  # 查看有多少行列
print(df.info) '''  #一个函数涵盖上面三个函数的功能

#下面尝试利用dataframe对这组数据做切割,将各行的数据都提取出来
RM=df['RM']
Lstat=df['LSTAT']
Ptratio=df['PTRATIO']
medv=df['MEDV']

#这里可以引入布尔条件下的dataframe的筛选了
'''print(df[df.RM>7]) #单值筛选
print(df[(df.RM>7)|(df.MEDV>600000)]) #|表示且的多值筛选
print(df[(df.RM>7)&(df.MEDV>600000)]) # &表示或的多值筛选
 #先对df做列筛选,选出要用的列,然后再进行条件筛选
print(df[['RM','MEDV']][(df.RM>7)|(df.MEDV>600000)])'''
# 这里的筛选操作对后续的分析很重要,所以要熟练掌握dataframe中所有格式

'''print(df.describe()) #describe函数对df进行描述性统计分析
print(df.skew(),df.kurt())  #还有偏度和峰度这两个变量要进行分析
#以及对numpy中常用的函数都可以在dataframe上使用'''

#这个函数可以直接给出所有常见的统计量,但是要注意数据类型的影响
'''def stats(x):
    return pd.Series([x.count(),x.min(),x.idxmin(),
x.quantile(.25),x.median(),
x.quantile(.75),x.mean(),x.max(),x.idxmax(),x.mad(),x.var(),x.std(),x.skew(),x.kurt()],
index = ['Count','Min','Whicn_Min',
'Q1','Median','Q3','Mean',
'Max','Which_Max','Mad',
'Var','Std','Skew','Kurt'])
print(stats(df[['RM','LSTAT','PTRATIO','MEDV']]))'''

猜你喜欢

转载自www.cnblogs.com/zdl4/p/12507908.html