这一篇主要介绍怎么用read_csv方法读取文件并对文件进行初步的评估。
import pandas as pd import numpy as np '''这里主要讲pandas如何导入数据并对数据做最基本的操作和处理 pandas导入数据的方法主要有两种,一个是read_csv,另一个是read_excel''' df = pd.read_csv(r"C:\Users\12046\Desktop\housing(1).csv") '''read_csv函数作为最基本的读取函数一般是用的最多的,其表达式为 read_csv(r'routine',index_col可用来选取适合的列作为该列表中的主键,其实也不是特别必要) 当我们导出文件后第一步要观察该数据的结构 ''' '''print(df.head(5)) # 查看前n行的数据,注意是行不是列 print(df.tail(5)) # 查看后n行的数据 print(df.shape) # 查看有多少行列 print(df.info) ''' #一个函数涵盖上面三个函数的功能 #下面尝试利用dataframe对这组数据做切割,将各行的数据都提取出来 RM=df['RM'] Lstat=df['LSTAT'] Ptratio=df['PTRATIO'] medv=df['MEDV'] #这里可以引入布尔条件下的dataframe的筛选了 '''print(df[df.RM>7]) #单值筛选 print(df[(df.RM>7)|(df.MEDV>600000)]) #|表示且的多值筛选 print(df[(df.RM>7)&(df.MEDV>600000)]) # &表示或的多值筛选 #先对df做列筛选,选出要用的列,然后再进行条件筛选 print(df[['RM','MEDV']][(df.RM>7)|(df.MEDV>600000)])''' # 这里的筛选操作对后续的分析很重要,所以要熟练掌握dataframe中所有格式 '''print(df.describe()) #describe函数对df进行描述性统计分析 print(df.skew(),df.kurt()) #还有偏度和峰度这两个变量要进行分析 #以及对numpy中常用的函数都可以在dataframe上使用''' #这个函数可以直接给出所有常见的统计量,但是要注意数据类型的影响 '''def stats(x): return pd.Series([x.count(),x.min(),x.idxmin(), x.quantile(.25),x.median(), x.quantile(.75),x.mean(),x.max(),x.idxmax(),x.mad(),x.var(),x.std(),x.skew(),x.kurt()], index = ['Count','Min','Whicn_Min', 'Q1','Median','Q3','Mean', 'Max','Which_Max','Mad', 'Var','Std','Skew','Kurt']) print(stats(df[['RM','LSTAT','PTRATIO','MEDV']]))'''