机器学习三剑客之Pandas

Pandas是基于Numpy开发出的,专门用于数据分析的开源Python库

Pandas的两大核心数据结构

  • Series(一维数据)

  • DataFrame(多特征数据,既有行索引,又有列索引)

一、生成数据表 

1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:

import numpy as np
import pandas as pd

2、导入CSV或者xlsx文件:

de = pd.DataFrame(pd.read_csv('excel_to_python.csv',header=1))
df = pd.DataFrame(pd.read_excel('excel_to_python.xlsx'))
print(de,df)

3、用pandas创建数据表:

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range('20130102', periods=6),
  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =['id','date','city','category','age','price'])

二、数据表信息查看 

 1 # 维度查看
 2 print(df.shape)
 3 # 数据表基本信息(维度、列名称、数据格式、所占空间等)
 4 print(df.info())
 5 # 每一列数据的格式
 6 print(df.dtypes)
 7 # 某一列格式
 8 print((df['age']).dtype)
 9 # 空值
10 print(df.isnull)
11 # 查看某一列空值
12 print(df.isnull())
13 # 查看某一列的唯一值
14 print(df['age'].unique())
15 # 查看数据表的值
16 print(df.values)
17 # 查看列名称
18 print(df.columns)
19 # 查看前10行数据、后10行数据
20 print(df.head()) #默认前10行数据
21 print(df.tail())  #默认后10 行数据

猜你喜欢

转载自www.cnblogs.com/yhll/p/9210480.html