【A-003】python数据分析与机器学习实战 Python科学计算库 Pandas数据分析处理库（一）

读取数据

索引

选择数据

简单运算

引入：

Pandas数据库可以用于数据处理，样本的预处理方面，以numpy为基础，Pandas使用一个二维的数据结构DataFrame来表示表格式的数据，相比较于Numpy，Pandas可以存储混合的数据结构，同时使用NaN来表示缺失的数据，而不用像Numpy一样要手工处理缺失的数据，并且Pandas使用轴标签来表示行和列
pandas核心结构：Dataframe，可以当成矩阵结构
注意：在pandas里面把str型的数据称为object结构

数据类型

与Numpy一样，用dtype属性来显示数据类型，Pandas主要有以下几种dtype：
object – 代表了字符串类型
int – 代表了整型
float – 代表了浮点数类型
datetime – 代表了时间类型
bool – 代表了布尔类型

#当读取了一个文件之后，Pandas会通过分析值来推测每一列的数据类型
print(food_info.dtypes)

输出：每一列对应的数据类型

NDB_No            int64

Shrt_Desc           object

Water_(g)           float64

Energ_Kcal          int64

Protein_(g)          float64

##查询
这里的查询数据相当于R语言里的subset功能，可以通过布尔索引有针对的选取原数据的子集、指定行、指定列等。
- 导入一个student数据集：
food_info = pd.io.parsers.read_csv(‘C:\Users\admin\Desktop\food_info.csv’)
- fillna()会填充nan数据，返回填充后的结果。如果希望在原DataFrame中修改，则把inplace设置为True
- 查询数据的前5行或末尾5行：
显示前几行不给定默认前5行，使用函数head( m )来读取前m条数据，如果没有参数m，默认读取前五条数据
food_info.head()
food_info.tail()
food_info.head(m)
由于DataFrame包含了很多的行和列，Pandas使用省略号（…）来代替显示全部的行和列，可以使用colums属性来显示全部的列名

print(food_info.columns)
# 输出：输出全部的列名，而不是用省略号代替

Index(['NDB_No', 'Shrt_Desc', 'Water_(g)', 'Energ_Kcal', 'Protein_(g)', 'Lipid_Tot_(g)', 'Ash_(g)', 'Carbohydrt_(g)', 'Fiber_TD_(g)', 'Sugar_Tot_(g)', 'Calcium_(mg)', 'Iron_(mg)', 'Magnesium_(mg)', 'Phosphorus_(mg)', 'Potassium_(mg)', 'Sodium_(mg)', 'Zinc_(mg)', 'Copper_(mg)', 'Manganese_(mg)', 'Selenium_(mcg)', 'Vit_C_(mg)', 'Thiamin_(mg)', 'Riboflavin_(mg)', 'Niacin_(mg)', 'Vit_B6_(mg)', 'Vit_B12_(mcg)', 'Vit_A_IU', 'Vit_A_RAE', 'Vit_E_(mg)', 'Vit_D_mcg', 'Vit_D_IU', 'Vit_K_(mcg)', 'FA_Sat_(g)', 'FA_Mono_(g)', 'FA_Poly_(g)', 'Cholestrl_(mg)'], dtype='object')

#可以使用tolist()函数转化为list
food_info.columns.tolist()

索引
读取了文件后，Pandas会把文件的一行作为行的索引标签，使用行数字作为行的索引标签
这里写图片描述
注意，行标签是从数字0开始的
Pandas使用Series数据结构来表示一行或一列的数据，类似于Numpy使用向量来表示数据。Numpy只能使用数字来索引，而Series可以使用非数字来索引数据，当你选择返回一行数据的时候，Series并不仅仅返回该行的数据，同时还有每一列的标签的名字。
譬如要返回文件的第一行数据，Numpy就会返回一个列表（但你可能不知道每一个数字究竟代表了什么），而Pandas则会同时把每一列的标签名返回（此时就很清楚数据的意思了）

选择数据
pandas使用loc[]方法选择行数据

# 选择单行数据：

food_info.loc[0] # 选择行标号为0的数据，即第一行数据
food_info.loc[6] # 选择行标号为6的数据，即第七行数据

# 选择多行数据：
#调用pandas中local[]函数
food_info.loc[3:6] 
# 使用了切片，注意：由于这里使用pandas中loc[]函数，所以返回的是行标号为3，4，5，6的数据，与python的切片不同的是这里会返回最后的标号代表的数据，但也可以使用python的切片方法：
food_info[3:7]
#调用python的切片方法，不返回最后标号的数据

food_info.loc[[2,5,10]] 
# 返回行标号为2，5，10三行数据，一次指定行标号，直接选中多行数据，一定要用两个中括号

#练习：返回文件的最后五行
#方法一：
length = food_info.shape[0]
last_rows = food_info.loc[length-5:length-1]

方法二：

num_rows = food_info.shape[0]

last_rows = food_info[num_rows-5:num_rows]

#pandas uses zero-indexing
#Series object representing the row at index 0.
print (food_info.loc[0])

# Series object representing the seventh row.
food_info.loc[6]

# Returns a DataFrame containing the rows at indexes 3, 4, 5, and 6.
#food_info.loc[3:6]
# Returns a DataFrame containing the rows at indexes 2, 5, and 10. Either of the following approaches will work.
# Method 1
#two_five_ten = [2,5,10]
#food_info.loc[two_five_ten]
# Method 2
#food_info.loc[[2,5,10]]
#两个中括号

简单运算

现在要按照如下公式计算所有食物的健康程度，并按照降序的方式排列结果：

Score=2×(Protein_(g))−0.75×(Lipid_Tot_(g))

对DataFrame中的某一列数据进行算术运算，其实是对该列中的所有元素进行逐一的运算，譬如：water_energy = food_info[“Water_(g)”] * food_info[“Energ_Kcal”]

原理：
这里写图片描述
由于每一列的数据跨度太大，有的数据是从0到100000，而有的数据是从0到10，所以为了尽量减少数据尺度对运算结果的影响，采取最简单的方法来规范化数据，那就是将每个数值都除以该列的最大值，从而使所有数据都处于0和1之间。其中max()函数用来获取该列的最大值.

扫描二维码关注公众号，回复： 3080827 查看本文章

food_info['Normalized_Protein'] = food_info['Protein_(g)'] / food_info['Protein_(g)'].max()

food_info['Normalized_Fat'] = food_info['Lipid_Tot_(g)'] / food_info['Lipid_Tot_(g)'].max()

food_info['Norm_Nutr_Index'] = food_info["Normalized_Protein"] * 2 - food_info["Normalized_Fat"] * 0.75

#注意：上面的两个语句已经在原来的DataFrame中添加了三列，列名分别为Normalized_Protein和Normalized_Fat，Norm_Nutr_Index。
#只需要使用中括号和赋值符就能添加新列，类似于字典

#对DataFrame的某一列数据排序，只需要使用函数sort()即可
food_info.sort("Sodium_(mg)") 
# 函数参数为列名，默认是按照升序排序，同时返回一个新的DataFrame
food_info.sort("Norm_Nutr_Index", inplace=True, ascending=False ) 
# 通过inplace参数来控制在原表排序，而不是返回一个新的对象；ascending参数用来控制是否升序排序

参考博客：
http://www.cnblogs.com/kylinlin/archive/2016/02/29/5226790.html

【A-003】python数据分析与机器学习实战 Python科学计算库 Pandas数据分析处理库（一）

引入：

数据类型

猜你喜欢