数据分析学习—使用Pandas进行数据分析
在对数据进行分析时,首先需要了解相关的名词在该行业里的含义,即查阅相关知识对题目进行整体把握。
下面是进行数据分析的步骤:
1、读取数据
import pandas as pd data = pd.read_csv("data/train.csv")2、对数据进行预处理
具体包括:
(1)、剔除空白值超过一半的列
half_count = len(data)/2 data = data.dropna(thresh=half_count, axis=1)(2)、剔除值完全相同的列
data = data.drop(['exm1'], axis=1)(3)、剔除与预测值相关性不大的列
data = data.drop(['exm2', 'exm3'], axis=1)(4)、对非数值列使用数值进行替换
status_replace1 = { "grade": { "A": 0, "B": 1, "C": 2, "D": 3, "E": 4 } } data = data.replace(status_replace1)(5)、对某些存在空白值的列进行删除或填充
删除:
data = data.dropna(axis=0)填充:data = data.fillna(0) # 使用0值填充,还有其他填充方式,在此不做赘述(6)、选择训练属性和label值
x = data.iloc[:, 0: 5].as_matrix() # 结果标签 y = data.iloc[:, 6].as_matrix()(7)、初始化模型并进行训练
lr = LR() lr.fit(x, y)(8)、获取模型得分并对test.csv进行预测
lr.score() lr.predict(x1)以上就是我所总结的使用Pandas和Logistic Regression进行数据分析的步骤。