数据分析学习—使用Pandas进行数据分析

数据分析学习—使用Pandas进行数据分析

在对数据进行分析时,首先需要了解相关的名词在该行业里的含义,即查阅相关知识对题目进行整体把握。

下面是进行数据分析的步骤:

1、读取数据

import pandas as pd
data = pd.read_csv("data/train.csv")

2、对数据进行预处理

具体包括:

(1)、剔除空白值超过一半的列

 half_count = len(data)/2
 data = data.dropna(thresh=half_count, axis=1)

(2)、剔除值完全相同的列

 data = data.drop(['exm1'], axis=1)

(3)、剔除与预测值相关性不大的列

 data = data.drop(['exm2', 'exm3'], axis=1)

(4)、对非数值列使用数值进行替换

status_replace1 = {
        "grade": {
            "A": 0,
            "B": 1,
            "C": 2,
            "D": 3,
            "E": 4
        }
    }
    data = data.replace(status_replace1)

(5)、对某些存在空白值的列进行删除或填充

删除:

data = data.dropna(axis=0)
填充:
data = data.fillna(0)  # 使用0值填充,还有其他填充方式,在此不做赘述

(6)、选择训练属性和label值

    x = data.iloc[:, 0: 5].as_matrix()

    # 结果标签
    y = data.iloc[:, 6].as_matrix()

(7)、初始化模型并进行训练

    lr = LR()
    lr.fit(x, y)

(8)、获取模型得分并对test.csv进行预测

   lr.score()
   lr.predict(x1)
以上就是我所总结的使用Pandas和Logistic Regression进行数据分析的步骤。


猜你喜欢

转载自blog.csdn.net/github_39611196/article/details/80003038