机器学习项目步骤


1、导入数据

做一个机器学习的项目,首先是导入所需要的库和导入该项目的数据集。

2、概述数据

在分析数据之前需要先看一下数据,增加对数据的理解,以便选择合适的算法。从以下几个角度来审查数据:
(1)数据的维度。(多少行数据、数据有几个属性)
(2)查看数据自身。(以直观 看到数据的特征、数据的类型,以及大概的数据分布范围等)
(3)统计描述所有的数据特征。(中位值、最大值、最小值、均值、 四分
位值等统计数据信息)
(4)数据分类的分布情况。(看一下各个分类的数据分布是否均衡)

3、数据可视化

通过对数据集的审查,对数据有了一个基本的了解,接下来将通过图表来进一步查看数据特征的分布情况和数据不同特征之间的相互关系。

(1)使用单变量图表可以更好地理解每一个特征属性。
(2)多变量图表用于理解不同特征属性之间的关系。

4、评估算法

通过不同的算法来创建模型,并评估它们的准确度,以便找到最合适的算法。将按照下面的步骤进行操作:
(1)分离出评估数据集。
(2)采用10折交叉验证来评估算法模型。
(3)生成6个不同的模型来预测新数据。
(4)选择最优模型。

5、实施预测

评估的结果显示,有一个准确度最高的算法。现在使用预留的评估数据集来验证这个算法模型。这将会对生成的算法模型的准确度有一个更加直观的认识。

猜你喜欢

转载自blog.csdn.net/Txixi/article/details/117548270