1.总体框架

2.数据采集

由于机器学习是从数据中进行学习的方法，所以首先要针对想要解决的问题进行数据的采集。数据的采集主要有两种途径，一种是自己采集，另一种就是去网上找公开的数据集。数据采集完成后，就得到了原始的数据。

3.特征提取

由于原始数据繁多，我们需要从原始数据中，提取出跟想要解决问题相关的数据作为特征（一些深度学习的方法可以自己从数据中提取特征，但是传统机器学习方法往往需要自己去提取特征，称为特征工程）。比如上图中的敲击声、颜色光泽、纹路清晰度等可以作为判断西瓜是否成熟的特征，但是像西瓜的形状等特征或许与其是否成熟无关，则不能作为特征（如果提取到了与所解决问题无关的特征会怎么样？）。

4.模型、学习准则和优化算法的确定

模型、学习准则与优化算法是机器学习的三大要素：

模型的作用是根据输入的特征给出输出的结果（针对具体的问题），也可以将模型理解为函数。不同的机器学习模型（比如LR、SVM、NB等），实质上是不同的待选择函数簇。当模型的类型确定后，函数的大体框架就确定了，剩下的就是对函数中的参数的学习。所以，机器学习的本质就是在一堆由不同的参数所决定的函数里面，选出最好的那个（一个优化问题）。

学习准则的作用是针对想要解决的问题，评价某一个模型的好坏程度。在监督学习中，一般是看模型的输出与数据集中的真值的差异，差异越小，一般就代表模型越好。

优化算法的作用是对选出最好的模型这个优化问题进行求解。

这三大要素确定好之后，将数据集带入其中，即可训练出一个在当前的数据集情况下的最优模型。

5.模型的使用

训练好后得到了一个最优的函数，然后将待预测的特征自变量输入模型即可得到预测的结果。

机器学习的一般步骤

目录

1.总体框架

2.数据采集

3.特征提取

4.模型、学习准则和优化算法的确定

5.模型的使用

猜你喜欢