机器学习-1（基础概念介绍）

首先我们要明白一点，什么是机器学习？

我现在的理解就是数据，以及数据背后能够被我们挖掘的含义。我们能利用这些数据去做些什么

机器学习的主要任务就是分类

为了测试机器学习算法的效果，通常使用两套独立的样本集：训练数据和测试数据

当机器学习程序开始运行时，使用训练样本集作为算法的输入，训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量，由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别。由此我们就可以得到这个算法的实际精确度。

一旦分类程序，经过测试满足精确度要求，我们是否就认为机器已经学会了相关的算法了呢？这部分工作就叫做知识表示。

知识表示可以采用规律集的形式，也可以采用概率分布的形式，设置可以是训练样本集中的一个实例。

机器学习一个主要任务就是解决分类，将实例数据划分到合适的分类中。机器学习的另一个任务就是回归，它主要是用来做预测。

分类和回归属于监督学习，这类学习的算法，它们知道预测什么，即目标变量的分类信息。

与监督学习相对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。在无监督学习中，将数据集合分成由类似的对象组成的多个类的过程叫做聚类；将寻找描述数据统计值的过程叫做密度估计。此外，无监督学习还可以减少数据特征的维度

如果想要预测目标标量的值，则可以选择监督学习算法，否则选择无监督学习算法。

如果是监督学习算法，如果目标变量是离散型，则我们可以使用分类器算法；如果是连续型的值的话，那我们就使用回归算法。

如果不想预测目标变量的值，则使用无监督学习算法。如果需要把数据划分为离散的组，那我们使用聚类算法；如果还需要顾及各组数据与其他分组的相似程度，那我们使用密度估计算法。