机器学习入门_基础

什么是机器学习

数据的认识

n个特征可以构建出一个n维的特征空间
分类任务的本质就是对特征空间的切分
高维空间与低维空间同理

有些特征是很抽象的，无法描述具体的语义

机器学习处理的主要任务

机器学习（监督学习）本质上主要聚焦于两类问题：分类和回归.

1. 分类任务

分类问题包括二分类，多分类，以及多标签分类.

一些算法只能处理二分类任务，而有些算法可以支持多分类任务，但多分类任务往往可以转化为二分类任务

2. 回归任务

回归任务的结果是一个连续数字的值，而非一个类别，如房屋价格，市场分析，学生成绩，股票价格等。

一些算法只能解决分类问题，一些算法只能解决回归问题，而一些算法的思路既能解决回归问题又能解决分类问题。在某些情况下，回归任务可以简化为分类问题，进而用分类的算法来解决。

机器学习方法的分类

分类方式一：

根据训练数据，分为四类：监督学习，非监督学习，半监督学习和增强学习

1. 监督学习

给机器训练的数据拥有“标记”或者“答案”，主要的算法包括：k邻近算法，线性回归和多项式回归，逻辑回归，SVM，决策树和随机森林等

2. 非监督学习

给机器训练的数据没有任何“标记”或者“答案”，而对这种没有标记的数据进行分类的过程称为“聚类分析”。

非监督学习的意义：

对数据进行降维处理。降维处理可以分为两类，一类是特征提取，会直接剔除掉一些和最终结果无关的特征；另一类是特征压缩（PCA算法），它并不会剔除特征，而是将关联性很强的多个特征处理为一个特征。另外，对于三维以上的空间，我们通常无法理解，所以降维处理的一个重要意义就是方便可视化。

异常检测

3. 半监督学习

一部分数据有“标签”或“答案”，而另一部分数据没有。在实际中由于各种原因产生的标记缺失使得这样的数据很常见。通常都先使用无监督学习手段对数据进行预处理，之后使用监督学习手段作模型的训练和预测。

4. 增强学习

根据外部环境的情况，采取行动，根据采取行动的结果，学习行动方式。应用于自动驾驶，高智能机器人等智能领域

分类方式二：

在线学习和批量学习（离线学习）

1.批量学习（Batch Learning）

通过大量的数据训练处一个模型，将这个模型投入到生产中，而生产过程中送入模型中的数据不在对模型起到训练作用。

批量学习的优点是实现简单，但缺点是无法自动适应环境的变化，当然我们可以进行定时的重新批量学习，但每次重新批量学习都将耗费巨大的运算，而在某些环境变化非常快的情况下，几乎是不可能的。

2.在线学习（Online Learning）

通过大量的数据训练处一个模型，将这个模型投入到生产中，而生产过程中送入模型中的数据仍然对模型起到不断的训练作用。

在线学习的优点是可以及时反映新的环境变化，其缺点是新的数据（可能是一些不好的数据或者对手的攻击数据）在无监控的情况下会对模型造成不好的变化，所以需要对新的数据进行监控处理，如使用非监督学习对异常数据进行剔除。另外在线学习适应于数据量巨大，完全无法一次性批量学习的情况。

分类方式三：

参数学习和非参数学习

1.参数学习

参数学习需要对模型进行一定的假设，输入的数据主要用于学习模型中的参数，一旦参数学习完成，就不在需要原有的数据集，如线性回归算法。

2.非参数学习

不需要对模型进行假设，