机器学习入门_基础

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jt102605/article/details/84780036

什么是机器学习

 

数据的认识

  • n个特征可以构建出一个n维的特征空间
  • 分类任务的本质就是对特征空间的切分
  • 高维空间与低维空间同理

  • 有些特征是很抽象的,无法描述具体的语义

机器学习处理的主要任务

机器学习(监督学习)本质上主要聚焦于两类问题:分类和回归. 

1. 分类任务

分类问题包括二分类,多分类,以及多标签分类.

一些算法只能处理二分类任务,而有些算法可以支持多分类任务,但多分类任务往往可以转化为二分类任务

2. 回归任务

回归任务的结果是一个连续数字的值,而非一个类别,如房屋价格,市场分析,学生成绩,股票价格等。

一些算法只能解决分类问题,一些算法只能解决回归问题,而一些算法的思路既能解决回归问题又能解决分类问题。在某些情况下,回归任务可以简化为分类问题,进而用分类的算法来解决。

机器学习方法的分类

分类方式一:

根据训练数据,分为四类:监督学习,非监督学习,半监督学习和增强学习

1. 监督学习

给机器训练的数据拥有“标记”或者“答案”,主要的算法包括:k邻近算法,线性回归和多项式回归,逻辑回归,SVM,决策树和随机森林等

2. 非监督学习

给机器训练的数据没有任何“标记”或者“答案”,而对这种没有标记的数据进行分类的过程称为“聚类分析”。

非监督学习的意义:

  • 对数据进行降维处理。降维处理可以分为两类,一类是特征提取,会直接剔除掉一些和最终结果无关的特征;另一类是特征压缩(PCA算法),它并不会剔除特征,而是将关联性很强的多个特征处理为一个特征。另外,对于三维以上的空间,我们通常无法理解,所以降维处理的一个重要意义就是方便可视化。

  • 异常检测

3. 半监督学习

一部分数据有“标签”或“答案”,而另一部分数据没有。在实际中由于各种原因产生的标记缺失使得这样的数据很常见。通常都先使用无监督学习手段对数据进行预处理,之后使用监督学习手段作模型的训练和预测。

4. 增强学习

根据外部环境的情况,采取行动,根据采取行动的结果,学习行动方式。应用于自动驾驶,高智能机器人等智能领域

分类方式二:

在线学习和批量学习(离线学习)

1.批量学习(Batch Learning)

通过大量的数据训练处一个模型,将这个模型投入到生产中,而生产过程中送入模型中的数据不在对模型起到训练作用。

批量学习的优点是实现简单,但缺点是无法自动适应环境的变化,当然我们可以进行定时的重新批量学习,但每次重新批量学习都将耗费巨大的运算,而在某些环境变化非常快的情况下,几乎是不可能的。

2.在线学习(Online Learning)

通过大量的数据训练处一个模型,将这个模型投入到生产中,而生产过程中送入模型中的数据仍然对模型起到不断的训练作用。

在线学习的优点是可以及时反映新的环境变化,其缺点是新的数据(可能是一些不好的数据或者对手的攻击数据)在无监控的情况下会对模型造成不好的变化,所以需要对新的数据进行监控处理,如使用非监督学习对异常数据进行剔除。另外在线学习适应于数据量巨大,完全无法一次性批量学习的情况。

分类方式三:

参数学习和非参数学习

1.参数学习

参数学习需要对模型进行一定的假设,输入的数据主要用于学习模型中的参数,一旦参数学习完成,就不在需要原有的数据集,如线性回归算法。

2.非参数学习

不需要对模型进行假设,

猜你喜欢

转载自blog.csdn.net/jt102605/article/details/84780036