4.3.2无监督学习(一) - 无监督学习的定义与模型

简介

无监督学习是与有监督学习相对应的概念。

一句话解释版本:

无监督学习不知道预测主体,它是在一堆堆数据中不断挖掘并寻找数据之间的关系,而不是通过选取自变量预测因变量。


数据分析与挖掘体系位置

无监督学习的目的性没有有监督学习那么强,但是它也是数据挖掘中关键的一部分,同样属于数据建模下。

它在整个数据分析与挖掘体系中的位置如下图所示。



无监督学习的定义

在有监督学习(Supervised Learning)中,我们的样本数据中通常包含p种特征量(features),X1, X2, . . . , Xp。他们有共同的对象(Response),Y。有监督学习的目的简单而言,都是一句话:用X去预测Y。

而在无监督学习(Unsupervised Learning)中,我们的样本一般只有p种特征量(features),X1, X2, . . . , Xp。我们并不关心Y是什么。这也就是说,无监督学习中,我们要预测的东西一般不被关心,也不会出现。无监督学习的目的是探索并发现各种X之间的关系。

举例来说,我们现在有如下的数据,分别是:身高、体重、每天睡眠时间、每天运动时间、以及寿命。如果我们把寿命看作我们想要预测的对象,那么寿命就是上面说的对象,即Y。其余的变量,如身高、体重、每天睡眠时间、每天运动时间就都是特征量,即X。

那么,在有监督学习中,我们研究的目的一般就是各种人的基本特征与寿命之间的关系,即如何通过身高、体重、每天睡眠时间、每天运动时间来预测寿命。

然而,在无监督学习中,我们不研究寿命是受什么因素决定的,我们的兴趣在身高、体重、每天睡眠时间、每天运动时间这些因素上。我们可能会研究这些因素是否都与另外的某种因素共同相关?是否可以用其他的特征量来代替现在有的,以帮助我们进行更好地预测?这些特征量之间是否有群聚关系?是否某几个特征量较其余的更加相似?如果我们更感兴趣的是因素之间的关系,而非因果预测关系,那么很可能我们在做的就是无监督学习。


无监督学习的模型

无监督学习一般包括如下几个被广泛应用的模型与方法:

  1. 降维分析(Methods of Dimensions Reduction)
  2. 聚类分析(Methods of Clustering)
  3. 关联分析(Correlation Analysis)

其中,聚类分析在近期的发展十分迅速,如果了解Python中的sklearn模块,则能够发现降维分析与聚类分析的分支非常广泛。如果将上面的三种模型继续细分可以得到如下各有所长,各有针对性的模型:


上面的三种分析方法中, 降维分析主要针对数据挖掘中的Problem of Dimension。在真实的数据挖掘中,我们拥有的特征量很可能会远远大于我们的观测量,这就造成了数据挖掘中常见的高纬度问题。过高的数据维度使得实际分析的数据精度与可靠性下降,模型的拟合度与可用性降低。 降维分析则是通过一系列数学算法将高纬度数据进行降维处理,提高数据的可用性。

聚类分析则是侧重数据之间的关系,它主要通过衡量数据间的距离、密度等指标,以此定义数据之间的亲密关系,将数据关系近的聚为一类,将数据关系远的聚为另一类。以此实现数据的分群。

关联分析则是通过算法,寻找特征量之间的互动规律。基于数据之间的相关性,关联分析多用于探索特征量之间的相互影响规律。

猜你喜欢

转载自blog.csdn.net/orange_spotty_cat/article/details/80392886