有监督学习、无监督学习

在机器学习(Machine learning)领域。主要有四类类不同的学习方法:
监督学习(Supervised learning) SL
非监督学习(Unsupervised learning) UL
半监督学习(Semi-supervised learning)
强化学习(Reinforcement Learning) RL
在看了一些博客还有书籍后基于自己的理解如下:
**有监督学习**:
    就是训练样本集中的数据分为两部分:特征数据和对应的“值或者类标签”,
    学习这些特征数据和对应的“值或者类标签”的关系得到模型,然后将待处理的特征数据输入模型中得到对应的“值或者类标签”。
    有测试数据。
    有监督学习最常见的应用就是:regression&classification
    具体算法有K-近邻算法、决策树、朴素贝叶斯、逻辑回归、CNN、线性回归、Ridge回归、Lasso最小回归系数估计、人工神经网络等
    **无监督学习**:
    就是训练样本集中的数据只有特征数据,
    然后通过采取某种形式的激励制度训练模型寻找样本数据中是否相似的关系或者内在规律。
    无测试数据。
    最常见的是:聚类,clustering
    具体算法有:聚类、EM算法、受限波尔兹曼机、k-means、PCA、DBSCAN、 GMM、Parzen窗设计等
    深度学习既有监督学习,也有无监督学习

以下是摘抄其他较为专业的解释:
    一、监督学习
    1、监督式学习(Supervised learning),能够由训练资料中学到或建立一个模式( learning model)。
    训练资料是由输入物件(一般是向量)和预期输出所组成。函数的输出能够是一个连续的值(称为回归分析)。
    或是预測一个分类标签(称作分类)。
    2、一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预測这个函数对不论什么可能出现的输入的值的输出。
    要达到此目的。学习者必须以"合理"(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。
    在人类和动物感知中。则通常被称为概念学习(concept learning)。
    二、无监督式学习
    1、无监督式学习(Unsupervised Learning )是人工智能网络的一种算法(algorithm)。
    其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,
    无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。
    其特点是仅对此种网络提供输入范例。而它会自己主动从这些范例中找出其潜在类别规则。
    当学习完成并经測试后,也能够将之应用到新的案例上。
    2、无监督学习里典型的样例就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。
    因此,一个聚类算法通常仅仅须要知道怎样计算相似度就能够開始工作了。
    三、半监督学习
    1、半监督学习的基本思想是利用数据分布上的模型如果, 建立学习器对未标签样本进行标签。
    形式化描写叙述为:
    给定一个来自某未知分布的样本集S=L∪U, 当中L 是已标签样本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, 
    U是一个未标签样本集U={x’1,x’2,…,x’|U|},希望得到函数f:X → Y能够准确地对样本x预測其标签y,这个函数可能是參数的。
    如最大似然法;可能是非參数的。如最邻近法、神经网络法、支持向量机法等;也可能是非数值的,如决策树分类。
    当中, x与x’  均为d 维向量, yi∈Y 为样本x i 的标签, |L| 和|U| 分别为L 和U 的大小, 即所包括的样本数。
    半监督学习就是在样本集S 上寻找最优的学习器。怎样综合利用已标签例子和未标签例子,是半监督学习须要解决的问题。
    2、半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习。
    从概率学习角度可理解为研究怎样利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系
    设计具有良好性能的分类器。   
    这样的联系的存在是建立在某些如果的基础上的。即聚类如果(cluster  assumption)和流形如果(maniford assumption)。

那么,什么时候应该采用监督学习,什么时候应该采用非监督学习呢?

        如果我们在分类的过程中有训练样本(training data),一般用监督学习的方法;如果没有训练样本,则不可能用监督学习的方法。 但即使我们没有现成的训练样本,也能从待分类的数据中人工标注一些样本,并把他们作为训练样本,用监督学习的方法来做。
如果有训练样本,监督学习就会比无监督学习更合适呢?一般来说,是这样的,但是这要具体看看训练数据的获取。 对这个现象的一个解释,就是不管是训练样本,还是待聚类的数据,并不是所有数据都是相互独立同分布的。 换句话说,数据与数据的分布之间存在联系。对于不同的场景,正负样本的分布如果会存在偏移 (可能是大的偏移,也可能偏移比较小),这样的话用监督学习的效果可能就不如用非监督学习了。

猜你喜欢

转载自my.oschina.net/u/3726752/blog/1649323