回归、分类与聚类基础学习1

学习记录

回归、分类与聚类

回归（regression）——Supervised Learning (监督学习)

1.定义

给定一个样本特征，希望预测其对应的属性值，如果是离散的，那么这就是一个分类问题，反之，如果是连续的实数，这就是一个回归问题。

有监督学习的两大应用之一，产生连续的结果，即回归问题。

有监督学习的两大应用之一，产生离散的结果，即分类问题。

无论是分类问题还是回归问题，都是想建立一个预测模型，给定一个输入，可以得到一个输出：不同的只是在分类问题中是离散的，而在回归问题中是连续的。

2.常用的回归算法

线性回归（正则化）
回归树、随机森林（RF）或梯度提升树（GBM）（集成方法）
最近邻算法等

Classification (分类)——Supervised Learning (监督学习)

1.定义

利用分类技术从数据集中提取描述数据类的一个函数或模型（也称分类器classifier），并把数据集中的每个对象归结到某个已知的对象类中。

分类技术是监督学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。所谓分类，简单来说，就是根据数据的特征或属性，划分到已有的类别中。

分类作为一种监督学习方法，要求必须事先明确各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。

2.常用的分类算法

Logistic 回归（正则化）
决策树分类法（集成方法）
基于规则的分类器
朴素的贝叶斯分类算法(native Bayesian classifier)
基于支持向量机(SVM)的分类器
神经网络法
k-最近邻法(k-nearest neighbor，kNN)
模糊分类法

Clustering(聚类)——Unsupervised Learning (无监督学习)

1.定义

如果给定一组样本特征，没有对应的属性值，若想发掘这组样本在二维空间的分布，如分析哪些样本间距离更近，哪些样本之间离很远，这就是属于聚类问题。简单地说，把相似的东西分到一组。聚类时并不关心具体的类别，只是将相似的数据聚到一起。clustering聚类事先不知道样本的属性范围，只能凭借样本在特征空间的分布来分析样本的属性。

聚类分析就是将数据划分成有意义或有用的组（簇）。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，即unsupervised learning (无监督学习)。聚类分析仅根据在数据中发现的描述对象及其关系的信息，将数据对象分组。其目标是，组内的对象相互之间是相似的，而不同组中的对象是不同的。

2.一个好的聚类方法

一个好的聚类方法能产生高质量的聚类结果——簇，这些簇具备以下两个特点：

高的簇内相似性

低的簇间相似性

聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；
聚类方法的好坏还取决于该方法是否能发现某些或者所有的隐含模式；

3.不同的聚类类型

划分聚类（Partitional Clustering）：划分聚类简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集。
层次聚类（Hierarchical Clustering）：层次聚类是嵌套簇的集族，组织成一棵树。
互斥聚类（Exclusive Clustering）：每个对象都指派到单个簇。
重叠的（Overlapping）或非互斥的（Non-exclusive）聚类：聚类用来反映一个对象，同时属于多个组（类）这一事实。例如：在大学里，一个人可能既是学生，又是雇员。
模糊聚类（Fuzzy Clustering）：每个对象以一个0（绝对不属于）和1（绝对属于）之间的隶属权值属于每个簇。换言之，簇被视为模糊集。
完全聚类（Complete Clustering）：完全聚类将每个对象指派到一个簇。
部分聚类（Partial Clustering)：部分聚类中数据集某些对象可能不属于明确定义的组。如：一些对象可能是离群点、噪声。

4.不同的簇类型

明显分离的（Well-Separated）：每个点到同簇中任一点的距离比到不同簇中所有点的距离更近。
基于原型的：每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近。对于具有连续属性的数据，簇的原型通常是质心，即簇中所有点的平均值。当质心没有意义时，原型通常是中心点，即簇中最有代表性的点。基于中心的（Center-Based）的簇：每个点到其簇中心的距离比到任何其他簇中心的距离更近。
基于图的：如果数据用图表示，其中节点是对象，而边代表对象之间的联系。簇可以定义为连通分支（Connected Component）：互相连通但不与组外对象连通的对象组。基于近邻的（Contiguity-Based）簇：其中两个对象是相连的，仅当它们的距离在指定的范围内。这意味着，每个对象到该簇某个对象的距离比到不同簇中任意点的距离更近。
基于密度的（Density-Based）：簇是对象的稠密区域，被低密度的区域环绕。
(共同性质的)概念簇（Conceptual Clusters）：可以把簇定义为有某种共同性质的对象的集合。此情况下，聚类算法都需要非常具体的簇概念来成功检测这些簇，发现这些簇的过程称作概念聚类。然而，过于复杂的簇概念将涉及模式识别。

5.常见的聚类算法包括：

K-均值聚类算法(K-means clustering)则是最典型的聚类算法；
属于划分法K中心点（K-MEDOIDS）算法、CLARANS算法；
属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等；
基于密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；
基于网格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法；
Affinity Propagation聚类；
基于模型的方法。

回归、分类与聚类基础学习1

猜你喜欢