聚类分析(一) 介绍

一、 聚类算法
1.1引言
聚类分析,在英文中是Cluster analysis,是机器学习中无监督学习的典型代表。无监督学习没有训练过程,给定一些样本数据,让机器学习算法直接对这些数据进行分析,得到数据的某些知识。而无监督学习的另外一类典型算法是数据降维,它将一个高维向量变换到低维空间中,并且要保持数据的一些内在信息和结构。
1.2 介绍
将聚类算法按其发展进程大致分为传统聚类算法和现代聚类算法,传统聚类算法有:基于层次聚类、基于划分聚类、基于密度聚类、基于网格聚类,现代聚类算法有:模糊聚类、量子聚类、谱聚类、模型聚类。
1.2.1 传统聚类算法
传统聚类算法多数属于硬聚类,每个元素只能属于一个集合,在元素特征模糊时聚类结果将受到影响。

  1. 基于层次聚类
    层次聚类算法出现于1963年[31],其的指导思想是对给定待聚类数据集合进行层次化分解。此算法又称为数据类算法,次算法根据一定的链接规则将数据以层次架构分裂或者聚合,最终形成聚类结果。它的一些实现方式SLINK[27]、CLINK[33] ,则诞生于1970年代。
    BIRCH算法是层次算法中的典型代表算法,其核CF(Cluster Feature)和CF树。
    CF是一个存储了聚类信息的三元组,其中包含了N (待聚类项个数),LS (N个数据点的线性和),SS (N个数据点的平方和)。LS和SS分别反映了聚类的质心和聚类的直径大小。
    CF树有两个参数:分支因子和阈值T。分支因子包括非叶节点CF条目的最大个数和叶节点CF条目的最大个数。这里叶节点看作聚合而成的一个簇。阈值T限定了所有条目的最大半径或直径。
    BIRCH算法主要有四个阶段。第一阶段扫描待聚类的所有数据项,根据初始阈值T初始化一颗CF树。第二阶段采用聚合思路,通过增加阈值T重建CF树,使其聚合度上升。第三、四阶段,对已有的CF树实行全局聚类以得到更好的聚类效果。
    然而BIRCH算法并未给出详细的设定初始阈值T的方法,只是简单地赋值T=0,在第二阶段中,BIRCH 算法也并未给出增加T值的规则。这也正是近年来学者对于改进BIRCH算法的一个方向。
  2. 基于划分聚类
    划分法属于硬聚类,指导思想是将给定的数据集初始分裂为K个簇,每个簇至少包含一条数据记录,然后通过反复迭代至每个簇不在改变,即得出聚类结果。划分聚类在初始的一步中即将数据分成给定个数个簇。在算法过程中还需使用准则函数对划分结果进行判断,易产生最优聚类结果。
    K-MEANS[25]所有聚类算法中知名度最高的,其历史可以追溯到1967年,此后出现了大量的改进算法,也有大量成功的应用,K-MEANS是所有聚类算法中变种和改进型最多的。通过迭代不断移动个聚簇中心和簇类成员,直到得到理想的结果。通过K均值算法得到的聚簇结果,簇内项相似度很高,簇间项相似度很低,具有较好的局部最优特性,但并非是全局最优解。
  3. 基于密度聚类
    基于层次与划分的聚类算法划分都是以距离为基础,容易产生类圆形的凸聚类,而密度算法很好的克服了这个缺点。密度算法的指导思想是将空间中密度大于某一阈值的点加入到一个聚类中。
    Mean Shift算法[37]早在1995年就被用于聚类问题,和DBSCAN算法[30],OPTICS算法[36]一样,同属于基于密度的聚类算法。
    DBSCAN算法[19]是基于密度聚类的经典算法。它将簇定义为密度相连的点的最大集合,将足够高密度的区域划分为簇。这样的算法对噪声具有健壮性,并且可以发现任意形状的聚簇。DBSCAN 的基本算法流程为,从任意对象P开始根据阈值和参数通过广度优先搜索提取从P密度可达的所有对象,得到一个聚类。若P是核心对象,则可以一次标记相应对象为当前类并以此为基础进行扩展。得到一个完整的聚类后,在选择一个新的对象重复上述过程。若P是边界对象,则将其标记为噪声并舍弃。
    尽管DBSCAN算法改进完善了上述两种算法的一些缺陷,但此算法也存在不足。如聚类的结果与参数关系较大,阈值过大容易将同- -聚类分割,阈值过小容易将不同聚类合并。此外固定的阈值参数对于稀疏程度不同的数据不具适应性,密度小的区域同一聚类易被分割,密度大的区域不同聚类易被合并。
  4. 基于网格聚类
    基于网格的方法,通过采用一个多分辨率的网格数据结构,近数据空间划分为有限个单元,之后所有的处理都是以单个单元为对象的。这样的处理使得算法处理速度很快,处理工作量与数据项个数无关,而与划分的网格个数有关。
    STING算法[22]是传统的基于网格的算法,它将空间区域划分为矩形单元后处理。Wave Cluster算法[23]先在空间上加一多维网格结构汇总数据,然后采用小波变换变换元特征空间,在再变换后的空间中寻找密集区域。
    1.2.2 现代聚类方法
    1.模糊聚类
    1969年,数据集模糊划分[24]的概念被Ruspini首先提出,并首次系统探究了关于模糊聚类的算法,其后的一-些学者也相继提出了基于模糊关系的聚类算法。但由于当数据集较大时,基于模糊关系的聚类算法需要先建立模糊等价矩阵,计算量非常大,这类方法也就逐渐减少研究了。与此同时,借助于图论、动态规划、进化算法、马尔科夫随机场等技术,学者们提出了许多其他的模糊聚类算法,其中应用最为广泛的是基于目标函数的聚类方法。该方法设计简单,应用范围广,本质来说可归结为较为简单的优化问题。模糊C均值(FCM)算法是基于木变函数的模糊聚类算法的典型代表。自Dumn于1974年发表后,便被人们不断完善发展。
    FCM算法最早是从硬聚类目标函数的优化中导出的,通过将项与对应簇的中心点距离用隶属平方加权,将类内误差平方和目标函数改写为类内加权误差平方和目标函数,得到了关于给予目标函数模糊聚类的一种大致描述。由于FCM算法的实用性和数据处理效果,对于此算法的研究有着蓬勃的发展,目前己经形成了庞大的体系。对于FCM的算法研究和改进大致有如下方面:基于目标函数的研究,不同数据类型的聚类,隶属度约束条件的研究、算法实现等。
    基于目标函数的研究中,2011年,Tsai在文献[14]提出了一种包含距离变量的新居里准则,在FCM算法和KFCM算法中尝试应用并得到了较好的效果。当数据并非球体分布式,通过核函数改造目标函数中的距离测度成为了一种解决方案。2010年,Gravest 和Pedrycz提出了一种综合比较分析的模糊核聚类算法,在一定程度上解决了非球体分布数据的聚类问题。但核函数的选择构造及参数设定又是一个新的难题。
    2.量子聚类
    随着量子力学理论在实践方面的发展,量子计算在物理方面的实现极大地推动了量子计算理论与量子算法的创新。
    2002年,DavidHome将量子机制与聚类算法结合,通过将数据映射到量子空间,构建波函数,测量势能方程来获取最终的聚类中心,提出了一种量子聚类算法[15]。2010 年曾成、徐红等人在文献[16]采用量子遗传算法,将聚类问题转化为聚类中心学有问题,提出了一种基于量子遗传算法的聚类方法。
    3.谱聚类
    谱聚类[28]是聚类分析中一个新兴且具有生命力的分支,是近年来国际上机器学习数据挖掘领域的-一个新的研究热点。谱聚类建立在谱图理论基础上,克服了传统聚类中对于样本空间形状的局限,以及可能陷入局部最优而非全局最优的问题。
    谱聚类算法本质上是将聚类问题转化为图的最优划分问题,属于对点聚类算法。但由于以谱图理论为基础,要实现谱聚类需要一定的图论方面的理论知识基础。其中主要包括三个方面:一、图划分准则:包括最小割集准则、规范割集准则、比例割集准则、平均割集准则、最小最大割集准则、多路规范割集准则。二、相似矩阵、度矩阵及Laplacian矩阵。三、势函数、Fiedler 向量及谱。
    谱聚类算法大致分为三个阶段。阶段一,构建矩阵W表示样本集。阶段二,计算W的前k个特征值和特征向量,构建特征向量空间。阶段三,利用K-means或其他经典聚类算法对向量空间中的特征向量进行聚类。不同的谱映射方法和准则函数的选择形成了不同的谱聚类算法。在文献[18]中,作者将谱聚类按使用的划分准则分为迭代谱和多路谱两类,并给出了各类中典型算法的介绍。

[1] H. Shaker, S. Member, H. Zareipour, S. Member, and D. Wood, “A Data-Driven Approach for Estimating the Power Generation of Invisible Solar Sites,” vol. 7, no. 5, pp. 2466–2476, 2016.
[2] R. Azimi, M. Ghayekhloo, and M. Ghofrani, “A hybrid method based on a new clustering technique and multilayer perceptron neural networks for hourly solar radiation forecasting,” ENERGY Convers. Manag., vol. 118, pp. 331–344, 2016.
[3] K. Benmouiza and A. Cheknane, “Forecasting hourly global solar radiation using hybrid k -means and nonlinear autoregressive neural network models,” Energy Convers. Manag., vol. 75, pp. 561–569, 2013.
[4] E. Garoudja, F. Harrou, Y. Sun, K. Kara, A. Chouder, and S. Silvestre, “Statistical fault detection in photovoltaic systems,” Sol. Energy, vol. 150, pp. 485–499, 2017.
[5] K. Y. Bae, S. Member, H. S. Jang, S. Member, and D. K. Sung, “Hourly Solar Irradiance Prediction Based on Support Vector Machine and Its Error Analysis,” vol. 32, no. 2, pp. 935–945, 2017.
[6] E. Scolari, F. Sossan, and M. Paolone, “Irradiance prediction intervals for PV stochastic generation in microgrid applications,” Sol. Energy, vol. 139, pp. 116–129, 2016.
[7] D. Tsai, G. Li, W. Li, and W. Chiu, “Advanced Engineering Informatics Defect detection in multi-crystal solar cells using clustering with,” Adv. Eng. Informatics, vol. 29, no. 3, pp. 419–430, 2015.
[8] A. Bruce, I. Macgill, and R. Passey, “Impact of Distributed Photovoltaic Systems on Zone Substation Peak Demand,” vol. 9, no. 2, pp. 621–629, 2018.
[9] A. Di, M. Carmela, D. Piazza, A. Ragusa, and G. Vitale, “Environmental data processing by clustering methods for energy forecast and planning,” Renew. Energy, vol. 36, no. 3, pp. 1063–1074, 2011.
[10] Y. Yagi et al., “Diagnostic technology and an expert system for photovoltaic systems using the learning method,” vol. 75, pp. 655–663, 2003.
[11] L. Sandrolini, M. Artioli, and U. Reggiani, “Numerical method for the extraction of photovoltaic module double-diode model parameters through cluster analysis,” Appl. Energy, vol. 87, no. 2, pp. 442–451, 2010.
[12] A. Triki-lahiani, A. B. Abdelghani, and I. Slama-belkhodja, “Fault detection and monitoring systems for photovoltaic installations : A review,” Renew. Sustain. Energy Rev., vol. 82, no. March 2017, pp. 2680–2692, 2018.
[13] S. R. Madeti and S. N. Singh, “Online modular level fault detection algorithm for grid-tied and o ff -grid PV systems,” Sol. Energy, vol. 157, no. August, pp. 349–364, 2017.
[14] A. A. Munshi and Y. A. I. Mohamed, “ScienceDirect Photovoltaic power pattern clustering based on conventional and swarm clustering methods,” Sol. Energy, vol. 124, pp. 39–56, 2016.
[15] O. P. Mahela and A. G. Shaik, “Power quality recognition in distribution system with solar energy penetration using S -transform and Fuzzy C-means clustering,” Renew. Energy, vol. 106, pp. 37–51, 2017.
[16] K. Benmouiza, M. Tadj, and A. Cheknane, “Electrical Power and Energy Systems Classification of hourly solar radiation using fuzzy c -means algorithm for optimal stand-alone PV system sizing,” Int. J. Electr. Power Energy Syst., vol. 82, pp. 233–241, 2016.
[17] X. Ruhang, “Characteristics and prospective of China ’ s PV development route : Based on data of world PV industry 2000 – 2010,” vol. 56, pp. 1032–1043, 2016.
[18] A. Zagouras, H. T. C. Pedro, and C. F. M. Coimbra, “ScienceDirect Clustering the solar resource for grid management in island mode,” Sol. Energy, vol. 110, pp. 507–518, 2014.
[19]荣秋生,颜君彪,郭国强《基于DBSCAIT聚类算法的研究与实现》[J].《计算机应用》 ,2004, 24(4):45-46.
[20]胡彩平,秦小麟,《一种改进的基于密度的抽样聚类算法》[J]. 《中国图像图形学报》,2007,12 (11):2031-2036.
[21]周水庚,周傲英,曹品.《基于数据区分的DBSCAI算法》[J].《计算机研究与发展》 ,2000, 37 (10):1153-1159.
[22]Wang W,Yang J,Muntz R STING:A Statistical Information Grid Approach to Spatial Data Mining[C] In:Proceedings of the 23rd VLDB Conference. Athens, Greece:[s.n], 1997:186-195.
[23]Sheilholeslami G,Chatterjee S,Zhang A.WaveCluster:AMulti-Resolution ClusteringApproach forVery Large Spatial Databases[C] In: Proceedings of the 24th VLDB Conference. MewYork, USA:[s. n ], 1998: 428-439.
[24]Ruspini A new approach to clustering Inf Cont… 1969, 15: 22 28.
[25]Isai Du-Ming, Lin ChungChan Fuzry C-means based clustering for linearly and nonlinearly separable data Pattern Recognition, 2011, 44: 1750" "1760.
[26] David Horn: Assaf Gottlieb. The Method of Quantum Clustering[J], Advances in lew alInformati onProcessing Systems, 2001:769-77
[27]曾成,赵锡均,徐红.基于量子遗传算法的聚类方法[C]. Proceedings of the 29th Chinese Control Conference July 29- 31, 2010Beijing China.
[28]Jain A, Murty M,Flynn P. Data clustering:A Review[J]. ACM Computing Surveys, 1999,31 3):264-323
[29]蔡晓妍,戴冠中,杨黎斌《谱聚类算法综述》[J]. 计算机科学, 2008, 35 (7):14-18
[30] MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. 1. University of California Press. pp. 281–297. MR 0214227. Zbl 0214.46201. Retrieved 2009-04-07.
[31] Ward, Joe H. (1963). “Hierarchical Grouping to Optimize an Objective Function”. Journal of the American Statistical Association. 58 (301): 236–244. doi:10.2307/2282967. JSTOR 2282967. MR 0148188.
[32] R. Sibson (1973). “SLINK: an optimally efficient algorithm for the single-link cluster method” (PDF). The Computer Journal. British Computer Society. 16 (1): 30–34. doi:10.1093/comjnl/16.1.30.
[33] D. Defays (1977). “An efficient algorithm for a complete-link method”. The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
[34] Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). “Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society, Series B. 39 (1): 1–38. JSTOR 2984875. MR 0501537.
[35] Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M., eds. A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–231.
[36] Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel, Jörg Sander (1999). OPTICS: Ordering Points To Identify the Clustering Structure. ACM SIGMOD international conference on Management of data. ACM Press. pp. 49–60.
[37] Yizong Cheng. Mean Shift, Mode Seeking, and Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995.
[38] Jianbo Shi and Jitendra Malik, “Normalized Cuts and Image Segmentation”, IEEE Transactions on PAMI, Vol. 22, No. 8, Aug 2000.

猜你喜欢

转载自blog.csdn.net/sinat_38648388/article/details/83411457