ML之K-means:关于Clustering和DR那些哈哈事之详细攻略

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_41185868/article/details/79644509

1、关于K-means

K-means原理的理解可视化:让你更加容易它的算法过程

https://www.naftaliharris.com/blog/visualizing-k-means-clusteringniu/

K-means的一个应用是分类手写数字。这种算法可以在数字识别上得到相当好的结果,

参阅:http://ieeexplore.ieee.org/document/6755106/?reload=true

     假设我们有用像素亮度的长向量表示的数字的图像。假设这些图像是黑白两色的,大小为 64×64 像素。每个像素代表一个维度。那么这些图像就生活在一个有 64×64=4096 个维度的世界里。在这个 4096 维的世界里,K 均值聚类让我们可以按接近程度对这些图像分组,并且假设这些靠得很近的图像都是同一个数字。

2、关于Hierarchical clustering

参阅:https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/hierarchical.html

更多有关Hierarchical clustering的详细信息,可参阅这个视频:https://www.youtube.com/watch?v=OcoE7JlbXvY

3、关于PCA

减少复杂度(即这里的维度),同时保留结构(方差)

动态化演示参阅:https://www.mathsisfun.com/data/cartesian-coordinates-interactive.html

更多知识请推荐参阅Samer 写的论文,介绍了使用 PCA(以及扩散映射等技术)试图理解维基解密披露的电报:

http://mou3amalet.com/cargocollective/675_xuesabri-final.pdf

4、关于SVD

根据Andrew Gibiansky 写的关于 SVD 的文章中代码:

http://andrew.gibiansky.com/blog/mathematics/cool-linear-algebra-singular-value-decomposition/

可以发现,如果我们根据大小排序这些奇异值(矩阵 Σ 的值),那么前 50 个奇异值将包含整个矩阵 Σ 的大小的 85%。根据这个事实,我们可以丢弃后面的 250 个值(即将它们设为 0),仅保留这张小狗图像的「rank(秩)50」版本。值的数量差不多少了 5 倍,但质量却下降很少。上述计算的原因是当我们执行 UΣ'V 运算时,U 和 V 矩阵中的一部分因为乘 0 也被丢弃(其中 Σ' 是 Σ 的修改后版本,其中仅包含了前面的 30 个值)。

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/79644509