Day 18 ggplot2及clustering 的学习

早已破了最少两天更新一次的flag,但还是要坚持写下去吧,也算是对懒散的自己的一个额外督促。

今日学完了exploratory data analysis的第三周内容,主要介绍的是hierarchical clustering、k-means clustering、dimension reduction还有之前已经swirl过的working with plots部分。另外今天还完成了之前上周遗留的ggplot2的swirl练习。将一些学习重难点记录如下:

  1. 聚类方法的学习对我来说是一个全新的东西,但好在还算好理解。在我看来, 其核心逻辑在于:找到测量距离的方法->找到合并相似距离的点的方法。
    hierarchical clustering和k-means clustering的逻辑及操作顺序是不一样的,要注意。虽然上了视频课,但其实对这两种聚类方法的认知还是一知半解的,仍需进一步学习;其他的聚类方法也应该多做一些了解。

分享一个层次聚类分析方法的解析:https://www.cnblogs.com/payton/p/4240824.html

  1. dimension reduction–今日花了很多时间看这个,主要由于与线性代数联系紧密,所以又恶补了很多线代的相关知识来唤起自己的回忆。但这一遍看完也只是大概有了了解,仍然没有办法自己计算或推倒,仍需要多复习一下线性代数并且多对降维进行了解,毕竟是未来一定会接触到的相对基础的内容。
    对于pca和svd的图像中那些显示数据趋势的点,自己仍然有点懵懂,还需要找时间深入研究。
    线性代数的复习也迫在眉睫,尤其是矩阵计算、特征值特征向量这些基础内容。

相关的一些解析链接如下:
pca解析:http://www.cnblogs.com/pinard/p/6239403.html
svd 解析: https://www.cnblogs.com/pinard/p/6251584.html
特征值和特征向量在图像处理里的应用: https://blog.csdn.net/woainishifu/article/details/76418176

  1. ggplot2练习中的所得

ggplot2 中包含的7个components:

要注意:当在定义关于图像绘制内容时,如果赋值不是常数,则一定要先在外层嵌套aes函数,再在里面进行定义!

与lattice对待outlier的处理方式类似,ggplot2中要特别指定coord_cartesian来对显示的值域做限制:

猜你喜欢

转载自blog.csdn.net/qq_43198462/article/details/84207156