李宏毅机器学习——无监督学习(一)

其他 2020-03-22 09:56:21 阅读次数: 0

引言

本文主要探讨无监督学习的线性方法(Linear Methods)。

聚类

在这里插入图片描述

把很多不同的图像，根据它们的相似度分成不同的组（类别），问题是要分成多少个组。

最常用的方法有：

K-means

聚类 $N$ 个数据 $X=\{x^1,\cdots,x^n,x^N\}$ 到 $K$ 个组
初始化 $K$ 个分组中心点: $c^i,i=1,2,\cdots,K$ ,可以从 $X$ 中随机 $K$ 个点出来
重复
- 对 $X$ 中的所有数据 $x^n$ ：如果 $x^n$ 最接近 $c^i$ ,那么 $x^n$ 就属于 $c^i$ ，同时令 $b^n_i=1$ ；否则令 $b^n_i=0$
- 更新所有的中心点 $c^i = \sum_{x^n}b^n_ix^n/\sum_{x^n}b^n_i$

层次凝聚聚类算法(Hierarchical Agglomerative Clustering,HAC)

步骤一：建一个树

在这里插入图片描述
假设有5个样本，这种方法怎么聚类呢，首先把这5个样本相互之间计算相似度，然后选择最相似的两个合并成一个新的样本6。现在只剩下4个样本了，再计算之间的相似度，把最相似的两个数据合并起来，这里假设是4,5合并成了7。同理，最后只剩2个样本8和7。它们之间有共同的父节点root。

步骤二：选取一条分割线(threshold)

在这里插入图片描述
假设像上面这样切一刀，那么就得到三个分组。

降维(Dimension Reduction)

在这里插入图片描述

假设你的数据从三维空间看是长这样的，但是用三维来描述它是不必要的。可以通过二维的图像来描述它。

在这里插入图片描述

比如在MNIST的手写数字识别中，一个图像有28*28的。实际上其中大多数像素点代表的东西并不是数字，可能是空白啥的。
一个极端的例子是把数字三按不同的角度进行旋转。

在这里插入图片描述

只要知道其中一幅图像和它的角度，就可以知道其他图像。

那怎么做降维呢。

还是要找到一个函数，它的输入是向量 $x$ ，输出是向量 $z$ ，其中 $z$ 的维度必须必 $x$ 小。

在这里插入图片描述

其中最简单的方法是特征选择(Feature selection)

在这里插入图片描述
最简单的情况是， $x_1$ 这个维度的特征完全没用，我们就可以直接只选择 $x_2$ 这个维度。但是这种情况比较罕见。通常每个维度或多或少都有一定的作用。

有一种常见的方法叫主成分分析(Principle component analysis,PCA)

这个 $z=Wx$ 是个很简单的线性函数，输入 $x$ 和输出 $z$ 之间的关系，就是一个线性的转换。
现在要做的事情就是根据很多输入，找出这个 $W$ 。

假设我们要降到1维的情况。此时 $z$ 就是一个标量, $W$ 是行向量：
$z_1=w^1 \cdot x$ , $w^1$ 表示 $W$ 的第一行，我们把 $x$ 与 $w^1$ 做内积，得到 $z_1$
假设 $w^1$ 的长度是1， $||w^1||_2=1$
在这里插入图片描述

意味着 $z_1$ 是 $x$ 在 $w^1$ 上的投影。

现在问题是应该选哪个 $w^1$

在这里插入图片描述

假设上图中的每个点代表一只宝可梦，横坐标是攻击力，纵坐标是防御力。把二维投影到一维，应该要选什么样的 $w^1$ 呢

在这里插入图片描述

上图的两个带箭头的直线代表两个不同的 $w^1$ ,我们希望经过投影后得到的 $z_1$ 分布越大越好。即经过投影后还能保持数据点之间的区别。

在上面的例子中，可以看出如果选择红线，点的分布会大一点。

在这里插入图片描述
选择的 $w^1$ 可能是具有具体意义的，比如这里这个 $w^1$ 代表宝可梦的强度。

如果用式子来表示的话，就是需要最大化 $z_1$ 的方差：

$Var(z_1) = \sum_{z_1} (z_1 - \overline{z_1})^2$

如果想投影到二维的平面上，这是把 $x$ 和另外的 $w^2$ 做内积可以得到 $z_2$ 。

首先 $w^2$ 的长度也是1。

$Var(z_2) = \sum_{z_2} (z_2 - \overline{z_2})^2$

同时也要最大化 $z_2$ 。但是如果仅仅是这样那不就和找 $w^1$ 的做法是一样的，因此这里需要增加一点东西，我们限制 $w^1\cdot w^2 = 0$ ，即它们之间的内积是0。

参考

李宏毅机器学习

愤怒的可乐

发布了148 篇原创文章 · 获赞 57 · 访问量 13万+

私信关注

猜你喜欢

转载自blog.csdn.net/yjw123456/article/details/104244485

李宏毅机器学习——无监督学习(一)

李宏毅机器学习——无监督学习(二)

李宏毅机器学习——无监督学习(三)

李宏毅机器学习——无监督学习(四)

李宏毅机器学习——无监督学习(五)

李宏毅机器学习——半监督学习

[李宏毅-机器学习]无监督学习 unsupervised learning

14、【李宏毅机器学习（2017）】Unsupervised Learning: Word Embedding（无监督学习：词嵌入）

15、【李宏毅机器学习（2017）】Unsupervised Learning: Neighbor Embedding（无监督学习：邻域嵌套）

13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

李宏毅深度学习笔记-无监督学习-词嵌入

李宏毅深度学习笔记-无监督学习-领域嵌入

李宏毅深度学习笔记-无监督学习-降维

12、【李宏毅机器学习（2017）】Semi-supervised Learning（半监督学习）

[李宏毅-机器学习]半监督学习 semi-supervised learning

李宏毅机器学习笔记-12：Semi-supervised Learning半监督学习

16、【李宏毅机器学习（2017）】Unsupervised Learning: Deep Auto-encoder（无监督学习：深度自动编码器）

机器学习（一）——监督学习与无监督学习

李宏毅机器学习笔记一

【(强推)李宏毅2021/2022春机器学习课程】2022-语音与影像上的神奇自监督学习模型【精】

李宏毅《机器学习深度学习》简要笔记（一）

李宏毅机器学习——结构化学习(一)

监督学习与无监督学习的区别_机器学习

机器学习中的监督学习与无监督学习

机器学习：监督学习和无监督学习

机器学习-监督学习&&无监督学习

机器学习笔记---监督学习与无监督学习

李宏毅机器学习-学习笔记

李宏毅机器学习——迁移学习

李宏毅机器学习——集成学习

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)