13、Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

编程语言 2018-08-27 18:32:58 阅读次数: 0

在前面的博客中介绍了监督学习和半监督学习，本篇博客将开始介绍无监督学习。

目录

无监督学习介绍

监督学习、半监督学习、无监督学习

无监督学习的用处

聚类（Clustering）

Hierarchical Agglomerative Clustering (HAC)

降维（ Dimension Reduction）

Feature selection

Principle Component Analysis (PCA)

PCA-decorrelation

Matrix Factorization

无监督学习介绍

监督学习、半监督学习、无监督学习

监督学习中的样本 $\{(x^r,\hat{y}^r)\}^R_{r=1}$ 中的 $\hat{y}$ 是已知的，所以监督学习算法可以在训练集数据中充分使用数据的信息
半监督学习的样本 $\{(x^r,\hat{y}^r)\}^R_{r=1},\{x^u\}^{R+U}_{u=R}$ 中只有R个样本的 $\hat{y}$ 是已知，U个样本的 $\hat{y}$ 未知，且通常U远大于R

Transductive learning ：将未知标签的数据作为测试集数据（用了未知标签的数据的feature）
Inductive learning：未知标签的数据不作为测试集数据

无监督学习的样本 $\{x^r\}^R_{r=1}$ 中的 $\hat{y}$ 都是未知的

无监督学习的用处

聚类（Clustering）和降维（ Dimension Reduction）
Generation

聚类（Clustering）

K均值聚类

将 $X=\{x^1,x^2\dots x^N\}$ 样本聚合成K个类
初始化类中心 $c^i$ ， $i=1,2,\dots K$
重复

利用 $c^i$ 将样本分为K各类
利用分好的K个类中的样本重新算出每一个类的 $c^i$

Hierarchical Agglomerative Clustering (HAC)

假设有5个样本，计算两两之间的相似度，将最相似的两个样本聚合在一起（比如第一个和第二个），再将剩下的4个聚合在一起，以此类推。

降维（ Dimension Reduction）

Feature selection

直接按照特征的分布来选取有分布的特征。

Principle Component Analysis (PCA)

PCA介绍

现在举一个从二维数据降到一维的情况， $w^1x$ 表示 $x$ 在 $w$ 向量上的投影，我们希望找到 $w$ 使得样本投影在这一向量上的点的分布方差最大，如图，我们选择Large variance这一向量。

现在考虑高维的情况，此时同样的思路也是找到相互垂直的 $w^1,w^2\dots w^K$ ，使得 $z^1,z^2\dots z^K$ 分布方差最大。

W求解

接下来推导如何计算 $w$ ，先计算 $w^1$ ：

接下来计算 $w^2$ ，同样也是极大化 $(w^2)^TSw^2$ ：

PCA-decorrelation

降维之后的 $z$ 之间彼此是互相垂直的（ $cov(z)$ 是一个对角矩阵），由此得出的结果再作为其他模型的输入，可以大大减少模型的参数。

PCA-NN

PCA可以看作是一个一层的神经网络，我们现在找到了 $w^1,w^2\dots w^K$ ，图中 $\hat{x}$ 表示误差，则可以表示为图中的神经网络（3维降为2维）。

直接用Gradient Descent训练出来的w和PCA中的不一样，因为PCA中的w一定是垂直的，Gradient Descent训练出来的w不一定

Matrix Factorization

现在假设有两种object，它们之间是受到共同的factor的影响，举个例子，现在假设有 $A$ 、 $B$ 、 $C$ 、 $D$ 和 $E$ 五个人，有 $r^1$ 、 $r^2$ 、 $r^3$ 和 $r^4$ 四种手办，可以直观地看到 $r^1$ 多的人倾向于有更多的 $r^2$ ， $r^3$ 多的人倾向于有更多的 $r^4$ ，因此二者之间存在这隐藏的关系（萌、呆），属性相同的人和手办相互match（推荐系统！！！），越match二者的latent factor内积越大（如 $r ^A r^1\approx 5$ ）。

现在考虑更复杂的情况，假设A所在的地区就没有发行手办3，那么此时应该用？表示，此时应如下图，利用梯度下降算法最小化 $L$ 。

最终计算出 $A$ 、 $B$ 、 $C$ 、 $D$ 和 $E$ 五个人与 $r^1$ 、 $r^2$ 、 $r^3$ 和 $r^4$ 四种手办的共同属性，并且可以由此计算出？值

现在考虑更精致的模型，考虑其他独立的因素对手办购买的影响，比如 $r^A r^1+b_A+b_1\approx 5$ （除了潜在因子 $r^A,r^1$ 还考虑了 $A$ 这个人购买手办的意愿 $b_A$ 与手办1吸引人购买的能力 $b_1$ ），最小化新的 $L$ 。

课程视频点击我

猜你喜欢

转载自blog.csdn.net/qq_17438303/article/details/82107276

13、Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

Unsupervised Learning: Linear Dimension Reduction---无监督学习：线性降维

13、【李宏毅机器学习（2017）】Unsupervised Learning: Linear Dimension Reduction（无监督学习：线性降维）

李宏毅 DeepLearning-2017-Unsupervised Learning PCA-linear Dimension Reduction

Unsupervised Learning 无监督学习

Unsupervised learning无监督学习

机器学习Machine Learning：特征选择Feature Selection 与数据降维Dimension Reduction的区别？

1.ML-监督学习(supervised learning)与无监督学习(unsupervised learning)

机器学习笔记——无监督学习（unsupervised learning）

无监督学习Unsupervised learning（待更新）

Unsupervised Learning Algorithms 无监督学习算法总结

李宏毅机器学习课程笔记5：Unsupervised Learning - Linear Methods、Word Embedding、Neighbor Embedding

【(强推)李宏毅2021/2022春机器学习课程】Unsupervised Learning - Linear Methods

非监督学习(unsupervised learning)

数据降维（Dimension Reduction）

Lecture 13 - Unsupervised Learning - PCA

【Machine Learning 系列】一文带你详解什么是无监督学习(Unsupervised Learning)

李宏毅机器学习课程笔记5：Unsupervised Learning - Linear Methods、Word Embedding、Neighbor Embedding 李宏毅机器学习课程笔记5：Unsupervised Learning - Linear Methods、Word Embedding、Neighbor Embedding

Dimension reduction

如何区分监督学习(supervised learning)和非监督学习(unsupervised learning)

【吴恩达机器学习笔记】003 无监督学习（Unsupervised Learning）

吴恩达机器学习笔记002——Unsupervised Learning（无监督学习）

[李宏毅-机器学习]无监督学习 unsupervised learning

机器学习-24-Unsupervised Learning: Generation(无监督学习之生成模型)

131.005 Unsupervised Learning - Cluster | 非监督学习 - 聚类

dimension reduction （降维）方法总结

李宏毅机器学习笔记-13：Unsupervised Learning: Principle Component Analysis

机器学习-有监督学习-降维：LDA算法(Linear Discriminant Analysis, 线性判别分析)

【机器学习】Coursera Machine Learning - Linear Regression 线性回归

15、【李宏毅机器学习（2017）】Unsupervised Learning: Neighbor Embedding（无监督学习：邻域嵌套）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)