无监督学习

无监督学习是指在没有标签的数据上进行学习，即没有监督信号的指导下进行模型训练。在无监督学习中，我们主要关注从无标签数据中学习出数据的低维结构和隐藏的模式。

通过无标签数据，我们可以预测以下内容：

聚类（Clustering）

• 将数据对象分组为子集或“簇”：

• 聚类是一项常见而重要的任务，在科学、工程、信息科学和其他领域中都有广泛的应用：

在这里插入图片描述

输入：输入点的训练集
输出：将每个点分配到一个簇中
其中 $Dtrain = \{x1, ..., xn\}$ 为输入点的训练集
$(C (1), ..., C (n))$ 为将每个点分配到的簇，其中 $C (i)$ 属于 ${1, ..., k\}$ 表示第 i 个点所属的簇。

K-means的目标是最小化所有数据点与其所属簇中心点之间的欧氏距离的平方和。

K-means的算法过程如下：

$\textbf{x}$ 为样本， $μ_{C(j)}$ 表示某个簇 $C (j)$ 的中心，
下式表示将 $x_j$ 分到 $C (j)$ 这个簇上时，到簇中心 $μ_{C(j)}$ 的欧式距离求和
在这里插入图片描述

找到如何划分簇 $C$ 、如何选择簇中心 $μ$ ，使得每个簇的样本到簇中心的欧氏距离和最小
在这里插入图片描述

步骤1：如果知道聚类中心，可以找到最佳 $C$
- 固定 $μ$ ，优化 $C$
  
  将每个点指定给最近的聚类中心
步骤2：如果知道集簇分配 $C$ ，可以找到最好的聚类中心 $μ$
- 固定 $C$ ，优化 $μ$
  
  解决方案：第 $i$ 个簇中选择该簇所有点的平均值重新作为簇中心，正好是步骤2（重新选择聚类中心）