最优化：建模、算法与理论（优化建模——2）

3.10 K-均值聚类

聚类分析是统计学中的一个基本问题，其在机器学习，数据挖掘，模式识别和图像分析中有着重要应用。聚类不同于分类，在聚类问题中我们仅仅知道数据点本身，而不知道每个数据点具体的标签。聚类分析的任务就是将一些无标签的数据点按照某种相似度来进行归类，进而从数据点本身来学习其内蕴的类别特征。

给定 $p$ 维空间中的 $n$ 个数据点 $a_1,a_2,\cdots,a_n$ ，假定两个数据点之间的相似性可以通过其欧几里得距离来测量，我们的目标是将相似的点归为一类，同时将不相似的点区分开，为了简单起来我们假设类的个数为已知的，不妨记为 $k$ ，且同一个数据点只属于一个类，因此聚类问题就是要找 $k$ 个不相交的非空集合 $S_1,S_2,\cdots,S_k$ ，使得
$\{a_1,a_2,\cdots,a_n\}=S_1\cup{S_2}\cup{\cdots}\cup{S_k}$
且同类点之间的距离要足够近，为了在数学上描述"同类点之间的距离足够近"，我们定义组内距离平方和为
$W(S_1,S_2,\cdots,S_k)=\sum_{i=1}^k\sum_{a{\in}S_i}||a-c_i||^2 \tag{3.10.1}$
这里 $c_i$ 为第 $i$ 类数据点的中心，注意在问题中就假设了每类为非空的
定义好聚类标准后，就可以建议优化模型了。我们想要找到一个聚类方法，使得组内距离平方和最小，即
$\min_{S_1,S_2,\cdots,S_k}\sum_{i=1}^k\sum_{a{\in}S_i}||a-c_i||^2 \\ s.t. {\quad} \{a_1,a_2,\cdots,a_n\}=S_1\cup{S_2}\cup{\cdots}\cup{S_k} \\ S_j \cap S_j {\not=}\varnothing,\forall{i {\not=}j} \tag{3.10.2}$
问题（3.10.2）的自变量是数据点集合的分割方式，看起来比较难以处理，因此有必要将问题写成我们熟悉的形式，接下来给出问题的两种矩阵表达方式，它们之间是等价的。

1. K-均值聚类等价表述一

在原始聚类问题中，组内距离平方和定义为(3.10.1)，即需要计算 $S_i$ 中的点到它们中心点 $c_i$ 的平方和，实际上，选取中心点 $c_i$ 作为参考点并不是必须的，我们完全可以选取其他点 $h_i$ 来作为参照来计算组内距离（其实这个 $h_i$ 通过优化最后也是表示的中心点），因此组内距离平方和可以推广为
$W(S_1,S_2,\cdots,S_k,H)=\sum_{i=1}^k\sum_{a{\in}S_i}||a-h_i||^2$
其中 $H{\in}R^{k \times p}$ （k个类的一个点（维度为p））且第 $i$ 行的向量为 $h_i^T$ ，为了表示聚类方式 $S_1,S_2,\cdots,S_k$ ，一个很自然的想法是使用一个向量 ${\phi_i}{\in}R^k$ 来表示 $a_i$ 所处的类别
${(\phi_i)}_j=\left\{ \begin{matrix} 1，a_i{\in}S_j \\ 0，a_i{\notin}S_j \end{matrix} \right.$
聚类问题等价描述为
$\min_{\phi,H}||A-{\Phi}H||_F^2 \\ s.t. {\quad}{\Phi}{\in}R^{n \times k}，每一行只有一个元素为1，其余为0 \\ H{\in}R^{k \times p}\tag{3.10.3}$
这里的 ${\Phi}$ 的第 $i$ 行的向量就是 ${\phi}_i^T$

接下来说明3.10.3和原问题3.10.2是等价的，为此只需要说明参考点集 $H$ 的取法实际上就是每一类的中点，当固定 $P hi$ 时，第 $i$ 类点的组内距离平方和为
$\sum_{a{\in}S_i}||a-h_i||^2$
根据二次函数的性质，当 $h_i=\frac{1}{n}{\sum_{a{\in}S_i}}a$ 时，组内距离平方和最小
所以 $h_i$ 一定会被优化成第 $i$ 类的中心点的

我们引入问题（3.10.3）的理由有两个
（1）形式简洁，且将不易处理的自变量“分割方式”转化为矩阵
（2）可以看成是一个矩阵分解问题，便于我们设计算法

2.K-均值聚类等价表述二

K-均值聚类的第二种等价表述利用了列正交矩阵的性质，这种表达方式比问题（3.10.3）相比更为简洁，首先定义 $I_{S_t}，1{\le}t{\le}k$ 为 $n$ 维空间中每个分量取值0或1的向量，且
$I_{S_j}(i)=\left\{ \begin{matrix} 1，a_i{\in}S_t \\ 0，a_i{\notin}S_t \end{matrix} \right.$
可以证明，第 $t$ 类 $S_t$ 中每个点到其中心点的距离平方和可以写成 $\frac{1}{2n_t}Tr(DI_{S_t}I_{S_t}^T)$ ，其中 $D{\in}R^{n \times n}$ 的元素为 $D_{ij}=||a_i-a_j||^2$ 。这说明 $S_t$ 中每个点到中心点的距离平方和与 $S_t$ 中所有点两两之间距离平方和有关，因此，我们将问题（3.10.2）转化为
$\min_{S_1,S_2,\cdots,S_k}\frac{1}{2}Tr(DX) \\ s.t. {\quad}X={\sum}_{t=1}^k\frac{1}{n_t}I_{S_t}I_{S_t}^T \\ S_1{\cup}S_2{\cup}\cdots{\cup}S_k=\{a_1,a_2,\cdots,a_n\} \\ S_i{\cap}S_j={\varnothing},\forall{i{\not=}j}\tag{3.10.4}$
对半正定举证 $X$ 进行分解 $X=YY^T,Y{\in}R^{n \times k}$ ，我们可以进一步得到如下矩阵优化问题（这里 $I$ 是 $n$ 维向量且分量全为1）
$\min_{Y{\in}R^{n \times k}}Tr(Y^TDY) \\ s.t.{\quad}YY^TI=I, \\ YY^T=I_k，Y{\ge}0\tag{3.10.5}$
求得3.10.5的解 $YY^T$ 就对应（3.10.4）的解（说实话这一块我没看懂，Kmeans直接去做的话还是蛮简单的）

3.11 图像处理中的全变差模型

这一块可能需要对图像处理有基础的同学才好看懂，反正我目前是看的云里雾里

简要介绍一下基于全变差（TV）的图像处理模型，对于定义在区域 ${\Omega}\subset{R^2}$ 的函数 $u (x, y)$ ，其全变差
$||u||_{TV}=\int_{\Omega}||Du||dx\tag{3.11.1}$
其中梯度算子 $D$ 满足：
$Du=(\frac{\partial{u}}{\partial{x}},\frac{\partial{u}}{\partial{y}})$
这里， $∣∣ D u ∣∣$ 可以采用 $l_1$ 范数，即
$||Du||_1=|\frac{\partial{u}}{\partial{x}}|+|\frac{\partial{u}}{\partial{y}}|$
称对应的全变差是各向异性的
如果采用 $l_2$ 范数，即
$||Du||_2=\sqrt{(\frac{\partial{u}}{\partial{x}})^2+({\frac{\partial{u}}{\partial{y}})^2}}$
称对应的全变差是各向同性的。

令 $b (x, y)$ 是观测到的带噪声的图像， $A$ 是线性算子，在经典的 $R u d in - O s h er - F a t e mi (ROF)$ 模型下，图像去噪和去模糊问题可以写成
$\min_u||Au-b||_{L2}^2+{\lambda}||u||_{TV}\tag{3.11.2}$
这里，定义域为 $\Omega$ 的函数 $f$ 的 $L_2$ 范数定义为
$||f||_{L2}=(\int_{\Omega}f^2dx)^{\frac{1}{2}}$
如果 $A$ 是单位算子或模糊算子，则上述模型分别对应图像去噪和去模糊，目标函数第一项是数据保真项，即重构出的照片要与已有的采集信息相容。第二项是正则项，用来保证重构出的图像的阶跃是稀疏的，或者说使得重构出的图像类似于一个分片常数函数。

下面给出连续模型（3.11.2）的离散格式，为简单起见，假设区域 $\Omega=[0,1] \times [0,1]$ 并且将它离散为 $\times n$ 的网格，则格点 $(\frac{i}{n},\frac{j}{n})$ 对应指标 $(i, j)$ ，我们将图像 $u$ 表示矩阵 $U{\in}R^{n \times n}$ ，其元素 $u_{i,j}$ 对应指标 $(i, j)$ 运用前向差分离散梯度算子 $D$ 得到 $DU)_{i,j}=((D_1U)_{i,j},(D_2U)_{i,j})$ ，且有
$(D_1U)_{i,j}=\left\{ \begin{matrix} u_{i+1,j}-u_{i,j},i<n \\ 0，i=n \end{matrix} \right.$
$(D_2U)_{i,j}=\left\{ \begin{matrix} u_{i,j+1}-u_{i,j},j<n \\ 0，j=n \end{matrix} \right.$

这里对于 $i, j = n$ 的点使用诺依曼边界条件 $\frac{\partial{u}}{\partial{n}}=0$ 且有 $DU{\in}R^{n \times n \times 2}$ 那么离散全变差可以定义为
$||U||_{TV}=\sum_{i{\le}i,j{\le}n}||(DU)_{i,j}||\tag{3.11.3}$
其中 $∣∣ \cdot ∣∣$ 可以是 $l_1$ 或 $l_2$ 范数
对于任意的 $U,V{\in}R^{n \times n \times 2}$ ，我们定义内积
$<U,V>={\sum_{1{\le}i,j{\le}n,1{\le}k{\le}2}}u_{i,j,k}v_{i,j,k}$
那么根据定义，离散的散度算子 $G$ 需满足
$<U,GV>=-<DU,V>,\forall{U}{\in}R^{n \times n},V{\in}R^{n \times n \times 2}$
（这里散度算子干嘛的我也不太清楚）
记 $w_{ij}=(w_{i,j,1},w_{i,j,2})^T,W=(w_{ij})_{i,j=1}^n{\in}R^{n \times n \times 2}$
我们有
$(GW)_{ij}={\Delta_{i,j,1}}+{\Delta}_{i,j,2}\tag{3.11.4}$
其中
${\Delta_{i,j,1}}=\left\{ \begin{matrix} w_{i,j,1}-w_{i-1,j,1},1<i<n \\ w_{i,j,1}，i=1 \\ -w_{i,j,1},i=n \end{matrix} \right.$
${\Delta_{i,j,2}}=\left\{ \begin{matrix} w_{i,j,1}-w_{i,j-1,1},1<j<n \\ w_{i,j,1}，j=1 \\ -w_{i,j,1},j=n \end{matrix} \right.$
运用合适的离散格式处理后，我们可得到离散的线性算子 $A$ 和图像 $B$ （这里运用了连续情形的记号，但 $A$ 的含义完全不同），因此由连续问题得到离散问题
$\min_{U{\in}R^{n \times n}}||AU-B||_F^2+\lambda||U||_{TV}\tag{3.11.5}$
在这里插入图片描述

在实际中，除了考虑 $ROF$ 模型外，我们还考虑其一个变形， $TV-L^1$ 模型，离散格式为
$\min_{U{\in}R^{n \times n}}||AU-B||_1+\lambda||U||_{TV}\tag{3.11.6}$
上述模型的一个好处是可以更好地处理非高斯噪声的情形，比如椒盐噪声等等

3.12 小波模型

书上写的小波模型才抽象了，很多变量没告诉什么意思就直接说了，这里直接跳过了。。以后要是用到了再去细看