压缩感知与字典学习的联系 ---交流学习用

字典，从字面意思上来理解就是“字的词典"，字典是对文字的一种记录，是对语言的一种凝练，是对知识的一种概括。提起《现代汉语字典》，你会想起什么？《现代汉语字典》收录了绝大部分汉字，我们通过它可以查阅生词僻字，并且可以造句写文章。

高纬度数据处理起来困难，我们一般会对高维数据进行降维处理，而数据降维用的最多的是PCA（主成分分析）法，但是基于线性子空间模型的PCA法不适用于处理现实世界中结构复杂的数据，比如自然图像。故我们一般使用稀疏信号模型来对图像数据进行降维。

稀疏信号模型表示：每个数据样本都可以由某个字典中一些字典原子的线性组合来稀疏表示。

在信号处理领域，字典是对数据的一种高度概括，字典可以以字典原子线性组合的方式表示数据的绝大部分信息，即使这部分数据丢失了，我们仍然可以想办法从字典中重构或近似恢复这部分数据。字典分别可以通过预定义和学习来获得。预定义字典如DCT字典、小波字典等，构造起来简单方便，但是对信号的适应性一般不好。学习字典一般可以从信号中学得特征，充分表示信号，被字典稀疏表示的信号可以用于许多信号处理的任务，比如压缩感知、特征提取、图像分类、图像去噪、压缩。

由于自适应字典相比预定义字典对信号有更好的表示，因此问题就变为如何学习自适应字典。

字典学习常用 MOD和 K-SVD法，这两个都是通过在 稀疏表示和 字典更新两步之间迭代来实现最小化信号表示误差。后者常常需要满足随时可以获取整个原信号数据的要求。

由于数据库的增大，算法需要考虑可行性和实用性，即运行一次计算不需要耗费太长的时间，但是如果时刻都可能需要获取全部信息的话，明显会大大增加算法运行时间和执行效率。这时候就出现了Cloud KSVD，用于分布式数据库的K-SVD 。

另一种方法是对数据集做 欠采样处理，即获得原信号的 测量值，从测量之中来对信号做进一步处理。即相比于从原信号中学得字典，我们可以从测量值中学习字典，减少数据的处理量。

如此以来将面临两个问题（也就是压缩感知面临的两个问题）：

如何设计测量矩阵和学习字典的算法，使得少量测量值中包含原信号的所有有用信息？

如何从测量值之中恢复原信号呢？

（未完待续）

压缩感知与字典学习的联系 ---交流学习用

猜你喜欢