最小熵原理（四）：“物以类聚”之从图书馆到词向量

本篇我们介绍图书馆里边的套路。

先抛出一个问题：词向量出现在什么时候？是2013年Mikolov的Word2Vec？还是是2003年Bengio大神的神经语言模型？都不是，其实词向量可以追溯到千年以前，在那古老的图书馆中...

图书馆一角（图片来源于百度搜索）

走进图书馆 #

图书馆里有词向量？还是千年以前？在哪本书？我去借来看看。

放书的套路 #

其实不是哪本书，而是放书的套路。

很明显，图书馆中书的摆放是有“套路”的：它们不是随机摆放的，而是分门别类地放置的，比如数学类放一个区，文学类放一个区，计算机类也放一个区；同一个类也有很多子类，比如数学类中，数学分析放一个子区，代数放一个子区，几何放一个子区，等等。读者是否思考过，为什么要这么分类放置？分类放置有什么好处？跟最小熵又有什么关系？

有的读者可能觉得很简单：不就是为了便于查找吗？这个答案其实不大准确。如果只是为了方便找书，那很简单，只要在数据库上记录好每一本书的坐标，然后在地面上也注明当前坐标，这样需要借哪本书，在数据库一查坐标，然后就可以去找到那本书了，整个过程不需要用到“图书分类”这一点。所以，如果单纯考虑找书的难易程度，是无法很好的解释这个现象。

省力地借书 #

其实原因的核心在于：我们通常不只是借一本书。

前面说了，只要建好索引，在图书馆里找一本书是不难的，问题是：如果找两本呢？一般情况下，每个人的兴趣和研究是比较集中的，因此，如果我要到图书馆借两本书，那么可以合理地假设你要借的这两本书是相近的，比如借了一本《神经网络》，那么再借一本《深度学习》的概率是挺大的，但再借一本《红楼梦》的概率就很小了。借助于数据库，我可以很快找到《神经网络》，那么《深度学习》呢？如果这本书在附近，那么我只需要再走几步就可以找到它了，如果图书是随机打乱放置的，我可能要从东南角走到西北角，才找到我想要的另一本书《深度学习》，再多借几本，我不是要在图书馆里跑几圈我才能借齐我要的书？

这样一来，图书分类的作用就很明显了。图书分类就是把相近的书放在一起，而每个人同一次要借的书也会相近的，所以图书分类会让大多数人的找书、借书过程更加省力！这又是一个“偷懒攻略”。也就是说，将我们要处理的东西分类放好，相近的放在一起，这也是满足最小熵原理的。生活中我们会将常用的东西分类放在触手可及的地方，也是基于同样的原理。

图书馆规划 #

下面我们再来从数学角度，更仔细地考察这个过程。

简化的借书模型 #

假如我们到图书馆去借两本书，分别记为i,ji,j，假设借第一本书的成本是d(i)d(i)，两本书之间的成本函数为d(i,j)d(i,j)，这也就是说，找到第一本书ii后，我就要再花d(i,j)d(i,j)那么多力气才能找到第二本书jj。我们可以考虑这个过程对所有人的平均，即

S=∑i,jp(i)p(j|i)[d(i)+d(i,j)]=∑i,jp(i,j)[d(i)+d(i,j)](1)(1)S=∑i,jp(i)p(j|i)[d(i)+d(i,j)]=∑i,jp(i,j)[d(i)+d(i,j)]

其中p(i)p(i)是ii这本书被借的概率，p(j|i)p(j|i)就是借了ii之后还会再借jj的概率。图书馆的要把书放好，那么就要使得SS最小化。

现在我们以图书馆入口为原点，在图书馆建立一个三维坐标系，那么每本书的位置都可以用一个向量vv来表示，不失一般性，我们可以简单考虑d(i)d(i)为这本书到图书馆原点的欧氏距离，d(i,j)d(i,j)为两本书的欧氏距离，那么SS的表达式变为：

S=∑i,jp(i)p(j|i)[‖vi‖＋‖vi−vj‖]=∑i,jp(i,j)[‖vi‖＋‖vi−vj‖](2)(2)S=∑i,jp(i)p(j|i)[‖vi‖＋‖vi−vj‖]=∑i,jp(i,j)[‖vi‖＋‖vi−vj‖]

让我们再来解释一下各项的含义，其中(i,j)(i,j)代表着一种借书习惯，即借了书ii还借书jj，p(i,j)p(i,j)代表着这种借书习惯出现的概率，实际生活中可以通过图书馆的借书记录去估算它；‖vi‖＋‖vi−vj‖‖vi‖＋‖vi−vj‖则代表着先借ii再借jj的总成本。其中‖vi‖‖vi‖这一项要尽量小，意味着我们要将热门的书放在靠近出口（原点）的地方；而‖vi−vj‖‖vi−vj‖要尽量小，则告诉我们要把相近的书放在一起。

约束优化规划 #

假如我们拿到了图书馆的借书记录，也就是说已知p(i,j)p(i,j)了，那么是不是可以通过最小化(2)(2)来得到图书馆的“最佳排书方案”了呢？思想对了，但还不完整，因为很显然式(2)(2)的最小值是0，只需要让所有的vv都等于0，也就是说，所有的书都挤在出口的位置。

显然这是不可能的，因为实际上书不是无穷小的，两本书之间有一个最小间距dmin>0dmin>0，所以完整的提法应该是：

S=minv∑i,jp(i)p(j|i)[‖vi‖＋‖vi−vj‖]=∑i,jp(i,j)[‖vi‖＋‖vi−vj‖]s.t.∀i≠j,‖vi−vj‖≥dmin(3)(3)S=minv∑i,jp(i)p(j|i)[‖vi‖＋‖vi−vj‖]=∑i,jp(i,j)[‖vi‖＋‖vi−vj‖]s.t.∀i≠j,‖vi−vj‖≥dmin

也就是说，这是一个带约束的极值问题，解决了这个问题，我们就可以得到图书馆对图书的最合理安排了（理论上）。当然，如果真的去给图书馆做规划，我们还要根据图书馆的实际情况引入更多的约束，比如图书馆的形状、过道的设置等，但(3)(3)已经不妨碍我们理解其中的根本思想了。

一般成本最小化 #

现在我们再将问题一般化，从更抽象的视角来观察问题，能得到更深刻的认识。

均匀化与去约束 #

我们先将成本函数‖vi‖＋‖vi−vj‖‖vi‖＋‖vi−vj‖代换为一般的f(vi,vj)f(vi,vj)，即考虑

S=∑i,jp(i)p(j|i)f(vi,vj)=∑i,jp(i,j)f(vi,vj)(4)(4)S=∑i,jp(i)p(j|i)f(vi,vj)=∑i,jp(i,j)f(vi,vj)

同时vv可以不再局限为3维向量，可以是一般的nn维向量。我们依旧是希望成本最低，但是我们不喜欢诸如‖vi−vj‖≥dmin‖vi−vj‖≥dmin的约束条件，因为带约束的优化问题往往不容易求解，所以如果能把这个约束直接体现在ff的选择中，那么就是一个漂亮的“去约束”方案了。

怎么实现这个目的呢？回到图书馆的问题上，如果没有约束的话，理论最优解就是把所有图书都挤在出口的位置，为了防止这个不合理的解的出现，我们加了个约束“两本书之间有一个最小间距dmin>0dmin>0”，防止了解的坍缩。其实有很多其他约束可以考虑，比如可以要求所有图书必须尽量均匀地放满图书馆，在这个希望之下，也能够得到合理的解。

“尽量均匀”其实可以理解为某种归一化约束，因为归一，所以不能全部集中在一点，因为只有一点就不归一了。“归一”启发我们可以往概率的方向想，也就是说，先构造概率分布，然后作为成本函数的度量。在这里就不做太多牵强的引导了，直接给出其中一个选择：

f(vi,vj)=−loge−‖‖vi−vj‖‖2Zi,Zi=∑je−‖‖vi−vj‖‖2(5)(5)f(vi,vj)=−log⁡e−‖vi−vj‖2Zi,Zi=∑je−‖vi−vj‖2

最小熵=最大似然 #

让我们来分步理解一下这个式子。首先如果不看分母ZiZi，那么结果就是

−log(e−‖‖vi−vj‖‖2)=‖‖vi−vj‖‖2(6)(6)−log⁡(e−‖vi−vj‖2)=‖vi−vj‖2

也就是说，这个ff相当于成本函数为‖‖vi−vj‖‖2‖vi−vj‖2。然后，由于分母的存在，我们知道

∑je−‖‖vi−vj‖‖2Zi=1(7)(7)∑je−‖vi−vj‖2Zi=1

所以e−‖‖vi−vj‖‖2/Zie−‖vi−vj‖2/Zi实际上定义了一个待定的条件概率分布q(j|i)q(j|i)，说白了，这实际上就是对−‖‖vi−vj‖‖2−‖vi−vj‖2的一个softmax操作，而此时(4)(4)实际上就是：

S=−∑i,jp(i)p(j|i)logq(j|i)(8)(8)S=−∑i,jp(i)p(j|i)log⁡q(j|i)

对于固定的ii而言，最小化上式这不就是相当于最大对数似然了吗？所以结果就是q(j|i)q(j|i)会尽量接近p(j|i)p(j|i)，从而全部取0不一定就是最优解的，因为全部取0对应着均匀分布，而真实的p(j|i)p(j|i)却不一定是均匀分布。

现在再来想想，我们从最小成本的思想出发，设计了一个具有概率的负对数形式的f(vi,vj)f(vi,vj)，然后发现最后的结果是最大似然。这个结果可以说是意料之外、情理之中，因为−logq(j|i)−log⁡q(j|i)的含义就是熵，我们说要最大似然，就是要最小化式(8)(8)，其含义就是最小熵了。最大似然跟最小熵其实具有相同的含义。

Word2Vec #

只要稍微将对象一转变，Word2Vec就出来了，甚至everything2vec～

多样的度量 #

纯粹形式地看，式(5)(5)的选择虽然很直观，但并不是唯一的，可取的选择还有

f(vi,vj)=−loge〈vi,vj〉Zi,Zi=∑je〈vi,vj〉(9)(9)f(vi,vj)=−log⁡e〈vi,vj〉Zi,Zi=∑je〈vi,vj〉

这以内积为距离度量，希望相近的对象内积越小越好。

Skip Gram #

事实上，如果i,ji,j分别代表句子窗口里边的一个词，那么式(9)(9)就对应了著名的词向量模型——Word2Vec的Skip Gram模型了，也就是说，最小化

S=−∑i,jp(i)p(j|i)loge〈vi,vj〉Zi=−∑i,jp(i,j)loge〈vi,vj〉Zi(10)(10)S=−∑i,jp(i)p(j|i)log⁡e〈vi,vj〉Zi=−∑i,jp(i,j)log⁡e〈vi,vj〉Zi

这正好是Word2Vec的Skip Gram模型的优化目标。

注：Word2Vec实际上对上下文向量和中心词向量做了区分，也就是用了两套词向量，但这里为了直观理解其中的思想，我们就不区别这一点。

原理类比分析 #

等等，怎么突然就出来词向量了？？

我们再重新捋一下思路：是这样的，我们把每个词当作一本书，每个句子都可以看成每个人的“借书记录”，这样我们就能知道哪两本“书”经常被一起借了是吧？按照我们前面讨论了一大通的图书馆最佳放书方案，我们就可以把“书”的最佳位置找出来，理论上用(3),(5)(3),(5)或(9)(9)都可以，这就是词向量了～如果用式(9)(9)，就是Word2Vec了。

反过来，找出一个最佳放书方案也就简单了，把图书馆的每个人的借书记录都当成一个句子，每本书当成一个词，设置词向量维度为3，送入Word2Vec训练一下，出来的词向量，就是最佳放书方案了。

那些doc2vec、node2vec、everything2vec，基本上都是这样做的。

所以，开始的问题就很清晰了：将图书馆的每本书的三维坐标记录下来，这不就是一个实实在在的“book embedding”？相近的书的向量也相近呀，跟词向量的特性完美对应～所以，自从有了图书馆，就有了embedding，尽管那时候还没有坐标系，当然也没有计算机。

再来看看t-SNE #

有了“借书记录”，也就是p(j|i),p(i)p(j|i),p(i)，我们就可以照搬上述过程，得到一个“最佳位置规划”，这就是向量化的过程。

如果没有呢？

SNE #

那就造一个出来呀！比如我们已经有了一堆高维样本x1,x2,…,xNx1,x2,…,xN，它们可以是一堆图像数据集，我们想要得到一个低维表示z1,z2,…,zNz1,z2,…,zN。我们构造一个

p(xj|xi)=e−‖xi−xj‖2/2σ2∑jj≠ie−‖xi−xj‖2/2σ2(11)(11)p(xj|xi)=e−‖xi−xj‖2/2σ2∑jj≠ie−‖xi−xj‖2/2σ2

然后还是用式(5)(5)作为成本函数（假设p(i)p(i)是常数，即均匀分布，同时求和不对自身进行），去优化(4)(4)，即

这便是称为SNE的降维方法了。

一般来说它还有一些变种，我们就不细抠了，这也不是本文的重点，我们只需要理解基本思想。SNE本质上就是尽量保持相对距离的一种降维方案。因为它保持的是相对距离，保持了基本的形状不变，所以降维效果比PCA等方法要好。原因是PCA等方法仅仅保留主成分，只适用于比较规则的数据（比如具有中心聚拢特性、各向同性的），SNE的思想可以适用于任意连通形状。

t-SNE #

前面说得SNE已经体现出降维思想了。但是它会有一些问题，主要的就是“Crowding问题”。这个“Crowding问题”，简单来看，就是因为低维分布(5)(5)也是距离的负指数形式，负指数的问题就是在远处迅速衰减到0，而(5)(5)中的vv是我们要求解的目标，这样一来优化结果是所有的点几乎都拥挤（Crowding）在某处附近（因为指数衰减，距离较远的点几乎不会出现），效果就不够好了。

为了解决这个问题，我们可以把式(5)(5)换成衰减没那么快的函数，比如说简单的分式：

f(vi,vj)=−log(1+‖‖vi−vj‖‖2)−1Zi,Zi=∑jj≠i(1+‖‖vi−vj‖‖2)−1(13)(13)f(vi,vj)=−log⁡(1+‖vi−vj‖2)−1Zi,Zi=∑jj≠i(1+‖vi−vj‖2)−1

这称为t分布。式(13)(13)、式(11)(11)和式(4)(4)结合，就是称为t-SNE的降维方法，相比SNE，它改善了Crowding问题。

当然，t-SNE与SNE的差别，其实已经不是本文的重点了，本文的重点是揭示SNE这类降维算法与Word2Vec的异曲同工之处。

虽然在深度学习中，我们直接用t-SNE这类降维手段的场景并不多，哪怕降维、聚类都有很多更漂亮的方案了，比如降维可以看这篇《深度学习的互信息：无监督提取特征》、聚类可以看这个《变分自编码器（四）：一步到位的聚类方案》。但是t-SNE的本质思想在很多场景都有体现，所以挖掘并体味其中的原理，并与其它知识点联系起来，融汇成自己的知识体系，是一件值得去做的事情。

本文总结 #

本文基于最小成本的思想，构建了一个比较理想化的模型来分析图书馆的图书安排原理，进而联系到了最小熵原理，并且思考了它跟Word2Vec、t-SNE之间的联系。就这样，又构成了最小熵原理的一个个鲜活例子：物以类聚、分门别类，都能降低成本。比如我们现在可以理解为什么预训练词向量能够加快NLP任务的收敛、有时还能提升最终效果了，因为词向量事先将词摆在了适合的位置，它的构造原理本身就是为了降低成本呀。

同时，将很多看似没有关联的东西联系在一起，能够相互促进各自的理解，达到尽可能融会贯通的效果，其妙不言而喻～

转载到请包括本文地址：https://spaces.ac.cn/archives/6191

远洋之帆

发布了27 篇原创文章 · 获赞 16 · 访问量 2万+

私信关注