论文链接:
https://arxiv.org/abs/1805.03435
文章大意:
经验表示,在非监督相似度度量问题上,简单模型效果往往好于深度神经网络,本文借助对于“最优表示空间”的定义对于上述现象给出了简单而严谨的解释。并且提出在不改变网络结构的前提下可以使得深度递归网络对于简单的浅层模型在上述相似度度量问题上表现不差的改进方法。
分布式表示空间定义:
最优表示空间的定义:
扫描二维码关注公众号,回复:
1723372 查看本文章
注:最优表示空间是一种在模型优化意义(logP)对于空间距离(row)的的等比要求,
其抓住了监督与非监督的本质矛盾点,即度量的对称性。
用来学习的优化模型本身是一种监督式的方法,而要其表示类似于非监督的的度量对称性即是对于这种监督作为非监督度量表示的比较严格的要求。
比较形象地说,一个良好的非监督度量相当于对于总体类的多类个体(可以理解为聚类簇),当具备给定一个簇,“one over rest”意义上的距离平衡,各种距离的平衡正是非监督算法的核心,在这里就表示为对称性的要求。
最优句子表示空间:
将上述最优表示空间应用于句子的编码场景,有如下符号约定:
借助MLE在BOW编码解码结构意义下,有如下最优结构:
借助MLE在RNN编码解码结构意义下,有如下最优结构:
二者在最优表示空间的意义下实现了形式的统一,借助上述RNN隐状态有序连接结构即可给出文章开头提到的RNN情况下的最优相似度表示。
文中的用实验结果支持了上述结论。