Learning Semantic Concepts and Order forImage and Sentence Matching

图片和语句的匹配

现在这个领域的主要问题之一是像素级别的图片描述缺少高层次的语义信息。这篇文章就提出了semantic-enhancedimage and sentence matching model语义增强图片及语句匹配模型。

通过对图片的语义学习并组织为正确的语义顺序。对图片，使用多区域多类预测的网络。

此领域此文章主要关注的问题和相应方法

高层次的语义信息对于生成匹配的语句十分必要，之前的做法都是提取一个全局的CNN特征向量。这样一些主要的信息就会占据主导地位，背景一些的就会被忽略。所以，最好的方法能够自适应的学习属性。对于这篇文章，使用了multi-region & multi-label CNN网络提取多维度的信息。

此外，语义信息的组合顺序，semantic order语义顺序，这需要使用图片的全局语义信息。这篇文章是使用“gated manner”门策略融合图片的全局语义信息，这些全局语义是包含空间关系的，然后使用ground truth是融合的语义信息生成合适的匹配语句。

对于语句信息使用LSTM方法来理解顺序。

对于图像，先生成一堆区域框，然后将这些框拉伸成正方形给定的大小。上图中的region生成的方法参照了{ Cnn: Single-label to multi-label. arXiv, 2014}中的方法。然后分别放入到CNN中去，

全局信息可以帮助学习图片语义信息顺序，全局语义信息找到各语义的关系，来帮助预测语义顺序。这篇文章使用VGG网络处理全局内容，全局的信息放到FC层作为特征向量。

常用的方法就是简单的将全局和局部特征组合在一起。但是它们（全局和局部）的重要性在不同图幅间并不是一致的。这篇文章最大的亮点在这儿，设计了一个gated fusion unit门融合单元。

图片总是能训练得到一个语句，但是要匹配相同的意思就有点难了。直接匹配的方法并不太好，这篇文章是使用语句监督图片特征向量生成的语句。