文本分类《Multilingual Hierarchical attention networks for document classification》

Motivation

在多语言的文本分类问题上一般都面临两个问题:一是计算成本会随着语言数量的增加而线性增加;模型缺乏不同语言之间知识迁移能力,也就是在一种语言上习得的知识不能应用到另一种语言上。当前解决上述问题的方案都需要不同语言的文本具有相同的标签,但是这个要求往往很难得到满足。因此,本文提出一种多语言的分层注意力模型,该模型在保证尽量少添加参数的同时,使模型具有知识迁移的能力。

 

单语模型结构:

分层注意力网络实现文本分类一般要经过三个步骤:

  1. 编码层:一般采用全连接、GRU或双向GRU;
  2. 注意力层:分别在单词级别和句子级别给予较大权重;
  3. 分类层:对句子级别注意力层的输出经过线性层之后再使用sigmoid输出,因为一篇文档可能对应多个label,所以预测结果取输出大于某个阈值对应的多个标签。

                                               

 

多语言模型结构:

模型整体框架和上面类似,区别在于为了降低参数量和学习不同语言文本的结构共享了一部分参数信息:一、共享encoders部分的参数;二、共享attention部分的参数;三、共享encoders和attention的参数(both)。

                                       

此外,在对其中一种语言更新参数的过程中也要更新其他语言的参数,因此有如下损失函数的公式:

扫描二维码关注公众号,回复: 11962374 查看本文章

 

实验结果:

分别从full-resource scenario和low-resource scenario观察模型的F1值。

                    

在full-resource场景下,对于以上三种共享参数的模型,可以发现共享attention层的参数会达到最好的效果,而share both反而会带来性能下降。此外,在其他语言上训练的模型在目标语言上也能测试不错的效果,体现了知识的迁移能力。

                                               

在low-resource场景下,多语言模型比单语言模型在少量数据的表现更好。并且,往往share both能取得最好的效果。

 

总结:

  1. 可以尝试在模型的不同位置使用注意力机制;
  2. 优化损失函数融合近似的主题信息;

猜你喜欢

转载自blog.csdn.net/Answer3664/article/details/103056970