·阅读摘要:
在本文中,作者基于Seq2Seq模型,提出多级膨胀卷积、混合注意力机制两点来加以改进,应用于多标签文本分类,提高了效果。
·参考文献:
[1] Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification
[2] Seq2Seq模型讲解,参考博客:【多标签文本分类】代码详解Seq2Seq模型
本篇论文写的比较好,条理清晰,一环扣一环,层层递进深入,有借鉴意义。
【注一】:本文的题目是基于语义单元的膨胀卷积多标签文本分类。
【注二】:⭐作者写作思路清楚:注意力机制在文本分类没有效果 ——> 实验证明 ——> 分析原因是,注意力机制专注于词级信息,对机器翻译友好,对文本分类不适用 ——> 提出我们需要比词级信息更高的语义级别信息 ——> 确定使用CNN来提取语义信息 ——> 提出LSTM+三级一层CNN模型来提取语义信息 ——> 这样缺少长距离信息 ——> 增加膨胀卷积思想 ——> 最后结合混合注意力机制。
[0] 摘要
提出了一种新的基于序列到序列学习的多标签文本分类模型。
该模型通过多级膨胀卷积以及相应的混合注意机制生成更高级别的语义单元表示,该机制同时提取单词级和语义单元级的信息。
膨胀卷积有效地降低了维度,并支持感受野的指数扩展,而不会丢失局部信息,并且注意力过度集中机制能够从源上下文中捕获更多与摘要相关的信息。
【注三】:多级卷积,类似于
DPCNN
模型思想,是为了提取高等级的语义信息;膨胀卷积,是为了增加感受野,获取长距离信息,和Transformer
的自注意力中的获取长距离信息类似;混合注意力,混合的是语义信息和词级信息。
[1] 介绍
作者研究了普通的基于注意力机制的序列生成模型,应用于多标签文本分类,发现注意力机制没什么效果。
还做了实验,数据证明,加不加注意力机制,效果差不多:
于是,作者做出了一个厉害的假设:
我们假设,与神经机器翻译相比,神经多标签文本分类的要求是不同的。传统的注意机制从源上下文中提取单词级信息,对分类任务几乎没有贡献。对于文本分类,人类并不是简单地基于单词级信息来分配文本标签,而是通常基于他们对源文本中显著意义的理解。
【注四】:感觉好有道理! 总结就是机器翻译偏向于关注词级信息,编码词级信息,解码词级信息;多标签文本分类更加关注把文本的中心思想提取出来,然后进行分类。
接着叙述了一些语义单位的概念:
语义单位构成了整个文本的语义。为了给文本分配合适的标签,模型应该捕获源文本的核心语义单元,即与单词级信息相比的更高级信息,然后根据对语义单元的理解来分配文本标签。然而,由于传统的注意机制侧重于提取包含冗余和无关细节的词级信息,因此很难从语义单元中提取信息。
最后,作者提出两点来改进:多级膨胀卷积、混合注意机制。
[2] 基于注意力的Seq2Seq多标签文本分类
介绍了一下注意力的Seq2Seq
多标签文本分类baseline
。
[3] 提出问题
强调了一下Attention机制没什么作用,应该抓取语义信息。
[4] 解决方案
【注五】:建议从高层次理解这两个机制
多级膨胀卷积
把编码器(Encoder)的输出通过3级1层CNN提取出高级特征(语义信息)。要注意的是,CNN使用膨胀卷积。
混合注意力机制
把多级膨胀卷积和普通解码器的输出放在一起经过混合注意力机制,再输入到解码器。具体细节可以参考原文。