·阅读摘要：
本文在BERT模型上，提出了利用多任务架构来解决层级多标签文本分类问题。
·参考文献：
[1] MSML-BERT模型的层级多标签文本分类方法研究

[0] 摘要

在摘要中，作者主要给出了本篇论文的创新点：

1、多任务学习架构
2、多尺度特征抽取模块
3、多层级信息传播模块
4、层次化门控机制

最后论文再总结一下，提出的模型在数据集上效果良好。

【注一】：上述的四个创新名词，其实原理都比较简单。“多尺度特征抽取模块”等于“CNN”，“多层级信息传播模块”等于“向量拼接”。（要想论文发的好，名词一定要起的妙！哈哈）

作者总结了当前HMTC（Hierarchical Multi-label Text Classification，层级多标签文本分类）面临的两大问题：

（1）使用相同的模型结构来预测不同层级的标签，忽略了不同层级和粒度的标签之间的差异性和多样性，导致对各层级标签的预测性能较差；

（2）没有显式和充分地建模层级依赖关系以及引入了不必要的噪音，造成对下层长尾标签的预测性能尤其差，并且会导致标签不一致问题。

【注二】：总结的说：用一个模型预测多个层级的标签并不准确；没有使用到层级的标签信息。

[1] 相关工作

请添加图片描述
如图，当前HMTC方法有三种算法方法：

展平方法：就是不考虑标签的层级结构，直接把层级标签当成普通多标签文本分类来建模。有时候，展平方法是把所有的层级标签都展平，有时候是把最后一层的标签展平。

【注三】：展平方法对HMTC的效果是有瓶颈的。

局部方法：局部方法指的是，为层级标签的每个节点都设置一个分类器，这中分类器一般是机器学习的分类器，如SVM等。

【注四】：可想而知，这样的效果也做不到最好。

全局方法：用单个分类器并且更显式地对标签层次结构进行建模，模型通常采用端到端的方式训练并且对所有标签进行一次性地预测。

【注五】：全局方法旨在更好的利用标签信息、标签的层次结构信息。

模型如下图：
在这里插入图片描述
讲解模型：

· 首先，架构是多任务学习架构，采用的是硬参数共享方法。每个任务的模型由共享层和任务特定层两个部分组成。共享层用于学习和共享通用的知识和表征，而任务特定层用于弥补不同任务之间的差异以及提高不同任务的泛化性。

· 本文模型的共享层，就是bert模型。采用bert的后几层，bert的输出应用到下游任务。

【注六】：bert已经是基操了。这样算作是共享层的话，那么像普通使用glove等预训练词向量也能称为共享层。

· MSFEM（多尺度特征抽取模块），特征抽取的意思就是卷积层的卷积，多尺度的意思是采用不同窗口大小的卷积核。图中使用了3个TextCNN模型，对应到数据集中的3层标签结构。

· MLIPM（多层级信息传播模块），把上一层的输出，拼接在下一层的输入中。不过拼接的方式比较不一样，采用的是HGM（层次化门控机制）。

· HGM（层次化门控机制），一种合并向量的门控方式，如下图：
在这里插入图片描述

【注七】：对于模型提取特征时，不同的层级，卷积层提取的宽度不一样，文中的解释为：对于较上的层级采用较宽的一维卷积核提取粗粒度特征，对于较下的层级采用较窄的一维卷积核提取细粒度特征。

数据集如下：
在这里插入图片描述
RCV1-V2是非常经典的一个多标签文本分类数据集。

实验结果如下：
在这里插入图片描述
可以看到全局方法有碾压般的表现。

【注八】：个人觉得这里写的很好，有理有据，值得学习。

消融实验：（其实就是控制变量）
在这里插入图片描述
这里就证明了，论文提出的模型改进方法确实是有效果的。

分层表现分析：（查看不同模型在不同标签层级的评分）

在这里插入图片描述
这里就证明了，论文提出的模型，在层级较深时，表现就更好。说明论文的创新点是正确的。

标签一致性分析：

标签一致性问题是模型预测的每一层标签，并不符合原始标签的层级关系。
在这里插入图片描述
这里也证明了论文提出的模型的优点。