基于深度学习的文本分类综述

《Deep Learning Based Text Classification: A Comprehensive Review》总结笔记。

1.序章

基于深度学习的文本分类模型在情感分析、新闻分类、问答和自然语言推理等多种文本分类任务中已经超越了经典的基于机器学习的方法。论文在回顾150多种深度学习模型后,分类简单讲述了多种文本分类模型,涵盖了基于前馈神经网络的模型、基于RNN的模型、基于CNN的模型、基于注意力机制的模型、基于transformer的模型、基于GNN的模型、混合模型以及其他类型的模型(胶囊网络、记忆增强网络、孪生神经网络);论文还讲述了比较流行的40多种文本分类数据集。
文本分类,目的是将标签分配给文本单元,比如句子、问题、段落、文档等。文本分类有许多方面应用,比如问答系统、情感分类、新闻分类、用户意图分类等等。文本分类可以通过手工标记或自动注释来执行。自动文本分类的方法可以分为三类:基于统计的方法、基于机器学习的方法、混合方法。
文本分类任务有:情感分析、新闻分类、主题分析、问答、自然语言推理。
情感分析:旨在分析人们在文本数据(如产品评论、电影评论和推特)中的观点,并提取他们的极性和观点。可以是二分类问题也可以是多分类问题,二元情感分析是将文本分为正类和负类,而多类情感分析则侧重于将数据分为细粒度的标签或多层次的强度。
新闻分类:新闻分类系统可以帮助用户实时获取感兴趣的信息。基于用户兴趣的新闻主题识别和相关新闻推荐是新闻分类的两个主要应用。
主题分析:主题分析试图通过识别文本的主题从文本中自动获得意义。主题分类的目标是为每个文档分配一个或多个主题,以便于分析。
问答系统:有两种类型的问答系统:提取式和生成式。抽取式QA可以看作是文本分类的一个特例。给定一个问题和一组候选答案,根据问题需要将每个候选答案正确分类。
自然语言推理:NLI,也称为文本蕴含识别(RTE),预测一个文本的含义是否可以从另一个文本中推断出来。特别是,一个系统需要给每对文本单元分配一个标签,比如蕴涵、矛盾和中立。

2.深度学习模型

论文在回顾150多种模型后,根据模型的体系结构分为了如下的几类:
基于前馈神经网络的模型:该类模型将文本视为单词的集合(bag of word,即BOW)。
基于RNNs的模型:该类模型将文本视为一个单词序列,旨在捕获单词相关性和文本结构。
基于CNNs的模型:该类模型专注于识别文本中的典例,如关键短语,以便分类。
注意力机制:高效的识别文本中的特定词汇。注意力也就是专注,即专注于文本中的特定部分。
transformers:自17年谷歌在论文《Attention is all you need》提出Transformer结构,促进了NLP的发展。Transformer结构改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。之后又有BERT的提出以及在BERT基础上改进的网络结构。
基于GNN的模型:用于捕捉自然语言的内部图结构,如句法和语义分析树。
混合模型:将注意力机制、RNN、CNN等结合起来,捕捉句子和文档的本地和全局特征。

2.1.基于前馈神经网络的模型

。这些模型将文本视为一个单词包。对于每个单词,他们使用嵌入模型(如word2ve或Glove)学习向量表示,将嵌入的向量和或平均值作为文本的表示,将其通过一个或多个前馈层(称为多层感知器(MLPs))传递,然后使用逻辑回归、朴素贝叶斯或支持向量机等分类器对最终层的表示进行分类。
参考论文:
《Efficient estimation of word representations in vector space》–word2vec
《Glove: Global vectors for word representation》–Glove
《Deep unordered composition rivals syntactic methods for text classification》–深度平均网络(DAN)
《Fasttext. zip: Compressing text classification models》–fast-text
《Distributed representations of sentences and documents》–doc2vec

2.2.基于RNN的模型

基于RNN的模型将文本视为一个单词序列,旨在捕获用于文本分类的单词依赖项和文本结构。 然而vanilla RNN (代指普通的RNN)不能很好地工作,并且常常表现得不如前馈神经网络。LSTM(长短期记忆循环神经网络)通过引入一个存储单元来记忆任意时间间隔内的值,并引入三个门(输入门、输出门、遗忘门)来调节进出单元的信息流,解决了vanilla RNNs所面临的梯度消失或爆炸问题。
参考论文:
《Long short-term memory in recurrent neural networks》–LSTM
《Improved semantic representations from tree-structured long short-term memory networks》–树状LSTM
《Long short-term memory over recursive structures》–树形LSTM
《Long short-term memory-networks for machine reading》–针对机器阅读
《Multi-timescale long short-term memory neural network for modelling sentences and documents》–MT-LSTM
《Topicrnn: A recurrent neural network with long-range semantic dependency》–TopicRNN
《Recurrent neural network for text classification with multi-task learning》–多任务学习的RNN
《Text classification improved by integrating bidirectional lstm with two-dimensional max pooling》–Bi-LSTM

2.3.基于CNN的模型

RNNs在需要理解远程语义的NLP任务中工作良好,而CNNs在检测局部和位置不变模式非常重要的情况下工作良好。因此,CNNs已经成为最流行的文本分类模型体系结构之一。
参考论文
《A convolutional neural network for modelling sentences》–DCNN
《Convolutional neural networks for sentence classification》
《Deep learning for extreme multi-label text classification》
《Character-level convolutional networks for text classification》–字符级CNN
《Character-aware neural language models》
《Designing a better data representation for deep neural networks and text classification》–对文本进行编码的CNN
《Very deep convolutional networks for text classification》–VDCNN
《Squeezed Very Deep Convolutional Neural Networks for Text Classification》–改进的VDCNN
《Do convolutional networks need to be deep for text classification?》
《Improving text classification with weighted word embeddings via a multi-channel TextCNN model》–多通道CNN
《A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification》
《Natural language inference by tree-based convolution and heuristic matching》树形CNN
《Combining knowledge with deep convolutional neural networks for short text classification》

2.4.注意力机制

注意力是由我们如何将视觉注意力集中在一个图像的不同区域或一个句子中的相关词引起的。简言之,语言模型中的注意力可以解释为一个重要权重向量。为了预测句子中的一个词,我们使用注意力向量来估计它与其他词或“注意”有多强的相关性,并将其加权值之和作为目标的近似值。
参考论文:
《Neural machine translation by jointly learning to align and translate》
《Effective approaches to attention-based neural machine translation》
《Hierarchical attention networks for document classification》–层次注意文本分类
《Attention-based lstm network for cross-lingual sentiment classification》–跨语言层次注意文本分类
《Joint embedding of words and labels for text classification》
《Semantic sentence matching with densely-connected recurrent and co-attentive information》
《Abcnn: Attention-based convolutional neural network for modeling sentence pairs》
《A structured self-attentive sentence embedding》
《Densely connected cnn with multi-scale feature attention for text classification》
《Neural attentive bag-of-entities model for text classification》

2.5.Transformers

RNNs所面临的计算瓶颈之一是文本的顺序处理。尽管CNNs比RNNs的序列性要小,但是获取句子中单词之间关系的计算成本也随着句子长度的增加而增加,这与RNNs类似。Transformers克服了这一局限性,将自我注意应用于并行计算句子中的每个单词,或记录一个“注意分数”来模拟每个单词对另一个单词的影响。Transformers允许比CNNs和RNNs更多的并行化,这使得在GPU集群上有效地训练大量数据的非常大的模型成为可能。
自2018年以来,我们看到了一组基于Transformer的大规模预训练语言模型(plm)的兴起。基于Transformer的plm使用更深层次的网络架构,并在更大量的文本语料库上进行预训练,通过预测基于上下文的单词来学习上下文文本表示。这些plm使用特定于任务的标签进行了微调,并在许多下游NLP任务(包括文本分类)中创建了新的最新技术。尽管预训练是无监督的,但微调是有监督的学习。
参考论文:
《Attention is all you need》–transformer
《Language models are unsupervised multitask learners》
《Improving language understanding by generative pre-training》
《Bert: Pre-training of deep bidirectional transformers for language understanding》–BERT
《Roberta: A robustly optimized bert pretraining approach》–Roberta
《Albert: A lite bert for self-supervised learning of language representations》–ALbert
《Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter》
《How to fine-tune bert for text classification?》
《Xlnet: Generalized autoregressive pretraining for language understanding》
《Unified language model pre-training for natural language understanding and generation》
《Unilmv2: Pseudo-masked language models for unified language model pre-training》

2.6.基于GNN的模型

尽管自然语言文本具有顺序性,但它们也包含内部的图形结构,如句法和语义分析树,它们定义了句子中单词之间的句法/语义关系。
为NLP开发的最早的基于图的模型之一是TextRank。作者提出将自然语言文本表示为图形(V,E),其中V表示一组节点,E表示节点之间的一组边。根据手头的应用程序,节点可以表示各种类型的文本单位,例如单词、搭配、整句话等。同样,边缘可以表示任何节点之间的不同类型的关系,例如词汇或语义关系、上下文重叠等。
参考论文:
《Textrank: Bringing order into text》
《A comprehensive survey on graph neural networks》
《Semi-supervised classification with graph convolutional networks》
《Semi-supervised classification with graph convolutional networks》
《Inductive representation learning on large graphs》
《Graph attention networks》
《Large-scale hierarchical text classification with recursively
regularized deep graph-cnn》
《Hierarchical taxonomy-aware and attentional graph capsule rcnns
for large-scale multi-label text classification》
《Graph convolutional networks for text classification》

2.6.混合模型

为了结合LSTM和CNN体系结构来捕捉句子和文档的局部和全局特征,已经开发了许多混合模型。
参考论文:
《A c-lstm neural network for text classification》
《Dependency sensitive convolutional neural networks for modeling sentences and documents》
《Ensemble application of convolutional and recurrent neural networks for multi-label text categorization》
《Document modeling with gated recurrent neural network for sentiment classification》
《Efficient character-level document classification by combining convolution and recurrent layers》
《Recurrent convolutional neural networks for text classification》
《Improving sentiment analysis via sentence type classification using bilstm-crf and cnn》
《Hdltex: Hierarchical deep learning for text classification》
《Training very deep networks》

猜你喜欢

转载自blog.csdn.net/qq_40377498/article/details/105615138