自然语言处理 | (21) 基于TextCNN的文本分类原理

1.文本分类任务介绍

2.TextCNN原理概述

3.TextCNN处理步骤

4. 拓展阅读

1.文本分类任务介绍

文本分类是自然语言处理的一个基本任务，试图推断出给定文本(句子、文档等)的标签或标签集合。

文本分类的应用非常广泛，如：

垃圾邮件分类：2分类问题，判断邮件是否为垃圾邮件
情感分析：2分类问题：判断文本情感是积极还是消极；多分类问题：判断文本情感属于{非常消极，消极，中立，积极，非常积极}中的哪一类。
新闻主题分类：判断一段新闻属于哪个类别，如财经、体育、娱乐等。根据类别标签的数量，可以是2分类也可以是多分类。
自动问答系统中的问句分类
社区问答系统中的问题分类：多标签多分类(对一段文本进行多分类，该文本可能有多个标签)，如知乎看山杯
让AI做法官：基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签多分类)
判断新闻是否为机器人所写：2分类

不同类型的文本分类往往有不同的评价指标：

2分类：accuracy,precision,recall,f1-score...
多分类(单标签多分类)：Micro-Averaged-F1,Macro-Averaged-F1...
多标签多分类：Jaccard相似系数...

2.TextCNN原理概述

卷积神经网络主要是用于解决计算机视觉方面的任务。在本篇博客中我们将演示如何在自然语言处理任务---文本分类中使用卷积神经网络CNN，这里的文本一般包含若干句子，因此每段文本的长度都不尽相同。在对文本进行分类时，我们一般会指定一个固定的输入序列/文本长度：该长度可以是最长文本/序列的长度，此时其他所有文本/序列都要进行填充以达到该长度；该长度也可以是训练集中所有文本/序列长度的均值，此时对于过长的文本/序列需要进行截断，过短的文本则进行填充。总之，要使得训练集中所有的文本/序列长度相同，该长度除之前提到的设置外，也可以是其他任意合理的数值。在测试时，也需要对测试集中的文本/序列做同样的处理。

假设训练集中所有文本/序列的长度统一为n，我们需要对文本进行分词，并使用词嵌入得到每个词固定维度的向量表示。此时对于一段文本，我们的输入就可以表示为一个n*d的数字矩阵，类似于图像分类任务中的图像。我们曾使用过CNN处理图像分类任务，类似的，接下来我们看一下如何用CNN进行文本分类。

3.TextCNN处理步骤

TextCNN结构：

embedding--->conv--->(activation)--->max pooling--->fully connected layer-------->softmax/sigmoid

首先我们要对输入矩阵进行卷积操作。我们可以使用不同大小的卷积核，每种类型的卷积核可以有多个。假设卷积核的大小是(f,d),f可以是不同的取值(如f=2，3，4),而d是固定的，是词向量的维度，并且假设总共使用了k个卷积核，步长为1。经过卷积操作后我们会得到k个向量，每个向量的长度是n-f+1. 我们使用不同大小的卷积核，从输入文本中提取丰富的特征，这和n-gram特征有点相似(f=2，3，4分别对应于2-gram，3-gram-4-gram)。
接下来，我们对卷积操作的输出进行max-pooling操作。作用于k个长度为n-f+1的向量上，最每个向量整体取最大值，得到k个标量数字。
然后把k个标量数字拼接起来，组成一个向量表示最后提取的特征。他的长度是固定的，取决于我们所使用的不同大小的卷积核的总数。
最后在接一个全联接层作为输出层，如果是2分类的话使用sigmoid激活函数，多分类则使用softmax激活函数，得到模型的输出。

下图是TextCNN的图示，可以直观的反映他的操作流程：

4. 拓展阅读

TextCNN论文： Convolutional Neural Networks for Sentence Classification
为了使用TextCNN得到一个好结果, 可以仔细的阅读下面这篇论文 A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification。它可以给你一些能影响任务性能的直觉和领悟，尽管你需要根据特定的任务修改一些设置。