文章目录

一、简介
二、模型结构

2.1 嵌入层
2.2 卷积层
2.3 池化层
2.4 全连接层
2.5 softmax层

三、textCNN总结
四、实现
五、参考

一、简介

TEXTCNN是由Yoon Kim在论文(2014 EMNLP) Convolutional Neural Networks for Sentence Classification中提出的，其主要思想是将不同长度的短文作为矩阵输入，使用多个不同size的filter去提取句子中的关键信息（类似于多窗口大小的ngram），并用于最终的分类。

二、模型结构

TextCNN的结构分为：嵌入层、卷积层、池化层。
在这里插入图片描述

2.1 嵌入层

该层使用词向量，由word2vec预训练好。由于每个词都可以表示成一个词向量的形式，所以对于实验数据集中的所有词条，可以得到一个嵌入矩阵 $M$ ，该矩阵 $M$ 的每一行都是一个词向量。这个嵌入矩阵 $M$ 可以使静态的，即固定不变。也可以是非静态的，即根据反向传播进行更新。

数据量较大：可以直接随机初始化embeddings，然后基于语料通过训练模型网络来对embeddings进行更新和学习。

数据量较小的时候使用静态的：可以利用外部语料来预训练(pre-train)词向量，然后输入到Embedding层，用预训练的词向量矩阵初始化embeddings。（通过设置weights=[embedding_matrix]）。使用预训练的词向量，即利用word2vec、fastText或者Glove等词向量工具，在开放领域数据上进行无监督的学习，获得词汇的具体词向量表示方式，拿来直接作为输入层的输入，并且在TextCNN模型训练过程中不再调整词向量，这属于迁移学习在NLP领域的一种具体的应用。

2.2 卷积层

输入一个句子，首先进行分词，假设得到 $s$ 个单词。然后根据已得到的嵌入矩阵 $M$ ，可以整合得到词向量。假设词向量有 $d$ 维。那么对于输入的句子，可以得到一个 $s$ 行 $d$ 列的矩阵 $A \in R^{s \times d}$ 。

接下来，将矩阵 $A$ 视为一张图像，使用卷积神经网络去提取 $A$ 的特征。在这里，使用一维卷积的理由是：一个句子中相邻的单词的关联性总是比较高的。卷积核的宽度采用的是词向量的维度 $d$ ，高度是一个可以设置的超参数。

现在假设卷积核是一个宽为 $d$ 高为 $h$ 的矩阵 $w$ ，那么 $w$ 就有 $d*h$ 个参数需要被更新。对于一个句子有矩阵 $A \in R^{s \times d}$ 。 $a[i:j]$ 表示 $A$ 的第 $i$ 行第 $j$ 列。卷积操作可表示为:
${o_i} = w \cdot A[i:i + h - 1],i = 1,2,...,s - h + 1$

然后叠加上偏置 $b$ ，并使用激活函数 $f$ 激活，得到所需特征，公式为：
${c_i} = f({o_i} + b)$

对于一个卷积核，可以得到特征 $c \in {R^{s - h + 1}}$ ，合计 $s - h + 1$ 个特征。具体实验为了得到更加丰富的特征语义表达，可以使用多个不同高度的卷积核。

2.3 池化层

使用不同尺寸的卷积核，可得不一样大小的特征，称为Feature Map。为了最后特征提取，我们需要使它们的维度相同，做法是对每个特征图用池化函数。最常用的方法就是1-max pooling，提取出feature map中的最大值。这样做就可以令每一个卷积核得到的特征是一个值。

2.4 全连接层

对所有卷积核都使用：1-max pooling，再级联起来，可得最终的特征向量，此处可用 dropout 以防过拟合。并在全连接层上添加l2正则化参数。

2.5 softmax层

将全连接层的输出使用softmax函数，获取文本分到不同类别的概率。

如果是训练的话，此时便会根据预测label以及实际label来计算损失函数, 计算出softmax 函数,max-pooling 函数, 激活函数以及卷积核函数四个函数当中参数需要更新的梯度, 来依次更新这四个函数中的参数，完成一轮训练。

如果是预测的话，到这里整个textCNN的流程遍结束了。

为了便于理解，下面对上述模型结构做一个实例化阐述。如图示为TextCNN的模型结构。
在这里插入图片描述

在这里，word embedding的维度是5，对于这个句子“I am very good！”，可转换为如图中所示的矩阵 $A \in {R^{5 \times 5}}$ 。此处有6个卷积核，尺寸分别为： $(2 \times 5),(3 \times 5),(4 \times 5)$ ，每一个尺寸各设有两个。

矩阵A分别和以上对应的卷积核执行卷积操作，再使用激活函数来激活。这样每一个卷积核都得到了特征向量(feature maps)。

使用1-max pooling，提取每个feature map的最大值，然后级联，得到最终的特征表达。然后将特征输入到softmax layer进行分类, 在这层可以用正则化操作( L2-regulariation)。

三、textCNN总结

textCNN的流程：先将文本分词做embeeding得到词向量, 将词向量经过一层卷积,一层max-pooling, 最后将输出外接softmax 来做n分类。
textCNN 的优势：模型简单, 训练速度快，效果不错。
textCNN的缺点：模型可解释型不强，在调优模型的时候，很难根据训练的结果去针对性的调整具体的特征，因为在textCNN中没有类似gbdt模型中特征重要度(feature importance)的概念, 所以很难去评估每个特征的重要度。

四、实现

详情参考博客：https://www.cnblogs.com/ModifyRong/p/11442595.html

五、参考

晴晴_Amanda

发布了21 篇原创文章 · 获赞 3 · 访问量 618

私信关注

3.文本分类——textCNN模型

文章目录

一、简介

二、模型结构

2.1 嵌入层

2.2 卷积层

2.3 池化层

2.4 全连接层

2.5 softmax层

三、textCNN总结

四、实现

五、参考

猜你喜欢

3.文本分类——textCNN模型

文章目录

一、 简介

二、 模型结构

2.1 嵌入层

2.2 卷积层

2.3 池化层

2.4 全连接层

2.5 softmax层

三、textCNN总结

四、实现

五、参考

猜你喜欢

一、简介

二、模型结构