深度学习和文本分类

参考博客

传统的文本分类模型

这里写图片描述

深度学习文本分类模型

fasttext

fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。
序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。
fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。
fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词。

这个模型本身是没有什么特别之处的,它就是利用词向量的平均来做分类。

这里写图片描述

fastext本质上是一个分类模型,当然它也是可以产生词向量。不过多赘述。

textcnn

TextCNN详细过程:第一层是图中最左边的7乘5的句子矩阵,每行是词向量,维度=5,这个可以类比为图像中的原始像素点了。然后经过有 filter_size=(2,3,4) 的一维卷积层,每个filter_size 有两个输出 channel。第三层是一个1-max pooling层,这样不同长度句子经过pooling层之后都能变成定长的表示了,最后接一层全连接的 softmax 层,输出每个类别的概率。

特征:这里的特征就是词向量,有静态(static)和非静态(non-static)方式。static方式采用比如word2vec预训练的词向量,训练过程不更新词向量,实质上属于迁移学习了,特别是数据量比较小的情况下,采用静态的词向量往往效果不错。non-static则是在训练过程中更新词向量。推荐的方式是 non-static 中的 fine-tunning方式,它是以预训练(pre-train)的word2vec向量初始化词向量,训练过程中调整词向量,能加速收敛,当然如果有充足的训练数据和资源,直接随机初始化词向量效果也是可以的。

textrnn

这里写图片描述

利用最后一个词的结果直接softmax,其实这里最后一个词已经包括了前面这些词的语义信息了。

TextRnn+attention

这里写图片描述

textrcnn

这里写图片描述

猜你喜欢

转载自blog.csdn.net/ding_xiaofei/article/details/81132555