分类算法(七）—— 短文本分类 - 代码天地

分类算法(七）—— 短文本分类

其他 2021-01-28 09:49:44 阅读次数: 0

深入做文本分类的同学都知道，短文本分类相对来说比较难。因为较短的文本包含的信息较少，有时候模型很难学到关键特征。

参考 https://www.zhihu.com/question/326770917/answer/698646465，指出：

对于短文本，CNN配合Max-pooling池化(如TextCNN模型)速度快，而且效果也很好。因为短文本上的关键词比较容易找到，而且Max-pooling会直接过滤掉模型认为不重要特征。具体工作机制是：卷积窗口沿着长度为n的文本一个个滑动，类似于n-gram机制对文本切词，然后和文本中的每个词进行相似度计算，因为后面接了个Max-pooling，因此只会保留和卷积核最相近的词。这就是TextCNN抓取关键词的机制。虽然Attention也突出了重点特征，但是难以过滤掉所有低分特征。而Capsules效果比CNN好，所以我个人觉得在短文本上LSTM/GRU+Capusules是一个不错模型，这也是目前Kaggle Quora比赛上(短文本分类)最好的baseline之一。

但是对于长文本直接用CNN就不行了，TextCNN会比HAN模型泛化能力差很多。当然如果在TextCNN前加一层LSTM，这样效果可以提升很大。

另外还有一点很重要的是，实际使用的模型也要看训练数据，根据训练数据以及相关任务确定采用哪种模型比较合适，虽然文本有长短之分，但是对于不同任务还是要考虑是否使用，对于一些简单的任务，长文本分类可以直接上BERT看效果，BERT在长文本效果比短文本好很多，也是因为预训练的时候长文本较多有关系，且因为BERT的网络结构及数据规模，时期在长文本分类等自然语言处理任务中有很好的效果。对于一些比较复杂的任务来说，可以考虑BERT上拼接其他算法。短文本可以按前人经验采用TextCNN尝试下效果。

猜你喜欢

转载自blog.csdn.net/katrina1rani/article/details/109447732

分类算法(七）—— 短文本分类

短文本分类总结

短文本分类概述

中文短文本分类

短文本分类：电力95598工单分类实现

构建短文本分类模型需要注意的几点

用BERT进行中文短文本分类

中文短文本分类实例七-DPCNN（Deep Pyramid Convolutional Neural Networksfor Text Categorization）

［机器学习］机器学习在短文本分类项目中的应用

基于tensorflow+CNN的报警信息短文本分类代码理解（纯小白）

初步涉及短文本分类，jieba+词袋+TF-IFG+SVM

基于TF-IDF及朴素贝叶斯的短文本分类

使用jieba和gensim进行短文本分类（一）：构建词向量

中文短文本分类实例十二-HAN（Hierarchical Attention Networks for Document Classification）

中文短文本分类实例八-VDCNN（Very Deep Convolutional Networks for Text Classiﬁcation）

中文短文本分类实例十一-CapsuleNet胶囊网络（Dynamic Routing Between Capsules）

中文短文本分类实例四-charCNN-kim（Character-Aware Neural Language Models）

中文短文本分类实例九-CRNN（A C-LSTM Neural Network for Text Classiﬁcation）

中文短文本分类实例三-TextCNN（Convolutional Neural Networks for Sentence Classification）

中文短文本分类实例五-RCNN（Recurrent Convolutional Neural Networks for TextClassiﬁcation）

中文短文本分类实例二-FastText（Bag of Tricks for Efﬁcient Text Classiﬁcation）

中文短文本分类实例六-DCNN（A Convolutional Neural Network for Modelling Sentences）

自然语言处理（NLP）：08 基于Pytorch深度学习-短文本分类

用于半监督短文本分类的异构图注意网络论文阅读笔记及代码复现

中文自然语言处理--基于朴素贝叶斯的中文短文本分类

文本分类KNN算法

文本分类算法综述

fastText文本分类算法

文本分类算法的效果

文本分类-Adaboost算法

今日推荐

周排行

解析ReentrantLock实现原理

面试之非技术

第三周助教点评

《阅读-拖延心理学》

第二章使用 kind 一分钟搭建 k8s 集群

2018福大软工实践第五次作业

Day2.基本条件语句

抢占物联网入口，“腾讯云小微”将和AliGenie互怼

IO流的输入输出

vSphere 7.0初体验

每日归档

更多

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)