自然语言处理-文本分类

一、模型的选择

①特征数量很多,和样本数量差不多,选择逻辑回归(LR)或线性支持向量机(SVM)。

②特征数量比较小,样本数量一般,不大也不小,选择SVM的高斯核函数版本。

③数据量非常大,又非线性,使用决策树(DT)的升级版本-随机森林。

④数据量巨大,特征向量也非常大,用神经网络深度学习模型。

二、大致步骤

1)定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据。

2)数据预处理:对文档做分词、去停用词等准备工作。

3)数据提取特征:对文档矩阵进行降维,提取训练集中最有用的特征。

4)模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器。

5)评测阶段:在测试集上测试并评价分类器性能。

扫描二维码关注公众号,回复: 2150769 查看本文章

6)应用阶段:应用性能最高的分类模型对文本进行分类。

更详细的文本分类模型描述

文本分类解决方法综述

https://www.cnblogs.com/sxron/p/7742692.html

猜你喜欢

转载自blog.csdn.net/qq_32899201/article/details/80927503