文本分类NLP豆瓣电影短评中文文本分类实战代码Jieba+sklearn

本文主要是基于爬虫获取的豆瓣电影短评标题,做文本分类。主要运用了jieba+sklearn来完成整个项目数据过程。

先简单介绍下中文分词利器jieba,是一个非常好用的中文工具,以分词起家的,但是功能比分词要强大很多。
支持三种分词模式:
1精确模式,试图将句子最精确地切开,适合文本分析;
2全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
3搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
除了分词以外,jieba在词性标注上操作起来也非常方便。调用posseg方法即可。

下面开始项目过程代码实操示例:
豆瓣电影短评标题获取,自行爬虫搞定,存储数据并读取后开始NLP流程。

一、标题文本预处理包含:
1.过滤非中文字符
2.文本分词并进行词性标注
3.去除常见中文停用词,并存储分词后结果

二、 文本特征词向量化表示:
1.词袋模型 Coutvictorizer
2.TF-IDF特征提取
三、调用sklearn 分类器建模,GridsearchCV调参
1.逻辑回归分类 LogisticRegression
2.超参数C设定,正则化 防止过拟合

整体流程如上,下面贴核心代码示例:

from jieba import posseg as pseg
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import

猜你喜欢

转载自blog.csdn.net/weixin_37479258/article/details/99349203
今日推荐