文本分类NLP豆瓣电影短评中文文本分类实战代码Jieba+sklearn - 代码天地

文本分类NLP豆瓣电影短评中文文本分类实战代码Jieba+sklearn

其他 2020-03-17 11:41:38 阅读次数: 0

本文主要是基于爬虫获取的豆瓣电影短评标题，做文本分类。主要运用了jieba+sklearn来完成整个项目数据过程。

先简单介绍下中文分词利器jieba，是一个非常好用的中文工具，以分词起家的，但是功能比分词要强大很多。
支持三种分词模式：
1精确模式，试图将句子最精确地切开，适合文本分析；
2全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
3搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
除了分词以外，jieba在词性标注上操作起来也非常方便。调用posseg方法即可。

下面开始项目过程代码实操示例：
豆瓣电影短评标题获取，自行爬虫搞定，存储数据并读取后开始NLP流程。

一、标题文本预处理包含：
1.过滤非中文字符
2.文本分词并进行词性标注
3.去除常见中文停用词，并存储分词后结果

二、文本特征词向量化表示：
1.词袋模型 Coutvictorizer
2.TF-IDF特征提取
三、调用sklearn 分类器建模，GridsearchCV调参
1.逻辑回归分类 LogisticRegression
2.超参数C设定，正则化防止过拟合

整体流程如上，下面贴核心代码示例：

from jieba import posseg as pseg
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import

猜你喜欢

转载自blog.csdn.net/weixin_37479258/article/details/99349203

文本分类NLP豆瓣电影短评中文文本分类实战代码Jieba+sklearn

中文文本分类

利用sklearn进行豆瓣电影评论的文本分类

文本分类实战-NLP

NLP文本分类

中文文本分类1

CNN在中文文本分类的应用

中文文本分类大概的步骤

2.中文文本分类

中文文本分类的总结

XLNET中文文本分类

中文文本分类 pytorch实现

文本分类实战

英文文本分类

sklearn 用于文本分类

NLP 中的文本分类

NLP之文本分类

文本分类概述（nlp）

NLP文本分类问题

中文文本分类-新闻分类[数据挖掘]

NLP--THUCTC: 一个高效的中文文本分类工具包

中文短文本分类

豆瓣评分预测（如何用自己的数据集进行文本分类）——基于pytorch的 BERT中文文本分类，超详细教程必会！！！

基于libsvm的中文文本分类原型

PySpark NaiveBayes算法之中文文本分类测试

中文文本分类调试笔记

使用Thuctc进行中文文本分类应用

Weka初体验——中文文本分类

使用机器学习完成中文文本分类

大作业之中文文本分类（终稿）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)