舆情监控系统——step2.利用SVM实现中文文本分类 - 代码天地

舆情监控系统——step2.利用SVM实现中文文本分类

其他 2018-06-04 06:05:00 阅读次数: 2

先放GitHub代码，如果觉得写得不错，记得加个star哦，嘻嘻～

基本流程

1、准备好数据食材、去停用词并利用结巴(jieba)进行分词处理

数据食材选用参考：NLP中必不可少的语料资源

jieba分词模块参考官方文档啦～

# 参照代码中的cutWords.py文件

2、利用卡方检验特征选择

卡方检验：在构建每个类别的词向量后，对每一类的每一个单词进行其卡方统计值的计算。
1. 首先对卡方检验所需的 a、b、c、d 进行计算。
a 为在这个分类下包含这个词的文档数量;
b 为不在该分类下包含这个词的文档数量;
c 为在这个分类下不包含这个词的文档数量;
d 为不在该分类下，且不包含这个词的文档数量。
2. 然后得到该类中该词的卡方统计值
公式为 float(pow((a*d - b*c), 2)) /float((a+c) * (a+b) * (b+d) * (c+d))。
3. 对每一类别的所有词按卡方值进行排序，取前 k 个作为该类的特征值，这里我们取 k 为 1000

# featureSelection.py

3、利用TF*IDF算法进行特征权重计算

TF-IDF算法：

全称叫 Term Frequency-Inverse Document Frequency 词频-逆文档频率算法
主要用于关键词抽取
优点：每个词的权重与特征项在文档中出现的频率成正比，与在整个语料中出现该特征项的文档数成反比。
原理解说：

训练文本的特征向量表示数据在 train.svm文件中，测试文本的特征向量表示数据在test.svm 中。

# featureWeight.py

3、基于训练文本的特征向量数据，使用LIBSVM库训练SVM 模型

使用libsvm对train.svm进行模型训练，和对test.svm模型进行预测

测试命令：

对train.svm文件数据进行缩放到[0,1]区间
./svm-scale -l 0 -u 1 train.svm > trainscale.svm

对test.svm文件数据进行缩放到[0,1]区间
./svm-scale -l 0 -u 1 test.svm > testscale.svm

对trainscale.svm 文件进行模型训练
./svm-train -s 1 trainscale.svm trainscale.model

对testscale.svm 文件进行模型预测，得到预测结果，控制台会输出正确率
./svm-predict testscale.svm trainscale.model testscale.result

4、对于测试集进行特征向量表示，代入训练得到的 SVM 模型中进行预测分类
预测结果：92%
这里写图片描述

目前这个阶段，能够讲到这个程度，以后在补充吧，小明酱撤退了～

猜你喜欢

转载自blog.csdn.net/alicelmx/article/details/80428453

舆情监控系统——step2.利用SVM实现中文文本分类

舆情监控系统——step2.CNN-基于tensorFlow实现文本分类

2.中文文本分类

中文文本分类 pytorch实现

中文文本分类

TensorFlow使用CNN实现中文文本分类

Tensorflow使用LSTM实现中文文本分类（二）

基于 spark ml NaiveBayes实现中文文本分类

中文文本分类1

CNN在中文文本分类的应用

中文文本分类大概的步骤

中文文本分类的总结

XLNET中文文本分类

[Python人工智能] 二十一.Word2Vec+CNN中文文本分类详解及与机器学习（RF\DTC\SVM\KNN\NB\LR）分类对比

Bert+FGSM/PGD实现中文文本分类（Loss=0.5L1+0.5L2)

利用Fast-Text进行中文文本分类

SVM文本分类

中文文本分类-新闻分类[数据挖掘]

《机器学习：算法原理和编程实践》2：中文文本分类

Spark MLlib实现的中文文本分类–Naive Bayes[转]

【转】CNN与RNN中文文本分类-基于TENSORFLOW实现

scala Spark MLlib实现的中文文本分类–Naive Bayes

基于libsvm的中文文本分类原型

PySpark NaiveBayes算法之中文文本分类测试

中文文本分类调试笔记

使用Thuctc进行中文文本分类应用

Weka初体验——中文文本分类

使用机器学习完成中文文本分类

大作业之中文文本分类（终稿）

Bert预训练模型-中文文本分类

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)