Unigram 和bigram 对yelp数据集进行垃圾评论识别分类 python - 代码天地

Unigram 和bigram 对yelp数据集进行垃圾评论识别分类 python

其他 2019-06-16 02:12:24 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/lily960427/article/details/78996500

依旧是对yelp数据集处理，之前效果不理想，后来仔细看了论文，用的是SVMlight分类器…（使用方法见上一篇文章），效果就差不多了。。。。

过程就是对英文进行处理（去停用，去高频和低频），化为词袋模型，处理成SVMlight的格式，进行分类。贴部分代码。

对数据处理：

for c in cos:
    cis_2=[]
    id = c.split(' ')[0]
    content = c[len(id) + 2:-4]
    s = nltk.stem.SnowballStemmer('english')
    content = s.stem(content)

    # 分割成句子、分割成单词
    sentences = nltk.sent_tokenize(content)
    words = []
    for sen in sentences:
        words.extend(nltk.word_tokenize(sen))
    # 去除停用词
    stopwords = nltk.corpus.stopwords.words('english')
    filtered = [w for w in words if (w not in stopwords)]

    #2-gram
    for i in range(len(filtered)):
        c=filtered[i]
        cis_2.append(c)
    for i in range(len(filtered) - 1):
        c = filtered[i] + filtered[i + 1]
        cis_2.append(c)

    contents.append(cis_2)

形成词典去除低频和高频


#去掉低频词高频
d=defaultdict(int)
for m in contents:
    for n in m:
        d[n] +=1
print(d.items())

contents = [[token for token in text if 3000>d[token] >5]
         for text in contents]
#形成字典
dictionary = corpora.Dictionary(contents)
print(len(dictionary))
#将文本转化为词袋模型的向量，返回的一个个二元组
#比如（0，2）代表第0个次出现了2次
corpus = [dictionary.doc2bow(text) for text in contents]

这里写图片描述

还可以，recall还有提升，毕竟具体预处理细节也不知道

猜你喜欢

转载自blog.csdn.net/lily960427/article/details/78996500

Unigram 和bigram 对yelp数据集进行垃圾评论识别分类 python

Unigram,Bigram，N-gram介绍

正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析、语言模型中unigram、bigram、trigram的概念以及N-Gram模型介绍

[NLP]——BPE、WordPiece、Unigram and SentencePiece

python处理json文件(Yelp数据集)

【Python机器学习】KNN进行水果分类和分类器实战（附源码和数据集）

LLMs：大模型数据预处理技巧之对比Transformer中的三种tokenizer分词算法(Unigram→Word Piece→BPE)之详细攻略

文本建模之Unigram Model，PLSA与LDA

BERT，XLNET分词方法bpe，unigram等介绍

如何使用Python、TensorFlow和Keras来进行垃圾分类？

nltk中的FreqDist,ConditionalFreqDist和Bigram

垃圾分类，javascript和python

【Python】【难度：简单】Leetcode 1078. Bigram 分词

[Python图像识别] 五十.Keras构建AlexNet和CNN实现自定义数据集分类详解

维特比最短路径问题 - 统计分词（unigram）

深入理解BPE、WordPiece、Unigram分词算法

python深度学习垃圾分类数据集目录

使用KNN进行手写体识别和iris数据集分类

Python机器学习之垃圾短信分类(用朴素贝叶斯算法的伯努利模型和多项式模型分类垃圾短信数据集SMSSpamCollection.txt）

RESCAL+YELP 垃圾评论识别论文算法实现

python交叉验证以及将全部数据分类训练集和测试集（分类）

使用python对高光谱数据进行处理和分类

【人工智能】机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集

对鸢尾花数据集和月亮数据集，分别采用线性LDA、k-means和SVM算法进行二分类可视化分析(python编程)

基于机器学习算法：朴素贝叶斯和SVM 分类-垃圾邮件识别分类系统（含Python工程全源码）

Python--基于OpenCV数据集的人脸定位和识别

波士顿房价数据集进行数据预处理和模型训练（Python）

LeetCode—— 1078 Bigram分词

1078. Bigram 分词

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)