Python自然语言处理—停用词词典

其他 2018-11-17 11:32:55 阅读次数: 0

一过滤文本

去除停用词典和错词检错都可以用词典的形式完成，以停用词为例，我使用的应该是知网提供的中文停用词典。测试的数据集是小学生数学题。

print(text)  # 打印未去除停用词前版本

with open(r"C:\Users\BF\Desktop\NLTK\stopwords.txt","r",encoding='utf-8') as stopfile:  # 读取停用词，用utf-8的编码格式
    txt = stopfile.readlines()  # 一次性将所有的词按行读进来
    stopword = set(word.strip('\n') for word in txt)  # 去除每个词后的换行符放入tuple中

removetext = [word for word in text if word not in stopword]  # 去除停用词
print(removetext)

停用词的下载链接

https://pan.baidu.com/s/1aGoVyl-NkBXwQ9nEbvisyQ

当然如果你自己的中文的错别字词典可以用同样的方式使用它，这里我用的是书本上英文文本的例子，找出文本中罕见的或者拼写错误的词汇表。这里有一个小技巧，如果你比较的是两个元祖，可以用自带的方法求两个元祖的交集，差集，并集。


def unusual_words(text):
    text_vocab = set(w.lower() for w in text if w.isalpha())  # 读取带处理的文本
    english_vocab = set(w.lower() for w in nltk.corpus.words.words())  # 读取nltk自带的过滤文本
    unusual = text_vocab.difference(english_vocab)
    return unusual

unusual_words(nltk.corpus.nps_chat.words())

二过滤文本

发音词典，是为了语音合成器而设计的。中文的发音词典我也没找到，所以这章不介绍（可以用来找押韵词，对写歌的人估计很有帮助）

猜你喜欢

转载自blog.csdn.net/m0_38126215/article/details/83787873

Python自然语言处理—停用词词典

自然语言处理-停用词

自然语言处理(英文停用词删除) Java程序

自然语言处理爬过的坑：使用python结巴对中文分词并且进行过滤，建立停用词。常见的中文停用词表大全

自然语言处理_分词_停用词整理[哈工大、四川大学机器智能实验室停用词库、百度停用词库、中文停用词词表]

『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

Python自然语言处理

Python 自然语言处理

Hanlp自然语言处理中的词典格式说明

【自然语言处理】基于词典的分词方法

Python 自然语言处理（基于Gensim）

Python 自然语言处理（基于SnowNLP）

nltk：python自然语言处理一

nltk:python自然语言处理二

Python自然语言处理—统计词频

python自然语言处理（二）

python自然语言处理-—安装NLTK

python自然语言处理（一）

Python自然语言处理—分割

Python自然语言处理—算法基础

python 自然语言处理词性标注

python自然语言处理——2.5 WordNet

AI与Python - 自然语言处理

python 自然语言处理实战

python库jieba 自然语言处理

《python自然语言处理》(1)

入坑python自然语言处理

用Python进行自然语言处理

自然语言处理

自然语言处理①

今日推荐

周排行

解析ReentrantLock实现原理

面试之非技术

第三周助教点评

《阅读-拖延心理学》

第二章使用 kind 一分钟搭建 k8s 集群

2018福大软工实践第五次作业

Day2.基本条件语句

抢占物联网入口，“腾讯云小微”将和AliGenie互怼

IO流的输入输出

vSphere 7.0初体验

每日归档

更多

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)