自然语言处理与知识图谱week3 | NTLK 入门及英文语料库处理 - 代码天地

自然语言处理与知识图谱week3 | NTLK 入门及英文语料库处理

其他 2019-04-12 19:20:20 阅读次数: 0

参考资料

提取词干：
https://www.cnblogs.com/no-tears-girl/p/6964910.html

准备

import nltk
import re 
import string

f = open("out.txt", "w")  

text_en = open(u'./data/text_en.txt',encoding='utf-8',errors='ignore').read()

...

f.close()

分词

words = nltk.word_tokenize(text_en)

提取词干

from nltk.stem import LancasterStemmer
stemmerlan=LancasterStemmer()
temp = [stemmerlan.stem(t) for t in words]
print(temp, file=f)

去停用词

from nltk.corpus import stopwords
text_stop_words = open(u'./data/stop_words.txt',encoding='utf-8',errors='ignore').read()
stop_words = nltk.word_tokenize(text_stop_words)
#stops=set(stopwords.words('english'))
temp = [word for word in words if word.lower() not in stop_words]
print(temp, file=f)

标点符号过滤

def filter_punctuati

on(words):
    new_words = []
    illegal_char = string.punctuation + '.?!,:;-–—()[]{}"\'' 
    pattern=re.compile('[%s]' % re.escape(illegal_char))
    for word in words:
        new_word = pattern.sub(u'', word)
        if not new_word == u'':
            new_words.append(new_word)
    return new_words

words_no_punc = filter_punctuation(words)
print(words_no_punc, file=f)

低频词过滤（n <= threshold）

temp = []
fdist = nltk.probability.FreqDist(words)
for word in fdist:
    if fdist[word] > 20:
        temp.append(word)
print(temp,file=f)

对前 20 个有意义的高频词，绘制频率分布图

fdist = nltk.probability.FreqDist(words_no_punc)
fdist.plot(20)

绘制离散图，查看指定单词（Elizabeth, Darcy, Wickham, Bingley, Jane）在文中的分布位置

spe_words = ["Elizabeth", "Darcy", "Wickham", "Bingley", "Jane"]
text = nltk.text.Text(spe_words)
text.dispersion_plot(spe_words)

猜你喜欢

转载自blog.csdn.net/cat_xing/article/details/88543223

自然语言处理与知识图谱week3 | NTLK 入门及英文语料库处理

自然语言处理与知识图谱week7 | 使用nltk中的wordnet语料库

ntlk入门函数

自然语言处理语料库

自然语言处理与知识图谱week1 | 从语言到信息——介绍NLP

自然语言处理与知识图谱week7 | 篇章分析（neuralcoref）

自然语言处理与知识图谱week7 | 情感分析

《自然语言处理实战入门》 ---- 第5课：分词评测及语料库简介

自然语言处理中语料库的理解

自然语言处理之中英语料库

【自然语言处理】浅谈语料库

python textblob+NTLK语料包下载

自然语言处理之知识图谱

自然语言处理系列---知识图谱

知识图谱第10享：自然语言处理

自然语言处理与知识图谱week4 | 隐内马尔模型&分词与词性标注

R语言自然语言处理1:中文语料库构造

python自然语言处理——2.1 获取文本语料库

中文自然语言处理百万级语料库-ChineseSemanticKB免费下载

自然语言处理--齐普夫定律(布朗语料库Brown Corpus)

【深度学习】问答系统与知识图谱：自然语言处理应用案例

自然语言处理（NLP）与知识图谱（KG）的发展史

对搜狗语料库进行想要格式编码的处理

一文了解知识图谱能做什么、本文含Jiagu自然语言处理工具试用、知识图谱实战。

《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：02 语料库和数据集

Python 自然语言处理笔记（四）——wordnet语料库的使用，判断是否存在共指指代

中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享

语料库与语言知识库

自然语言处理语料

NTLK nature language toolkit

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)