初探nlp 词频统计，去停顿词 - 代码天地

初探nlp 词频统计，去停顿词

其他 2019-01-02 01:25:02 阅读次数: 0

版权声明：文章禁止转载 https://blog.csdn.net/weixin_43477010/article/details/84782195

一些简单且实用的python操作

rainbow = open(r'C:\Users\Linsinan\Desktop\彩虹.txt')
text = rainbow.read().split()

text.count('the') # 词频计算
words = set(text) # 不重复的元组数据
len(words) # 有19657个不重复的单词
'draw'[::-1] # 对一个单词进行反转

{w for w in words if w == w[::-1] and len(w) > 4} # 长度大于4且反转后还是自己的单词
{w for w in words if w == w[::-1] and len(w) > 4} # set + lambda的操作，学到了

简单的词频统计

import string
from urllib.request import urlopen
import nltk
import matplotlib.pyplot as plt
from nltk.corpus import stopwords

shakespeare = urlopen('http://composingprograms.com/shakespeare.txt')
text = shakespeare.read().decode().lower().split()
words = set(text)
countsDict = {index: text.count(index) for index in words}
# countsDict = nltk.FreqDist(text)，最快最直接的方式

# 去掉标点
for i in string.punctuation:
    try:
        countsDict.pop(i)
    except:
        pass


# 前10名频率的单词
rankWord = sorted(countsDict, key=lambda x: countsDict[x], reverse=True)
values = [countsDict[i] for i in rankWord[:10]]
plt.bar(range(len(values)), values, tick_label=rankWord[:10])
plt.show()


# 前10名的非停用词
for i in stopwords.words('english'):
    try:
        countsDict.pop(i)
    except:
        pass

rankWord = sorted(countsDict, key=lambda x: countsDict[x], reverse=True)
values = [countsDict[i] for i in rankWord[:10]]
plt.bar(range(len(values)), values, tick_label=rankWord[:10])
plt.show()

猜你喜欢

转载自blog.csdn.net/weixin_43477010/article/details/84782195

初探nlp 词频统计，去停顿词

应用python初探梅雨预报感言NLP词频分析

NLP 学习 task2 - jieba、分词、去停用词、词频统计

NLP_deepQA初探

NLP数据预处理——词频统计（创建词典）程序

【NLP】英文数据预处理__词频统计简例

词频统计及词云绘制

python词云图词频统计

简单NLP分析套路（2）----分词，词频，命名实体识别与关键词抽取

NLP之词频作向量

泛统计理论初探——文本挖掘中的词袋模型

NLP -- 词嵌入模型

【NLP】词频统计的3中方法，时间复杂度，空间复杂度对比。

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

中文词频统计与词云生成

python词频统计生成词云

python 统计词频，过滤词频小于2的词

分词去停用词词频统计

nlp 统计语言模型

NLP - 统计频率

NLP 简单统计

泛统计理论初探——激活函数初探

泛统计理论初探——初探特征工程

泛统计理论初探——初探AdaBoost方法

泛统计理论初探——初探Gibbs采样

泛统计理论初探——初探XGBoost方法

泛统计理论初探——初探GPT模型

泛统计理论初探——初探Bert模型

泛统计理论初探——初探transformer机制

泛统计理论初探——初探Stacking策略

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)