python自然语言处理 -读书笔记1 - 代码天地

python自然语言处理 -读书笔记1

编程语言 2018-10-15 15:13:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zlp_zky/article/details/82992137

# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'
import nltk
from nltk.book import *
# print(text1.concordance("monstrous"))#显示一个指 定单词的每一次出现，连同一些上下文一起显示
# print(text2.similar("monstrous"))#查看在text2中与该单词("monstrous")相似的词。
#print(text2.common_contexts(["monstrous", "very"]))#们研究两个或两个以上的词共同的上下文
#text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])#判断词在文本中的位置：从文本开头算起在它前面有多少词。这个位置信息 可以用离散图表示。每一个竖线代表一个单词，每一行代表整个文本。
# print(len(text3) / len(set(text3)))#展示每个字平均被使用了多少次
# print(len((set(text3))))#展示这本书中一共使用了多少个不同的词汇，包括标点符号
# print(text3.count("smote"))#展示这本书中smote出现的次数
# print(100 * text4.count('a') / len(text4))#，计算一个特定的词在文本中占据的百分比


def lexical_diversity(text):#展示每个字平均被使用了多少次
    return len(text) / len(set(text))
def percentage(count, total):#计算百分比
    return 100 * count / total
#sent1...9是已经预定义好的词汇链表
fdist1=FreqDist(text1)#计算出来 的《白鲸记》中的总的词数
vocabulary1 = list(fdist1.keys())#表达式keys()为我们提供了文本中所有不同类型的链表
#fdist1.plot(50, cumulative=True)#《白鲸记》中 50 个最常用词的累积频率图
#print(vocabulary1[:50])
#print(fdist1.hapaxes())#只出现了一次的词
V = set(text5)
long_words = [w for w in V if len(w) > 15]
print(sorted(long_words))#找出文本词汇表长度中超过 15个字符的词

fdist5 = FreqDist(text5)
print(fdist5.items())
print(sorted([w for w in set(text5) if len(w) > 7 and fdist5[w] > 7]))#找出文本词汇表长度中超过7个字符并且出现次数大于7次的词

# print(text4.collocations())#找到比我们基于单个词的频率预期得到的更频繁出现的双连词

# fdist =FreqDist([len(w) for w in text1])#可以查看文本中词长的分布，
# print(fdist.items())
# print(fdist.max())
# print(fdist.freq(3))

猜你喜欢

转载自blog.csdn.net/zlp_zky/article/details/82992137

python自然语言处理 -读书笔记1

【读书笔记】《Python自然语言处理》第1章语言处理与Python

python自然语言处理-读书笔记

python自然语言处理-读书笔记9

python自然语言处理-读书笔记8

python自然语言处理-读书笔记7

python自然语言处理-读书笔记6

python自然语言处理-读书笔记5

python自然语言处理-读书笔记4

python自然语言处理-读书笔记3

《python自然语言处理》(1)

《自然语言处理入门》读书笔记

1-人工智能简史之自然语言处理（读书笔记）

自然语言处理1——探索自然语言处理的基础 - Python入门篇

《用Python进行自然语言处理》笔记1

python 自然语言处理统计语言建模（1/2）

自然语言处理-1

自然语言处理1

自然语言处理 1

Python自然语言处理实战（1）：NLP基础

自然语言处理综述--《自然语言理解》笔记

Python自然语言处理-学习笔记(5) —— 标注词汇

Python 自然语言处理笔记（二）—— 中文分词

《用Python进行自然语言处理》笔记2

自然语言处理入门何晗读书笔记第1章新手上路

自然语言处理复习笔记 1

Python自然语言处理第1章语言处理与Python 学习笔记

《自然语言处理综述》-第三版读书笔记01

文本上的算法——深入浅出自然语言处理（读书笔记）

自然语言处理作业A1

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)