《python自然语言处理》(1)

其他 2020-05-02 11:26:03 阅读次数: 0

记录下书中的例子

1.1文本和词汇

首先得下载

import nltk
nltk.download()

下载器的Collections选项卡下，选择book然后下载

如果下载缓慢或者报错，建议找百度云的包效果是一样的

进入IDLE，输入from nltk.book import *,出现以下结果代表安装完成

 from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

搜索文本

键入text.concordance("关键字")

结果还是挺明显的

相似的词（出现相似的上下文）

common_contexts（研究共用两个或两个以上的上下文）

频率分布

产生随机文本

当然也可以texte2.generate（），text3.generate（），每一篇文章的风格不同，书上说每次运行后，输出文本都会不同，实际上我的每次都相同

计数词汇（文本中出现的单词和标点符号）

这个是未去重的

获取词汇表

输出结果会按照英文字母顺序排序的所有唯一标识符（单词和标点）

sorted()是排序，单独set()也会得到，但未排序，然和使用len获取唯一项目类型(单词和标点符号)个数

单词平均使用

表示该篇文章每个单词平均使用16次

计算特定词占百分比

text4.count('')表统计该单词在文中出现的次数

然后讲了一些列表(书中翻译为链表，老是会联想到数据结构中的链表)的运算，就真是来水页数的

1.3计算语言：简单的统计

频率分布

FreqDist将统计各个标识符出现的次数，keys提供所有不同类型的列表（python3中需要按list（fdist.keys())这样写，不然会报错

这里vocabulary[：20]代表取出词频最高的20个词（含标点）

作图：

若不加上cumulative = True，即不考虑累加，则会显示出每个词的次数

只出现一次的词

可以看到有9002个词，在文中只出现一次

细粒度的选择词

这样就可以选择出在text1中的并且该词长度大于15的所有词

以下是在text5中所有长度超过7并且出现次数也超过7次的词

词语搭配和双连词

搭配是不经常在一起出现的词序列。因此 red wine 是，the wine 不是。

计算其他东西

这样会输出每个标识符的长度

这样得到了该文章中所有词的不同长度（也就是说他们由1，4，2...个字母组成，最长20，没有21的）

再键入，得到统计

也可以这样获取出现len最长的，和出现多少次

同样这里也可以绘图来直观的展示

猜你喜欢

转载自www.cnblogs.com/Truedragon/p/12817308.html

《python自然语言处理》(1)

自然语言处理-1

自然语言处理1

自然语言处理 1

自然语言处理1——探索自然语言处理的基础 - Python入门篇

Python自然语言处理

Python 自然语言处理

python 自然语言处理统计语言建模（1/2）

Python自然语言处理实战（1）：NLP基础

python自然语言处理 -读书笔记1

《用Python进行自然语言处理》笔记1

自然语言处理1 -- 分词

自然语言处理作业A1

自然语言处理 | (1)NLP简介

自然语言处理（1）——词汇标注

自然语言处理复习笔记 1

自然语言处理-1-介绍

【自然语言处理】——（1）What is NLP？

Python 自然语言处理（基于Gensim）

Python 自然语言处理（基于SnowNLP）

nltk：python自然语言处理一

nltk:python自然语言处理二

Python自然语言处理—统计词频

python自然语言处理-—安装NLTK

python自然语言处理（二）

python自然语言处理（一）

Python自然语言处理—算法基础

Python自然语言处理—分割

python 自然语言处理词性标注

python自然语言处理——2.5 WordNet

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)