自然语言处理--齐普夫定律(布朗语料库Brown Corpus) - 代码天地

自然语言处理--齐普夫定律(布朗语料库Brown Corpus)

其他 2021-02-28 20:03:02 阅读次数: 0

科普一下齐普夫定律：
齐普夫定律是一个看似普遍的规则，它决定着大多数事物的计数结果。齐普夫定律（Zipf’s Law）指出，在给定的自然语言语料库中，任何一个词的频率与它在频率表中的排名成反比。

用布朗语料库来说明这一点：

from nltk.corpus import brown
from collections import Counter

# words()是 NLTK corpus 对象内置的一个方
# 法，它以字符串序列的方式返回分词后的语料库
print(brown.words()[:10])

# 词性标注
# NLTK的corpus reader提供一个唯一的读取标记语料库的接口 tagged_words ()
print(brown.tagged_words()[:10])

puncs = set((',', '.', '--', '-', '!', '?', ':', ';', '``', "''", '(', ')', '[', ']'))
word_list = (x.lower() for x in brown.words() if x not in puncs)
token_counts = Counter(word_list)
'''
布朗语料库中的词频符合齐普夫预测的对数线性关系
如果把语料库的词按照出现次数按降序排列，我们会发现：对一个足够大的样本，出
现次数排名第一的词在语料库中的出现次数是排名第二的词的两倍，是排名第四的词的 4 倍。因此，
给定一个大型语料库，可以用上述数字来粗略统计给定词出现在该语料库的任何给定文档中的可能性。
'''
print(token_counts.most_common(20))

备注：
布朗语料库是布朗大学在 1961 年创建的、第一个百万单词的英语电子语料库。该语料库包含来自 500 个不同数据源的文本，这些数据源已按类型分类，如新闻、社论等。

猜你喜欢

转载自blog.csdn.net/fgg1234567890/article/details/111827371

自然语言处理--齐普夫定律(布朗语料库Brown Corpus)

corpus处理---

corpus处理（2）

对corpus数据处理的认识

心理咨询问答语料库: efaqa-corpus-zh

心理咨询问答语料库: efaqa-corpus-zh

自然语言处理爬过的坑：基于爬虫抓取的语料，使用gensim建设dictionary、corpus、tfidf_model并保存成文件

自然语言处理语料库

阿里巴巴WMT18平行语料过滤 Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

cornell movie-dialogs corpus 康奈尔大学电影对话语料介绍及下载可用于dialog，chatbot

自然语言处理中语料库的理解

自然语言处理之中英语料库

【自然语言处理】浅谈语料库

【论文阅读】The Ubuntu Dialogue Corpus

AI&BigData five：基于爬虫抓取的语料，使用gensim建设dictionary、corpus、tfidf_model并保存成文件两种方法

R语言自然语言处理1:中文语料库构造

python自然语言处理——2.1 获取文本语料库

《自然语言处理实战入门》 ---- 第5课：分词评测及语料库简介

中文自然语言处理百万级语料库-ChineseSemanticKB免费下载

自然语言处理与知识图谱week3 | NTLK 入门及英文语料库处理

《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：02 语料库和数据集

Python 自然语言处理笔记（四）——wordnet语料库的使用，判断是否存在共指指代

自然语言处理与知识图谱week7 | 使用nltk中的wordnet语料库

中文自然语言处理测评数据集、基准模型、语料库、排行榜整理分享

自然语言处理语料

献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一(转载)

献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二(转载)

《自然语言处理（哈工大关毅 64集视频）》学习笔记：第四章汉语语料库的多级加工

历史最全自然语言处理测评基准分享-数据集、基准(预训练)模型、语料库、排行榜

【数据分析学习笔记day27】自然语言处理NLTK+NLTK与自然语言处理基础+NLTK Natural Language Toolkit+安装步骤+语料库+分词+tokenize+词形问题

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)