Procesamiento del lenguaje natural-Ley de Zipf (Brown Corpus) - Code World

Procesamiento del lenguaje natural-Ley de Zipf (Brown Corpus)

Others 2021-02-28 20:13:13 views: null

Ciencia popular sobre la ley de
Zipf : la ley de Zipf es una regla aparentemente universal que determina los resultados del conteo de la mayoría de las cosas. La ley de Zipf establece que en un corpus de lenguaje natural dado, la frecuencia de cualquier palabra es inversamente proporcional a su clasificación en la tabla de frecuencias.

Utilice el Brown Corpus para ilustrar este punto:

from nltk.corpus import brown
from collections import Counter

# words()是 NLTK corpus 对象内置的一个方
# 法，它以字符串序列的方式返回分词后的语料库
print(brown.words()[:10])

# 词性标注
# NLTK的corpus reader提供一个唯一的读取标记语料库的接口 tagged_words ()
print(brown.tagged_words()[:10])

puncs = set((',', '.', '--', '-', '!', '?', ':', ';', '``', "''", '(', ')', '[', ']'))
word_list = (x.lower() for x in brown.words() if x not in puncs)
token_counts = Counter(word_list)
'''
布朗语料库中的词频符合齐普夫预测的对数线性关系
如果把语料库的词按照出现次数按降序排列，我们会发现：对一个足够大的样本，出
现次数排名第一的词在语料库中的出现次数是排名第二的词的两倍，是排名第四的词的 4 倍。因此，
给定一个大型语料库，可以用上述数字来粗略统计给定词出现在该语料库的任何给定文档中的可能性。
'''
print(token_counts.most_common(20))

Nota: El
Brown Corpus es el primer corpus electrónico en inglés de un millón de palabras creado por la Universidad de Brown en 1961. El corpus contiene textos de 500 fuentes de datos diferentes, que se han clasificado por tipo, como noticias, editoriales, etc.

Supongo que te gusta

Origin blog.csdn.net/fgg1234567890/article/details/111827371

Procesamiento del lenguaje natural-Ley de Zipf (Brown Corpus)

PNL (Procesamiento del Lenguaje Natural)

Ejemplos de técnicas de procesamiento del lenguaje natural (PNL)

Procesamiento del lenguaje natural: análisis detallado de transformadores

Aprendizaje profundo (procesamiento del lenguaje natural): incorporación de palabras

Procesamiento del lenguaje natural: descomposición de valores singulares (truncamiento)

Introducción al procesamiento del lenguaje natural de PNL

Procesamiento de lenguaje natural 1

Lei de Zipf sobre Processamento de Linguagem Natural (Brown Corpus)

Fundación Procesamiento del Lenguaje Natural PNL

Aprendizaje profundo - Procesamiento del lenguaje natural (1)

Procesamiento del lenguaje natural: una introducción a los modelos de lenguaje grandes

[Procesamiento del lenguaje natural] [Modelo grande] LaMDA: un modelo de lenguaje para aplicaciones conversacionales

Conceptos básicos del aprendizaje profundo del procesamiento del lenguaje natural (teoría de grafos)

Análisis en profundidad del análisis del capítulo de procesamiento del lenguaje natural.

[Descripción general del procesamiento del lenguaje natural] 99 Tabla de multiplicar

¡palabra! ¡Explicación completa del procesamiento del lenguaje natural y uso práctico de Python!

Procesamiento de lenguaje natural: use spaCy para etiquetado de parte del discurso

[Procesamiento del lenguaje natural] Extracción de relaciones: explicación de CoIn

Python procesamiento del lenguaje natural a sólo 5 líneas de código

Aplicación de autómatas en el procesamiento del lenguaje natural.

Keras Name Body Recognition (NER) Combate real --- Tecnología de procesamiento del lenguaje natural

Procesamiento del lenguaje natural: keras implementa el modelado a nivel de carácter LSTM

Procesamiento del lenguaje natural: cálculo artificial de vectores temáticos.

Procesamiento del lenguaje natural: un chatbot basado en la recuperación de ejemplos

Procesamiento del lenguaje natural: keras implementa LSTM apilado (LSTM de dos capas)

Procesamiento del lenguaje natural: creación de una red neuronal bidireccional recurrente

Procesamiento del lenguaje natural: construcción artificial de un perceptrón (unidad neuronal)

GPT-3.5-Turbo de OpenAI, un gran avance en el procesamiento del lenguaje natural

Todos conocen la secuencia de ChatGPT Capítulo 1: ChatGPT y el procesamiento del lenguaje natural

Recomendado

Clasificación

Diario

Más

2024-05-05(0)

2024-05-04(17)

2024-05-03(8)

2024-05-02(0)

2024-05-01(4)

2024-04-30(33)

2024-04-29(5)

2024-04-28(9)

2024-04-27(28)

2024-04-26(22)