Introducción al procesamiento del lenguaje natural (NLP) (1)

1. Cómo representar palabras de una manera que las computadoras puedan procesar (también llamada "segmentación de palabras")

import tensorflow as tf 
from tensorflow import keras 
from tensorflow.keras.preprocessing.test import Tokenizer 
sentences=['I love my dog',
           'I.love my cat'] 
tokenizer=Tokenizer(num_words=100)

Cree una instancia de Tokenizer Object y mantenga las 100 palabras más frecuentes en la biblioteca

tokenizer.fit_on_texts(sentences)

Ver todo el texto en oraciones y relacionar el texto con el número correspondiente

word_index= tokenizer.word_index

Obtenga una lista de todas las palabras, genere todo el vocabulario y el vocabulario (Nota: todas las letras mayúsculas se convertirán en letras minúsculas, recuerde convertirlas a mayúsculas cuando la incrustación inicial se realice más adelante)

print(word_index)

Salida: {'i': 1, 'm': 3, 'perro': 4, 'gato': 5, 'amor': 2} Palabras de salida y sus identificadores correspondientes

Nota: El tokenizador es muy inteligente. Incluso si hay un "!" Después del perro, ¡como amo a mi perro !, el tokenizador puede reconocer al perro y eliminar automáticamente el "!".

2. Cree una secuencia numérica para la oración y convierta la oración que contiene las palabras anteriores en una secuencia numérica.

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.test import Tokenizer
sentences=['I love my dog''I.love my cat''Do you think my dog is amazing?']
tokenizer=Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)
word_index= tokenizer.word_index
sequences=tokenizer.texts_to_sequences(sentences)

Creó una secuencia de identificadores que representan cada oración

print(word_index)
print(sequences)

Inserte la descripción de la imagen aquí

3. Ordena las oraciones en el conjunto de prueba.

Inserte la descripción de la imagen aquí

Dado que manatí y realmente y amo son palabras que no están en word_index y no están en el corpus que construye esta secuencia, se generarán de esta manera.
Inserte la descripción de la imagen aquí
Para no perder la longitud de la oración, puede usar el atributo ovv_token para establecer hasta reemplazar el contenido irreconocible en el corpus
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

4. Para lidiar con oraciones de diferentes longitudes, puede usar relleno para completar primero para que la oración corta y la oración más larga tengan la misma longitud.

Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

¡Vea el próximo blog! ! !

Supongo que te gusta

Origin blog.csdn.net/qq_45234219/article/details/114462107
Recomendado
Clasificación