1. Cómo representar palabras de una manera que las computadoras puedan procesar (también llamada "segmentación de palabras")
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.test import Tokenizer
sentences=['I love my dog',
'I.love my cat']
tokenizer=Tokenizer(num_words=100)
Cree una instancia de Tokenizer Object y mantenga las 100 palabras más frecuentes en la biblioteca
tokenizer.fit_on_texts(sentences)
Ver todo el texto en oraciones y relacionar el texto con el número correspondiente
word_index= tokenizer.word_index
Obtenga una lista de todas las palabras, genere todo el vocabulario y el vocabulario (Nota: todas las letras mayúsculas se convertirán en letras minúsculas, recuerde convertirlas a mayúsculas cuando la incrustación inicial se realice más adelante)
print(word_index)
Salida: {'i': 1, 'm': 3, 'perro': 4, 'gato': 5, 'amor': 2} Palabras de salida y sus identificadores correspondientes
Nota: El tokenizador es muy inteligente. Incluso si hay un "!" Después del perro, ¡como amo a mi perro !, el tokenizador puede reconocer al perro y eliminar automáticamente el "!".
2. Cree una secuencia numérica para la oración y convierta la oración que contiene las palabras anteriores en una secuencia numérica.
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.test import Tokenizer
sentences=['I love my dog',
'I.love my cat',
'Do you think my dog is amazing?']
tokenizer=Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)
word_index= tokenizer.word_index
sequences=tokenizer.texts_to_sequences(sentences)
Creó una secuencia de identificadores que representan cada oración
print(word_index)
print(sequences)
3. Ordena las oraciones en el conjunto de prueba.
Dado que manatí y realmente y amo son palabras que no están en word_index y no están en el corpus que construye esta secuencia, se generarán de esta manera.
Para no perder la longitud de la oración, puede usar el atributo ovv_token para establecer hasta reemplazar el contenido irreconocible en el corpus
4. Para lidiar con oraciones de diferentes longitudes, puede usar relleno para completar primero para que la oración corta y la oración más larga tengan la misma longitud.