La diferencia entre Bert y T5

La principal diferencia entre Bert y T5 es el tamaño de los tokens (palabras) utilizados en la predicción . Bert predice un objetivo que consta de una sola palabra (enmascaramiento de token único ); por otro lado, T5 puede predecir varias palabras , como se muestra en la figura anterior. Proporciona flexibilidad al modelo en términos de aprendizaje de la estructura del modelo.

Transformer es un modelo de aprendizaje profundo que utiliza un mecanismo de autoatención. La autoatención funciona estableciendo un grado de importancia o relación entre una palabra dada y su entorno . Antes de entrar en detalles, recuerde que una incrustación de palabras es una representación numérica en valores reales de una palabra que codifica el significado de una palabra , lo que será útil para verificar qué otras palabras tienen una codificación similar . Una codificación similar significa que las palabras están muy relacionadas entre sí. ¡Volvamos al autoenfoque!



“Hoy estoy escribiendo un artículo sobre motores de búsqueda.”

Supongamos que quiero calcular la autoatención de la palabra “artículo”.

SA('artículo') = cantidad de relación entre la palabra "artículo" y otras palabras en la oración (SA = Autoatención).

Cada flecha representa la atención entre la palabra "artículo" y cualquier palabra en la oración. En otras palabras, cada flecha indica qué tan relacionadas están las dos palabras entre sí. Debemos notar que esto es atención para una sola palabra y debemos repetir este paso para todas las demás palabras.

Al final del proceso, obtendremos un vector para cada palabra que contiene valores numéricos que representan la palabra y su relación con otras palabras.

¿Por qué crearon un mecanismo de autoatención?
La razón de crear el mecanismo de autoatención se debe a las limitaciones que se encuentran en otros modelos fundamentales.

Por ejemplo, skip-gram es un modelo que genera incrustaciones de palabras. Durante la fase de entrenamiento de skip-gram, aprende a predecir un cierto número de palabras circundantes dada una sola palabra como entrada. Por lo general, especificamos el tamaño de la ventana, es decir, cuántas palabras encerradas se darán como entrada.

Pero la principal limitación del modelo es que la predicción de una palabra determinada solo se basará en un número limitado de palabras circundantes. Por otro lado, la autoatención no solo verifica todas las demás palabras de la oración, sino que también les asigna un cierto grado de importancia.

Ejemplo: Cómo un modelo ML predice la palabra "río" en la siguiente oración: Banco de un (río) 

 

 

Supongo que te gusta

Origin blog.csdn.net/qq_39970492/article/details/131212486
Recomendado
Clasificación