Revelando el transformador en el iPhone: basado en la arquitectura GPT-2, la palabra segmentador contiene emoji, producido por ex alumnos del MIT

Un tipo llamado Jack Cook puso patas arriba la versión beta de macOS Sonoma y descubrió mucha información nueva.

Este artículo se reimprime con la autorización de AI New Media Qubit (ID de cuenta pública: QbitAI), comuníquese con la fuente para la reimpresión.

Los entusiastas han revelado el "secreto" del Transformer de Apple.

En la ola de modelos grandes, incluso si eres tan conservador como Apple, debes mencionar "Transformer" en cada conferencia de prensa.

Por ejemplo, en la WWDC de este año, Apple anunció que las nuevas versiones de iOS y macOS tendrán modelos de lenguaje Transformer integrados para proporcionar métodos de entrada con capacidades de predicción de texto.

imagen

Los funcionarios de Apple no revelaron más información, pero los entusiastas de la tecnología no pueden quedarse quietos.

Un tipo llamado Jack Cook puso patas arriba la versión beta de macOS Sonoma y descubrió mucha información nueva:

  • En términos de arquitectura del modelo, Cook cree que el modelo de lenguaje de Apple se basa más en GPT-2 .
  • En términos de tokenizadores, los emoticones son muy destacados.

Echemos un vistazo a más detalles.

Basado en la arquitectura GPT-2

Primero, revisemos qué funciones puede implementar el modelo de lenguaje basado en Transformer de Apple en iPhone, MacBook y otros dispositivos.

Reflejado principalmente en el método de entrada. El método de entrada propio de Apple, compatible con el modelo de lenguaje, puede lograr funciones de predicción de palabras y corrección de errores.

imagen

El hermano Jack Cook lo probó específicamente y descubrió que esta función implementa principalmente la predicción de palabras individuales.

imagen

△Fuente: publicación del blog de Jack Cook

El modelo a veces predice varias palabras próximas, pero esto se limita a situaciones en las que la semántica de la oración es muy obvia, similar a la función de autocompletar de Gmail.

imagen

△Fuente: publicación del blog de Jack Cook

Entonces, ¿dónde está instalado exactamente este modelo? Después de investigar un poco en profundidad, el hermano Cook determinó:

Encontré el modelo de texto predictivo en /System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle.

Porque:

  1. Muchos archivos en unilm.bundle no existen en macOS Ventura (13.5) y solo aparecen en la nueva versión de macOS Sonoma beta (14.0).
  2. Hay un archivo sp.dat en unilm.bundle, que se puede encontrar tanto en Ventura como en Sonoma beta, pero la versión beta de Sonoma se ha actualizado con un conjunto de tokens que obviamente parecen un tokenizador.
  3. La cantidad de tokens en sp.dat coincide con los dos archivos en unilm.bundle: unilm_joint_cpu.espresso.shape y unilm_joint_ane.espresso.shape. Estos dos archivos describen la forma de cada capa en el modelo Espresso/CoreML.

Además, basándome en la estructura de red descrita en unilm_joint_cpu, especulé que el modelo de Apple se basa en la arquitectura GPT-2:

Incluye principalmente incrustaciones de tokens, codificación de posición, bloque decodificador y capa de salida. Cada bloque decodificador tiene palabras como gpt2_transformer_layer_3d.

imagen

△Fuente: publicación del blog de Jack Cook

Según el tamaño de cada capa, también especulé que el modelo de Apple tiene aproximadamente 34 millones de parámetros y el tamaño de la capa oculta es 512. Es decir, es más pequeño que la versión más pequeña de GPT-2.

Creo que esto se debe principalmente a que Apple quiere un modelo que consuma menos energía pero que pueda funcionar con rapidez y frecuencia.

La declaración oficial de Apple en la WWDC es que "cada vez que se hace clic en una tecla, el iPhone ejecutará el modelo una vez".

Sin embargo, esto también significa que este modelo de predicción de texto no es muy bueno para continuar oraciones o párrafos por completo.

imagen

△Fuente: publicación del blog de Jack Cook

Además de la arquitectura del modelo, Cook también desenterró información sobre el tokenizador.

Encontró un conjunto de 15.000 tokens en unilm.bundle/sp.dat. Cabe señalar que contiene 100 emojis .

Cook revela los secretos de Cook

Aunque este cocinero no es cocinero, la publicación de mi blog atrajo mucha atención tan pronto como se publicó.

imagen

Basándose en sus hallazgos, los internautas discutieron con entusiasmo el enfoque de Apple para equilibrar la experiencia del usuario y las aplicaciones de tecnología de vanguardia.

imagen

Volviendo al propio Jack Cook, se graduó en el MIT con una licenciatura y una maestría en informática, y actualmente está estudiando una maestría en ciencias sociales de Internet en la Universidad de Oxford.

Anteriormente, realizó una pasantía en NVIDIA, enfocándose en la investigación de modelos de lenguaje como BERT. También es ingeniero senior de investigación y desarrollo para el procesamiento del lenguaje natural en The New York Times.

Supongo que te gusta

Origin blog.csdn.net/leyang0910/article/details/132993822
Recomendado
Clasificación