Científico jefe de OpenAI: el camino hacia el aprendizaje no supervisado

17df61941cda708b57bed830b68129f5.png

Según el método de aprendizaje, el aprendizaje automático se puede dividir aproximadamente en aprendizaje supervisado y aprendizaje no supervisado. En el aprendizaje no supervisado, necesitamos utilizar algún tipo de algoritmo para entrenar el conjunto de datos sin etiquetar, a fin de ayudar al modelo a encontrar la estructura subyacente de este conjunto de datos.

Para realizar un aprendizaje no supervisado, en los primeros días de OpenAI, pensaron que la compresión podría conducir a este camino. Luego descubrieron que "predecir el siguiente token" es exactamente lo que puede perseguir el aprendizaje no supervisado y se dieron cuenta de que la predicción es compresión. Esta es también una de las ideas clave detrás del éxito de ChatGPT.

Logran la compresión de datos entrenando continuamente un modelo generativo autorregresivo que, si los datos se comprimen lo suficientemente bien, puede extraer toda la información oculta presente en ellos. De esta manera, el modelo GPT puede predecir con precisión la siguiente palabra y la precisión de la generación de texto será mayor.

Recientemente, el cofundador y científico jefe de OpenAI, Ilya Sutskever, propuso en un discurso en UC Berkeley que espera explicar los problemas del aprendizaje no supervisado a través de una perspectiva comprimida. Sin embargo, cabe mencionar que señaló que el modelo GPT también se puede entender sin el concepto de compresión.

(El siguiente contenido es compilado y publicado por OneFlow; comuníquese con nosotros para obtener autorización para la reimpresión. https://simons.berkeley.edu/talks/ilya-sutskever-openai-2023-08-14)

Fuente | Instituto Simons

Compilación de OneFlow

Traducción |Wan Zilin, Yang Ting

Hace un tiempo, cambié el enfoque de mi investigación al campo de la alineación de la IA y hay algunos resultados realmente buenos, pero llevará tiempo. Esta vez, quiero compartir algunas ideas que obtuve en OpenAI desde 2016, que influyeron profundamente en mi forma de pensar sobre el aprendizaje no supervisado. Algunas de estas ideas pueden parecer muy sencillas, pero no todas son fáciles de resolver y algunas pueden interesarte.

1

Teoría del aprendizaje no supervisado

Antes de hablar del aprendizaje no supervisado, debemos aclarar el concepto general de aprendizaje. ¿Qué es el estudio? ¿Por qué es útil el aprendizaje? ¿Por qué las computadoras pueden aprender? Si bien damos por sentado que las redes neuronales aprenden, ¿cómo aprenden matemáticamente? ¿Por qué los modelos de aprendizaje automático pueden capturar patrones de datos? Esta no es una simple pregunta.

En el campo del aprendizaje automático, hace muchos años se logró un importante avance conceptual: el descubrimiento y la formalización del aprendizaje supervisado, que fue realizado por múltiples investigadores.

aprendizaje supervisado

El aprendizaje supervisado, también conocido como aprendizaje inverso o teoría del aprendizaje estadístico, tiene la ventaja de proporcionar condiciones matemáticas explícitas para un aprendizaje exitoso. Cuando participa en la distribución de datos y logra con éxito una baja pérdida de entrenamiento, y el parámetro de grados de libertad del modelo es menor que el tamaño del conjunto de entrenamiento, entonces puede lograr un error de prueba bajo en el conjunto de prueba.

Por lo tanto, si encuentra una función en la clase de función que logra un error de entrenamiento bajo, el aprendizaje será exitoso. Por eso el aprendizaje supervisado es relativamente sencillo en comparación con otros métodos.

La mayoría de los teoremas involucrados en el aprendizaje supervisado son muy simples. Algunos de los razonamientos matemáticos simples involucrados pueden explicar la teoría del aprendizaje supervisado con solo tres líneas de teoremas y, relativamente hablando, es muy fácil de entender.

31fbf8d84451ca654e2d79bf33f8689b.jpeg

Entonces sabemos por qué funciona y, mientras sigamos recopilando grandes conjuntos de datos de aprendizaje supervisado, podemos estar seguros de que el rendimiento del modelo seguirá mejorando . Al mismo tiempo, es crucial que la distribución de la prueba y la distribución del entrenamiento sean consistentes ; solo en este caso, la teoría del aprendizaje supervisado puede ser útil.

fa21f41bf317a227daab0aa30df64c0c.png

Entendemos por qué funciona el aprendizaje supervisado y por qué se puede lograr el reconocimiento de voz, la clasificación de imágenes, etc., todo esto se puede atribuir al aprendizaje supervisado, y el aprendizaje supervisado tiene esta garantía matemática, que es muy buena. Para quienes se preocupan por la dimensión VC, gran parte de la literatura sobre teoría del aprendizaje estadístico enfatiza la dimensión VC como un componente clave, pero en realidad, la dimensión VC solo existe para permitir que el modelo maneje parámetros con precisión infinita.

Si tiene un clasificador lineal donde cada parámetro tiene una precisión infinita, pero en realidad, todos los números de punto flotante tienen una precisión finita, lo que se vuelve cada vez menos preciso, y la cantidad de funciones que una computadora puede realizar es pequeña, puede formular esto en el fórmula mencionada anteriormente, y obtendrá casi todos los límites óptimos que el aprendizaje supervisado puede alcanzar. Creo que esto es bueno porque el paso de prueba solo toma unas pocas líneas.

067e8acd864d92c0f700288c563f658b.png

aprendizaje sin supervisión

A continuación, hablemos del aprendizaje no supervisado. El aprendizaje supervisado es como si tuviera algunos datos y luego prediga la etiqueta de datos desconocidos en función de estos datos de entrada y etiquetas. Si el error de entrenamiento en estos datos es bajo, el tamaño de sus datos de entrenamiento excederá los grados de libertad o los parámetros en la clase de función.

En mi opinión, no existe una discusión satisfactoria sobre el aprendizaje no supervisado. Es posible que podamos juzgar mediante la intuición, pero ¿se puede demostrar mediante el razonamiento matemático? En el experimento se ha logrado el objetivo de aprendizaje no supervisado: por ejemplo, el modelo puede descubrir la estructura oculta real existente en los datos cuando solo hay imágenes o textos y no hay métodos de procesamiento específicos.

¿Cómo pasó esto? ¿Podemos predecir esto? Actualmente no tenemos nada similar a las garantías de aprendizaje supervisado, el aprendizaje supervisado puede reducir el error de entrenamiento y garantizar buenos resultados de aprendizaje, pero el aprendizaje no supervisado no.

Ya en la década de 1980, la gente comenzó a investigar sobre el aprendizaje no supervisado, como la primera máquina Bolson, etc. Sin embargo, estas primeras ideas no funcionaron bien con datos a pequeña escala. Si bien los modelos de lenguaje como BERT y Diffusion han realizado algunas mejoras menores y fueron buenos ejemplos en ese momento, su rendimiento de aprendizaje no supervisado todavía está muy por detrás de los modelos actuales.

684c079296309e523767e657ae0ebb55.png

De manera confusa, ¿cómo funciona exactamente el aprendizaje no supervisado durante la optimización? Podemos optimizar algún tipo de error de reconstrucción, error de eliminación de ruido o error de aprendizaje autosupervisado. ¿Qué sucede cuando se optimiza un objetivo pero se centra en otro objetivo y el modelo funciona bien en el objetivo no optimizado? Es casi como magia.

a85f6ef13d78b4355048070b8a5449c1.png

¿Seguir siempre el positivismo?

El aprendizaje no supervisado le ayuda a lograr sus objetivos al aprender la estructura en la distribución de entrada, pero todos los algoritmos de aprendizaje no supervisado fallan si entrena a través de una distribución uniforme. Por eso quería proponer una forma potencial de pensar sobre el aprendizaje no supervisado que encontré muy interesante.

Aprendizaje no supervisado mediante coincidencia de distribución

Este es un método de aprendizaje no supervisado no convencional que no se usa ampliamente y tiene una propiedad interesante: garantiza un aprendizaje exitoso al igual que el aprendizaje supervisado. Entonces, incluso si no etiqueta ninguno de los datos de entrada, este misterioso proceso de aprendizaje no supervisado todavía funciona, que es la coincidencia de distribución.

¿Qué es la concordancia de distribución? Supongamos que hay dos fuentes de datos que no corresponden en los datos, a saber, X e Y, como dos idiomas diferentes (idioma 1 e idioma 2), que pueden ser texto y voz. Ahora el objetivo es encontrar una función f tal que la distribución generada por f(X) sea similar a la distribución de Y, donde es necesario imponer algunas restricciones a la función f. Esta restricción puede tener sentido. Esto es útil en áreas como la traducción automática y el reconocimiento de voz.

Por ejemplo, tengo una distribución de oraciones en inglés como entrada y al aplicar la función f obtengo una distribución muy similar a la de oraciones en francés, entonces se puede decir que se encuentran las verdaderas restricciones de la función f. las dimensiones de X e Y son lo suficientemente altas, entonces f Puede haber una gran cantidad de restricciones. De hecho, la información de la función f se puede restaurar casi por completo a través de esta información. Al igual que con el aprendizaje supervisado, también se garantiza que esto funcionará. Además, este marco también es adecuado para tareas como cifrados de sustitución simples y cifrado.

7c7bef31a9c7d366e95f96643242bbfd.png

En 2015, descubrí este método de forma independiente y me interesé mucho en él. Creo que es posible describir el aprendizaje no supervisado a través de las matemáticas. Sin embargo, la configuración del escenario de traducción anterior también tiene algunos factores humanos, que no se ajustan completamente al entorno real de aprendizaje automático y a los escenarios de aprendizaje no supervisados.

Desde un punto de vista matemático, a continuación muestro el contenido central concreto del método y explico cómo garantizar la eficacia del aprendizaje no supervisado.

Resuelto comprimiendo

Como todos sabemos, podemos pensar en la compresión como un proceso de predicción, y cada compresor puede transformarse en un predictor, y viceversa. Existe una correspondencia uno a uno entre todos los compresores y predictores. Para ilustrar el pensamiento sobre el aprendizaje no supervisado, creo que es ventajoso utilizar la compresión para la discusión.

Hagamos el siguiente experimento mental: supongamos que tiene dos conjuntos de datos, X e Y, correspondientes a dos archivos en su disco duro, y supongamos que tiene un algoritmo de compresión muy bueno, C, para comprimir los datos. Entonces, ¿qué sucede si comprimes X e Y conjuntamente, los concatenas y los introduces en el compresor?

f8c5e09265976a15213976227758db70.png

¿Qué haría un compresor suficientemente bueno en esta situación? Mi corazonada es que aprovechará los patrones que existen dentro de X para ayudarle a comprimir Y, y viceversa. Pueden existir resultados similares para tareas de predicción, pero esta descripción es más intuitiva cuando se analiza en términos de compresión. En otras palabras, si su compresor es lo suficientemente bueno, debería poder garantizar que concatenar y comprimir archivos grandes no sea peor que comprimirlos individualmente.

b4ada4124385b66f449f4493918894c0.jpeg

Entonces, la compresión adicional que se obtiene al concatenar los dos conjuntos de datos es una estructura compartida que el compresor nota y puede manejar; cuanto mejor sea el compresor, más estructura dinámica extraerá. La brecha entre los dos resultados de la compresión se denomina estructura compartida o información mutua algorítmica. Así como X representa una tarea no supervisada e Y representa una tarea supervisada, con algún tipo de razonamiento matemático, los patrones en X pueden explotarse para ayudar a procesar Y.

1a8ec58355e6266f50a06e3d3ba21a16.jpeg

Obsérvese también cómo este enfoque se generaliza al emparejamiento de distribuciones. Supongamos que estamos en la situación de coincidencia de distribución, donde X representa el idioma 1 e Y representa el idioma 2, existe alguna función simple f que transforma una distribución en otra, y si su compresor es lo suficientemente bueno, definitivamente notará esto, aproveche e incluso intentar restaurar la función internamente. Sería realmente genial si pudiéramos cerrar el círculo de este proceso.

¿Se puede formalizar el aprendizaje no supervisado?

Entonces, ¿cómo formalizamos el aprendizaje no supervisado? En lo que sigue, usaré escenarios de compresión y predicción indistintamente para describirlos. Supongamos que tiene un algoritmo de aprendizaje automático A que intenta comprimir Y, si el algoritmo A tiene acceso a X, donde el número de archivo X es 1 y el número de archivo Y es 2, desea que el algoritmo de aprendizaje automático (es decir, el compresor) sea capaz de comprimir Y, y esto se puede lograr usando X. Entonces, ¿de qué se arrepiente utilizar este algoritmo en particular?

Si la tarea se realiza lo suficientemente bien, el nivel de arrepentimiento es bajo, lo que significa que he recibido toda la ayuda posible de los datos sin etiquetar, no me arrepiento de ello, no hay ningún otro valor predictivo en los datos que un mejor algoritmo pueda usar. , He aprovechado al máximo los datos sin etiquetar, lo he hecho al extremo.

b5d0821f6e90f705224870c7692223c0.jpeg

En mi opinión, este es un paso importante al pensar en el aprendizaje no supervisado. No sabes si tu conjunto de datos no supervisado es realmente útil, podría ser muy útil y contener la respuesta, podría ser inútil, podría ser un conjunto de datos distribuido uniformemente. Sin embargo, si se arrepiente menos de los algoritmos de aprendizaje supervisados, puede saber si su conjunto de datos no supervisados ​​es el primer o el segundo caso. Estoy seguro de que he hecho todo lo posible para aprovechar al máximo los datos sin etiquetar y nadie puede hacerlo mejor que yo.

2

La complejidad de Kolmogorov como compresor definitivo

A continuación, hablemos de la complejidad de Kolmogorov (complejidad de Kolmogorov), que se denomina compresor definitivo y puede proporcionar el algoritmo de arrepentimiento ultrabajo definitivo. En realidad, la complejidad de Kolmogorov no es un algoritmo computable. Puede que mucha gente no lo entienda, pero en realidad es muy sencillo.

e99c83296a47e1e7da9ee3943a68f5d8.png

Supongamos que me das algunos datos, te proporcionaré el programa más corto posible para comprimirlos y, si ejecutas este programa más corto, generará los datos. La longitud de programa más corta de esta salida Y es igual a la complejidad de Kolmogorov K(X). Intuitivamente se puede ver que este compresor es muy eficaz porque el teorema es fácil de demostrar. Si la cuerda se comprime con el compresor Kolmogorov, no habrá que lamentar mucho la calidad de la compresión. Si desea comprimir una cadena X, entonces la longitud del programa más corto que genera X es más corta que la longitud de salida requerida por el compresor, y no importa cuánto comprima el compresor los datos, obtendrá un término pequeño que es el realización de El número de caracteres de código requeridos por el compresor.

03e1c47760c4d8ebb71f67fce99c979b.png

Intuitivamente, el argumento de la simulación tiene sentido. Supongamos que hay un fantástico compresor C. ¿Este compresor viene con un programa de computadora? ¿Se le puede dar este programa de computadora a K para que lo ejecute? Si bien no explica los detalles, la complejidad de Kolmogorov simula cómo un programa de computadora simula el funcionamiento de un algoritmo de compresión, razón por la cual no es computable, porque lo que hace es una simulación, libre de simular todos los programas de computadora posibles, pero podría ser el El mejor algoritmo de compresor que existe.

"Calcular" K(X)

Ahora generalicemos la complejidad de Kolmogorov para llamar a otra información. Es importante reiterar que el compresor Kolmogorov no es computable ni decidible, pero busca en todos los programas. Al igual que se realiza un descenso de gradiente estocástico (SGD) en algunos parámetros de una red neuronal de 100 capas, automáticamente es como realizar una búsqueda de programa en una computadora con un cierto tamaño de memoria y número de pasos, lo cual es algo similar a En términos del pequeño Compresor Kolmogorov, existen similitudes muy sutiles entre los dos.

c514d47d2aa96ad8aacaf2d960e01235.png

Las redes neuronales pueden simular pequeños programas, que son como pequeñas computadoras, hechas de circuitos, los componentes básicos de una computadora, que es esencialmente una máquina. El descenso de gradiente estocástico (SGD) busca de forma procesal, todo el aprendizaje profundo gira en torno a SGD y, de hecho, podemos usar SGD para entrenar estas computadoras para que encuentren circuitos a partir de datos. Por lo tanto, podemos calcular nuestro pequeño compresor Kolmogorov, y el argumento de la simulación también se aplica aquí.

La complejidad condicional de Kolmogorov como solución.

Por cierto, si ha intentado diseñar una mejor arquitectura de red neuronal, encontrará que es un poco difícil, lo que equivale a buscar un mejor programa en el espacio del programa.

¿Por qué es tan dificil? Porque su nueva arquitectura puede realizar simulaciones relativamente simples de la arquitectura anterior, excepto en algunos casos raros, lo que puede producir mejoras significativas, como pasar de RNN a Transformer. RNN tiene un cuello de botella, el estado oculto, por lo que tendrá dificultades para implementar Transformer. Pero si podemos encontrar una manera de diseñar un estado oculto muy grande, tal vez RNN vuelva a tener el mismo rendimiento que Transforme.

Este es el proceso desde la tierra formal hasta la red neuronal, y existen ciertas similitudes entre ellas. La complejidad condicional de Kolmogorov se puede utilizar como solución para el aprendizaje supervisado.

1b191b074e49625114bf64973f5476bb.png

Como se muestra, esta es una solución de muy bajo arrepentimiento para el aprendizaje no supervisado y, aunque no es computable, creo que es un marco útil. La condición aquí es un conjunto de datos, no un ejemplo. Aquí estamos condicionando un conjunto de datos en lugar de una sola muestra, y este método extraerá todos los valores Y predichos de X.

71acbd36b90377e7c2c6b32cb34166ab.png

La viabilidad de "comprimirlo todo"

A continuación, hablamos de otro pequeño problema técnico: la complejidad condicional de Kolmogorov, que involucra algoritmos de compresión. Los compresores intentarán comprimir un dato cuando se expone a otro dato. En el contexto del aprendizaje automático, especialmente cuando se trata de big data. Cuando se configura, esta situación no es natural.

Las ecuaciones anteriores muestran que si se hacen predicciones sobre una tarea supervisada Y, entonces usar un compresor Kolmogorov antiguo para comprimir los datos concatenados de X e Y es tan bueno como usar un compresor Kolmogorov condicional. Aquí solo doy una breve introducción y hay más sutilezas en los detalles. Básicamente, esto demuestra lo que dijimos anteriormente, que los problemas de aprendizaje supervisado se pueden resolver con compresores Kolmogorov condicionales.

Dicho esto, también podríamos usar el compresor Kolmogorov normal, que simplemente recopila todos los datos y concatena todos los archivos para comprimirlos, lo que predice bien las tareas de supervisión que nos interesan.

4d5daf0f0afd16dfb2960f23fdc5758f.png

Aquí hay un análisis de los resultados anteriores, pero su proceso de prueba es relativamente complicado, por lo que no lo discutiremos en profundidad aquí.

En resumen, la solución para el aprendizaje no supervisado es introducir todos los datos en un compresor Kolmogorov para el cálculo de la complejidad de Kolmogorov.

3

Si no hay sobreajuste, entonces la probabilidad máxima es la compresión de la articulación.

958867b433eeb75672280b3f67c4d7a9.png

Lo último que quiero decir es: si no hay sobreajuste, entonces la compresión articular es una estimación de máxima verosimilitud. Si tiene un conjunto de datos, entonces la suma de las probabilidades de los parámetros dados es el costo de comprimir el conjunto de datos, además usted paga el costo de comprimir los parámetros. Pero si ahora desea comprimir dos conjuntos de datos, simplemente agregue más conjuntos de datos a la suma.

En el contexto del aprendizaje automático, esta forma de comprimir datos conjuntamente mediante concatenación es muy natural. Es por eso que nos tomamos el tiempo para demostrar la complejidad condicional de Kolmogorov y, aunque todavía no puedo brindar un apoyo sólido a los argumentos anteriores, todavía somos válidos al comprimir toda la complejidad de Kolmogorov.

Soy optimista sobre lo anterior y muestra que las redes neuronales están funcionando. El descenso de gradiente estocástico (SGD) en redes neuronales grandes es equivalente a una búsqueda de programas grandes. Cuanto más grande es la red neuronal, mejor puede aproximarse al compresor Kolmogorov, que es probablemente una de las razones por las que nos gustan las redes neuronales grandes, porque podemos usar esto. La idea del compresor Kolmogorov convencional sin arrepentimientos es aproximadamente irrealizable, y se espera que a medida que la red neuronal entrenada se haga cada vez más grande, el grado de arrepentimiento sea cada vez menor.

4

¿Es adecuado para la compresión de modelos GPT?

13ccc378449cd8efb80cc0e3fa946cd2.png

Podemos aplicar el método anterior al modelo GPT, pero lo complicado es que el comportamiento del modelo GPT también se puede explicar sin citar la compresión, simplemente podemos explicar el comportamiento del modelo GPT como el aprendizaje de distribución condicional en el texto de Internet . Es concebible imaginar un documento con patrones repetidos, y estos patrones pueden persistir, por lo que el comportamiento del modelo GPT puede explicarse intuitivamente como el comportamiento de fusión de estos patrones, y esta explicación no necesita referirse a una teoría específica de compresión. El comportamiento puede explicarse sin involucrar la teoría de la compresión.

Entonces, ¿podemos encontrar otro campo para una prueba directa de esta teoría? Como el campo de visión. El campo de visión tiene datos a nivel de píxel. Podemos intentar aplicar esta teoría a nivel de píxel y ver si este método puede lograr buenos resultados de aprendizaje no supervisado. La respuesta es sí, y se ha demostrado experimentalmente que aplicando esta teoría podemos lograr un aprendizaje no supervisado eficiente a nivel de píxeles.

76c1dc3a37d0c37565917bb7dd214120.jpeg

Este es un estudio que realizamos en 2020 llamado iGPT. iGPT es un estudio de prueba de concepto muy costoso que aún no tiene aplicación práctica. Los resultados del estudio iGPT muestran que si tiene un muy buen predictor del siguiente paso (predictor del siguiente paso), puede obtener excelentes resultados de aprendizaje supervisado, y este concepto se ha verificado en el campo de la imagen.

Específicamente, debe convertir la imagen en una secuencia de píxeles, asignar a cada píxel un cierto valor de intensidad discreto y luego usar el mismo transformador para predecir el siguiente píxel. A diferencia de BERT, aquí solo se predice el siguiente token, porque esto maximiza la probabilidad del compresor.

cf434c44317ef58737f1286309d8cf08.png

Esta es la precisión de predicción del siguiente paso de los modelos iGPT de diferentes tamaños en la tarea de predicción de píxeles. El eje vertical es la precisión de la sonda lineal en la mejor capa de la red neuronal. Le agregamos un clasificador lineal y verificamos el estado de ejecución. Luego obtenemos tres curvas de diferentes colores en la figura anterior. La brecha entre las tres curvas gradualmente Se encogen y tienden a ser similares. Esto es lo que esperábamos, lo que demuestra que las predicciones píxel por píxel son tan efectivas como las predicciones de la siguiente palabra y que este enfoque también mejora el rendimiento del modelo en el aprendizaje no supervisado.

3860b369927227a884fad502a12d6ece.png

A través de experimentos en ImageNet, descubrimos que el rendimiento de iGPT de múltiples escalas puede estar cerca del mejor aprendizaje supervisado actual, pero todavía hay una brecha, pero esto es solo un problema computacional, porque este último utiliza imágenes grandes de alta resolución. , y utilizamos imágenes relativamente pequeñas de 64x64 píxeles en el Transformer gigante (con 6 mil millones de parámetros, lo cual no es grande para los estándares actuales, pero era un modelo enorme en ese momento). Por lo tanto, este enfoque es como predecir el siguiente píxel de forma no supervisada en un conjunto de datos de imágenes de gran tamaño, y montar una sonda lineal en ImageNet proporciona excelentes resultados.

0502a8e0944fc06a0fde19a5c8c8c394.png

En el conjunto de datos CIFAR-10, se puede lograr una precisión del 99% utilizando este método. Aunque esto es un logro en 2020 y puede que ahora existan otros métodos más avanzados, en ese momento este resultado era muy deseable.

5

representación lineal

c90d4c0776119f3e56541ce6315939ec.jpeg

Me encanta la teoría de la compresión y durante mucho tiempo he estado atascado con el hecho de que el aprendizaje no supervisado no te permite pensar con rigor, pero ahora podemos hacerlo hasta cierto punto. Actualmente, la teoría de la compresión no explica por qué las representaciones son linealmente separables, ni por qué se necesitan sondas lineales. Las representaciones lineales son omnipresentes y las razones de su formación deben ser profundas, y tal vez podamos aclarar esto claramente en el futuro.

También observé un fenómeno interesante: el modelo de predicción automática del siguiente píxel (o modelo autorregresivo) funciona mejor que BERT en términos de representación lineal. Todavía no estoy seguro de por qué, pero podría ayudar si pudiéramos entender qué hace posibles las representaciones lineales.

En mi opinión, la siguiente tarea de predicción de píxeles debe predecirse a partir de todos los píxeles anteriores, por lo que se debe considerar la estructura de largo alcance. Mientras que en BERT tienes tu propia representación vectorial, digamos que en este caso descartas el 25% de los tokens o píxeles, cualquier predicción que hagas puede complementarse bastante bien mirando un poco el pasado y el futuro completo. Por el contrario, la tarea de predicción más difícil en el siguiente píxel es mucho más difícil que la tarea de predicción más difícil en BERT, que por el momento es solo una suposición, pero podemos verificarla mediante experimentos.

6
Responda las preguntas de la audiencia

P: ¿Existe una versión 2D más sólida del próximo modelo de predicción de píxeles?

Respuesta: Cualquier transformación de una red neuronal en un modelo probabilístico que asigne probabilidades a diferentes entradas puede verse como una versión 2D más robusta del modelo de predicción del siguiente píxel. Los modelos de difusión son otro modelo común de predicción del siguiente token. Los modelos de difusión utilizados en la generación de imágenes de alta calidad en realidad no maximizan la probabilidad de sus pasos de entrada, sino que tienen objetivos diferentes. Sin embargo, la formulación original maximiza la probabilidad.

Cabe señalar que el modelo de difusión y el modelo de predicción del siguiente lema son mutuamente excluyentes. Creo que por las mismas razones que el modelo BERT, la representación del modelo de difusión es peor que la del modelo de predicción del siguiente lema, lo que aumenta aún más el misterio de por qué se forma la representación lineal.

P: ¿Transformer SGD es el mejor programa de compresores que existe?

Ilya Sutskever: Sí, existe otra hipótesis. Supongamos que tenemos una red neuronal (no necesariamente un transformador) que puede asignar probabilidades logarítmicas a los datos. Dada una gran cantidad de muestras de entrenamiento, podemos ejecutar esta red neuronal y calcular la probabilidad logarítmica de cada muestra, y luego estas probabilidades se suman a Obtenga la probabilidad logarítmica que la red neuronal asigna a todo el conjunto de datos. Sin embargo, esta forma particular de red neuronal no puede notar explícitamente estructuras temporales o de otro tipo en el orden de los datos. Aún así, pensé que sería posible calcular la probabilidad logarítmica para todo el conjunto de datos y, por lo tanto, obtener la probabilidad logarítmica negativa, utilizando en realidad esta red neuronal como compresor para comprimir la cantidad de bits necesarios para comprimir ese conjunto de datos.

P: Mencionó la compresión como marco para comprender y promover el aprendizaje no supervisado. Además, mencionaste al final que podría ser superficial si aplicas este marco a la predicción de la siguiente palabra del modelo de lenguaje, ya que cualquier tarea de texto se puede convertir en una tarea de predicción de la siguiente palabra. Por tanto, para las tareas escritas, el aprendizaje no supervisado es superficialmente similar al aprendizaje supervisado. Image GPT, sin embargo, no define tareas de texto ni predice el siguiente píxel, pero podemos aprovechar las representaciones lineales, lo que demuestra que la compresión puede conducir a un buen aprendizaje no supervisado. Sin embargo, es posible que un compresor altamente eficiente no proporcione una representación lineal útil. Por lo tanto, me pregunto si hay casos en los que el aprendizaje no supervisado y el aprendizaje supervisado no son superficialmente iguales, pero no es necesario que un compresor proporcione una representación lineal eficiente para justificar la compresión como un buen objetivo de aprendizaje no supervisado.

R: Una buena representación lineal es solo un beneficio adicional, no significa que deba existir una representación lineal, pero la teoría sostiene que debe haber un buen ajuste. Porque la compresión conjunta es como una búsqueda aproximada con un algoritmo de búsqueda incorrecto (SGD). Los primeros experimentos muestran que BERT aprende representaciones lineales que son peores que las predicciones del siguiente píxel cuando se ejecutan en imágenes, y quizás lo mismo sea cierto para los modelos de difusión. Por eso es interesante comparar los resultados de modelos de difusión ajustados, y tal vez alguien ya lo haya hecho.

todos los demás están mirando

Pruebe OneFlow: github.com/Oneflow-Inc/oneflow/

200f6e13b25ea3e516ba2c44417176fd.png

Supongo que te gusta

Origin blog.csdn.net/OneFlow_Official/article/details/132486855
Recomendado
Clasificación