No es chatGPT y OpenAI lo que asusta a Google

El siguiente texto es un documento filtrado recientemente compartido por una persona anónima en un servidor público de Discord con permiso para volver a publicar. El documento proviene de un investigador dentro de Google. Verificamos su autenticidad, hicimos cambios de formato menores y eliminamos enlaces a páginas internas. Este documento representa las opiniones personales de un empleado de Google, no de toda la empresa. Si bien no estamos de acuerdo con lo que se escribe a continuación y hemos consultado a otros investigadores, expresaremos nuestra opinión en una columna separada para suscriptores. Solo somos un vehículo para compartir este documento que plantea algunos puntos muy interesantes.

Leer el texto original

original en ingles

no tenemos foso

OpenAI tampoco

Hicimos mucha investigación cuidadosa en OpenAI. ¿Quién cruzará el próximo hito? ¿Cuál será el próximo paso?

Pero la verdad incómoda es que no estamos equipados para ganar esta carrera armamentista, y OpenAI tampoco. La tercera facción ha estado comiendo tranquilamente nuestro almuerzo mientras discutíamos.

Por supuesto, estoy hablando de código abierto. Para decirlo sin rodeos, nos están lamiendo. Lo que consideramos como "grandes problemas abiertos" está resuelto y en manos de la gente hoy. Sólo para nombrar unos pocos:

  • LLM en un teléfono: las personas ejecutan modelos básicos a 5 tokens por segundo en un Pixel 6.

  • IA personal escalable: puede ajustar su IA personalizada por la noche en su computadora portátil.

  • Liberación responsable: se trata más de "evitar" que de "solucionar". Todo el sitio está lleno de maquetas artísticas sin restricciones, y el texto no se queda atrás.

  • Multimodal: El actual multimodal ScienceQA SOTA entrena en menos de una hora.

Si bien nuestro modelo todavía tiene una ligera ventaja en términos de calidad, la brecha se está cerrando a un ritmo impresionante. Los modelos de código abierto son más rápidos, más personalizables, más privados y más potentes. Estaban haciendo cosas con parámetros de $100 y 13 mil millones, mientras que nosotros estábamos luchando con parámetros de $10 millones y 540 mil millones. Lo hacen en semanas, no en meses. Esto tiene profundas implicaciones para nosotros:

  • No tenemos una receta secreta. Nuestra mejor esperanza es aprender y colaborar con lo que están haciendo otros fuera de Google. Deberíamos priorizar la habilitación de la integración 3P.

  • La gente no pagará por un modelo restringido cuando las alternativas gratuitas y sin restricciones son comparables en calidad. Deberíamos considerar dónde está nuestro verdadero valor añadido.

  • Los modelos gigantes nos están frenando. A la larga, los mejores modelos son aquellos

Puede iterar rápidamente. Ahora que sabemos lo que es posible en el rango de parámetros de <20B, deberíamos hacer pequeñas variaciones en lugar de una ocurrencia tardía.

qué sucedió

A principios de marzo, con LLaMA de Meta filtrado al público, la comunidad de código abierto obtuvo su primer modelo base realmente capaz. No tiene instrucciones ni ajustes de diálogo, ni RLHF. Aún así, la comunidad entendió de inmediato el significado de lo que obtuvieron.

Lo que siguió fue una gran cantidad de innovación, con solo unos pocos días entre los principales desarrollos (consulte la línea de tiempo para ver el desglose completo). Solo un mes después, estamos aquí y tenemos variantes de ajuste de instrucciones, cuantificación, mejora de la calidad, evaluación humana, multimodalidad, RLHF y más, muchas de las cuales se complementan entre sí.

Lo mejor de todo es que han solucionado problemas de escalado que cualquiera puede solucionar. Muchas ideas nuevas provienen de la gente común. El nivel de capacitación y experimentación se ha reducido de la producción total de una importante institución de investigación a una persona, una noche y una poderosa computadora portátil.

por qué podríamos haberlo visto venir

En muchos sentidos, esto no debería sorprender a nadie. El renacimiento actual de los LLM de código abierto sigue al de la generación de imágenes. La comunidad no ha perdido las similitudes, y muchos llaman a esto el "momento de proliferación constante" del LL.M.

En ambos casos, la participación pública de bajo costo se logra a través de un mecanismo de ajuste mucho más económico llamado adaptación de bajo rango o LoRA, combinado con un gran avance en escala (difusión potencial de síntesis de imágenes, Chinchilla de LLM). En ambos casos, la obtención de un modelo de calidad suficientemente alta provocó una serie de ideas e iteraciones de personas e instituciones de todo el mundo. En ambos casos, esto superó rápidamente a las grandes empresas.

Estas contribuciones son cruciales en el campo de la generación de imágenes y colocan a Stable Diffusion en un camino diferente al de Dall-E. Tener un modelo abierto condujo a la integración de productos, marketing, interfaz de usuario e innovación que no sucedía en Dall-E.

El efecto es claro: dominando rápidamente en términos de impacto cultural en comparación con las soluciones OpenAI, que se vuelven cada vez más irrelevantes. Queda por ver si sucederá lo mismo con el LLM, pero los elementos estructurales generales son los mismos.

que nos perdimos

Las innovaciones que impulsan el éxito reciente del código abierto abordan directamente los problemas con los que todavía estamos lidiando. Prestar más atención a lo que hacen puede ayudarnos a evitar reinventar la rueda.

LoRA es una tecnología muy poderosa, probablemente deberíamos prestarle más atención

LoRA funciona representando las actualizaciones del modelo como una descomposición de rango bajo, lo que reduce el tamaño de la matriz de actualización hasta miles de veces. Esto permite el ajuste fino del modelo a una fracción del costo y el tiempo. Ser capaz de personalizar modelos de lenguaje en hardware de consumo en cuestión de horas es un gran problema, especialmente para las aspiraciones que implican la integración de conocimientos nuevos y diversos casi en tiempo real. De hecho, la existencia de esta tecnología está infrautilizada dentro de Google, aunque impacta directamente en algunos de nuestros proyectos más ambiciosos.

Volver a entrenar a un modelo desde cero es un camino difícil

Parte de lo que hace que LoRA sea tan efectivo es que, al igual que otras formas de ajuste fino, es apilable. Las mejoras, como los ajustes de instrucciones, se pueden aplicar y luego aprovechar a medida que otros colaboradores agregan diálogo, razonamiento o uso de herramientas. Si bien el ajuste fino individual es de rango bajo, su suma no lo es, lo que permite que las actualizaciones de rango completo del modelo se acumulen con el tiempo.

Esto significa que a medida que se disponga de nuevos y mejores conjuntos de datos y tareas, los modelos se pueden mantener actualizados de forma económica sin el costo de una operación a gran escala.

Por el contrario, entrenar un modelo gigante desde cero descarta no solo el entrenamiento previo, sino también cualquier mejora iterativa realizada en la parte superior. En el mundo del código abierto, estas mejoras pueden afianzarse rápidamente, lo que hace que la capacitación completa sea prohibitivamente costosa.

Deberíamos considerar si cada nueva aplicación o idea realmente requiere un modelo completamente nuevo. Si tenemos mejoras arquitectónicas significativas que evitan la reutilización directa de los pesos del modelo, entonces deberíamos invertir en formas de destilación más agresivas que nos permitan conservar la mayor funcionalidad posible de la generación anterior.

Si podemos iterar más rápido en un modelo pequeño, el modelo más grande no será más capaz a largo plazo.

Para los tamaños de modelos más populares, las actualizaciones de LoRA son muy baratas de producir (~$100). Esto significa que casi cualquier persona con una idea puede generar una idea y difundirla. Los tiempos de entrenamiento dentro de un día son la norma. A este ritmo, el efecto acumulativo de todos estos ajustes finos supera rápidamente la desventaja del tamaño. De hecho, en términos de horas de ingeniería, estos modelos mejoran mucho más rápido de lo que podemos hacer con las variantes más grandes, y los mejores ya son esencialmente indistinguibles de ChatGPT. Centrarse en mantener algunos de los modelos más grandes del planeta en realidad nos pone en desventaja.

La calidad de los datos es mejor que el tamaño de los datos

Muchos de estos proyectos ahorran tiempo al capacitarse en conjuntos de datos pequeños y altamente seleccionados. Esto muestra que la ley de escalado de datos tiene cierta flexibilidad. La existencia de dichos conjuntos de datos sigue las líneas de Data Doesn't Do What You Think, y se están convirtiendo rápidamente en la forma estándar de realizar capacitación fuera de Google. Estos conjuntos de datos se extraen mediante métodos sintéticos (por ejemplo, filtrando las mejores respuestas de los modelos existentes) y de otros proyectos, ninguno de los cuales es dominante en Google. Afortunadamente, estos conjuntos de datos de alta calidad son de código abierto y, por lo tanto, están disponibles gratuitamente.

Competir directamente con el código abierto es una propuesta perdedora

Los desarrollos recientes tienen implicaciones directas e inmediatas para nuestra estrategia comercial. ¿Quién paga por un producto de Google de uso limitado si no hay una alternativa gratuita y de alta calidad?

No deberíamos esperar poder ponernos al día. Hay una razón por la que Internet moderno funciona con código abierto. El código abierto tiene algunas ventajas significativas que no podemos replicar.

los necesitamos más de lo que ellos nos necesitan

Mantener nuestra tecnología en secreto es siempre una propuesta tenue. Los investigadores de Google viajan regularmente a otras empresas, por lo que podemos suponer que saben todo lo que sabemos, y seguirán haciéndolo mientras la canalización esté abierta.

Sin embargo, debido a que la investigación de vanguardia del LLM es asequible, se hace más difícil mantener una ventaja competitiva técnica. Las instituciones de investigación de todo el mundo están aprendiendo unas de otras para explorar el espacio de soluciones de una manera amplia que va mucho más allá de nuestras propias capacidades. Podemos tratar de mantenerlo en secreto cuando las innovaciones externas diluyen su valor, o podemos intentar aprender unos de otros.

Los individuos no están sujetos a licencias en la misma medida que las corporaciones

Gran parte de esta innovación ocurre además de los pesos de los modelos que Meta filtra. Si bien eso inevitablemente cambiará a medida que mejoren los modelos verdaderamente abiertos, el punto es que no tienen que esperar. Las protecciones legales que ofrece el "uso personal" y la impracticabilidad de demandar a las personas significa que las personas pueden usar estas tecnologías mientras están calientes.

Ser su propio cliente significa que comprende el caso de uso

Explore modelos creados por personas en el espacio de generación de imágenes, desde generadores de animación hasta paisajes HDR, las ideas son infinitas. Estos modelos son utilizados y creados por personas profundamente inmersas en su subgénero particular, dotándolos de una profundidad de conocimiento y empatía que no podemos igualar.

Ser dueño del ecosistema: hacer que el código abierto trabaje para nosotros

Paradójicamente, un claro ganador en todo esto es Meta. Debido a que el modelo filtrado es suyo, efectivamente obtienen un planeta entero de mano de obra gratuita. Dado que la mayor parte de la innovación de código abierto ocurre sobre su arquitectura, no hay nada que les impida incorporarla directamente en sus productos.

No se puede exagerar el valor de poseer un ecosistema. Google mismo ha utilizado con éxito este paradigma en sus productos de código abierto como Chrome y Android. Al ser dueño de la plataforma en la que ocurre la innovación, Google se consolida como un líder de pensamiento y un marcador de dirección, ganando la capacidad de dar forma a ideas más grandes que él mismo.

Cuanto más estricto sea nuestro control sobre el modelo, más atractivos seremos para hacer alternativas abiertas. Tanto Google como OpenAI tienden a inclinarse defensivamente hacia un modelo de lanzamiento que les otorga un control estricto sobre cómo se utilizan sus modelos. Pero este control es ficticio. Cualquiera que quiera usar LLM para fines no autorizados puede simplemente elegir los modelos disponibles gratuitamente.

Google debe posicionarse como líder en la comunidad de código abierto, liderando al involucrarse en la conversación más amplia en lugar de ignorarla. Esto podría significar tomar medidas incómodas, como publicar pesos de modelos para variantes ULM pequeñas. Esto necesariamente significa ceder algo de control sobre nuestro modelo. Pero tales compromisos son inevitables. No podemos aspirar a impulsar y controlar la innovación.

Conclusión: ¿Qué hay de OpenAI?

Toda esta charla sobre el código abierto se siente injusta dada la política cerrada actual de OpenAI. ¿Por qué deberíamos compartir si ellos no lo harán? Pero la verdad es que ya compartimos todo con ellos en forma de un flujo constante de investigadores senior furtivos. El secreto es un punto discutible hasta que detengamos esta tendencia.

Al final, OpenAI no importa. Han cometido los mismos errores que nosotros hemos cometido en sus actitudes en relación con el código abierto, y su capacidad para mantener una ventaja debe ser cuestionada. A menos que cambien su postura, las alternativas de código abierto pueden eclipsarlas eventualmente. Al menos en este sentido, podemos dar el primer paso.

línea de tiempo hasta ahora

24 de febrero de 2023 - Lanzamiento de LLaMA

Meta lanzó LLaMA, código fuente abierto, pero no pesos de fuente abierta. En este punto, LLaMA no tiene instrucciones de ajuste o diálogo. Como muchos modelos actuales, es un modelo relativamente pequeño (disponible en parámetros 7B, 13B, 33B y 65B) y ha sido entrenado durante un tiempo relativamente largo, por lo que es bastante capaz para su tamaño.

3 de marzo de 2023 - Sucedió lo inevitable

En una semana, LLaMA se filtró al público. El impacto en la comunidad no puede subestimarse. Las licencias existentes prohibían su uso con fines comerciales, pero de repente cualquiera podía experimentar. A partir de este momento, las innovaciones llegan de manera amenazante.

12 de marzo de 2023 - Modelos de lenguaje en una tostadora

Un poco más de una semana después, Artem Andreenko hizo que el modelo se ejecutara en una Raspberry Pi. En este punto, el modelo se ejecuta demasiado lento para ser práctico porque los pesos se tienen que paginar dentro y fuera de la memoria. Aún así, prepara el escenario para una avalancha de miniaturización.

13 de marzo de 2023: ajuste fino en una computadora portátil

Al día siguiente, Stanford lanzó Alpaca, que agregó afinación de instrucciones a LLaMA. Sin embargo, más importante que el peso real es el depósito de alpaca-lora de Eric Wang, que realizó este entrenamiento "en horas en un solo RTX 4090" usando un ajuste fino de bajo nivel.

De repente, cualquiera podía ajustar un modelo para hacer cualquier cosa, iniciando una carrera hacia el abismo en proyectos de ajuste fino de bajo presupuesto. Los artículos describen con orgullo su costo total de varios cientos de dólares. Además, las actualizaciones de bajo nivel se pueden distribuir fácilmente por separado de los pesos originales, lo que las hace independientes de la licencia original de Meta. Cualquiera puede compartirlos y aplicarlos.

18 de marzo de 2023 - pronto

Georgi Gerganov ejecutando LLaMA en una CPU MacBook usando cuantificación de 4 bits. Es la primera solución "sin GPU" que es lo suficientemente rápida como para ser práctica.

19 de marzo de 2023: los modelos 13B logran la "paridad" con Bard

Al día siguiente, una colaboración interuniversitaria lanzó Vicuna y utiliza una evaluación impulsada por GPT-4 para proporcionar comparaciones cualitativas de los resultados del modelo. Si bien la metodología de evaluación es cuestionable, el modelo en realidad funciona mejor que las variantes anteriores. Tarifa de capacitación: $ 300.

Vale la pena señalar que pudieron usar los datos de ChatGPT mientras eludían las limitaciones de su API: solo probaron ejemplos "impresionantes" de conversaciones de ChatGPT publicadas en sitios como ShareGPT.

25 de marzo de 2023 - Elige tu propio modelo

Nomic creó GPT4All, que es a la vez un modelo y, lo que es más importante, un ecosistema. Por primera vez vemos modelos (incluida Vicuña) reunidos en un solo lugar. Tarifa de capacitación: $ 100.

28 de marzo de 2023: código abierto GPT-3

Cerebras (que no debe confundirse con nuestro propio Cerebra) entrena la arquitectura GPT-3 usando el plan computacional óptimo implícito en Chinchilla y el escalado óptimo implícito en la parametrización μ. Esto es muy superior a los clones GPT-3 existentes y representa la primera confirmación "en la naturaleza" de la parametrización usando μ. Estos modelos están entrenados desde cero, lo que significa que la comunidad ya no depende de LLaMA.

28 de marzo de 2023 - Entrenamiento multimodal de una hora

LLaMA-Adapter utiliza una técnica novedosa de ajuste fino de parámetros eficientes (PEFT) para introducir el ajuste de instrucción y la multimodalidad en una capacitación de una hora. Sorprendentemente, pudieron hacer esto utilizando solo 1,2 millones de parámetros de aprendizaje. El modelo logra un nuevo SOTA en ScienceQA multimodal.

3 de abril de 2023: los seres humanos no pueden distinguir el modelo abierto 13B de ChatGPT

Berkeley presentó Koala, un modelo conversacional entrenado completamente en datos libres.

Dieron el paso crítico de medir las preferencias humanas reales entre su modelo y ChatGPT. Si bien ChatGPT todavía tiene una ligera ventaja, más del 50% de los usuarios prefieren Koala o no tienen preferencia. Tarifa de capacitación: $ 100.

15 de abril de 2023: RLHF de código abierto de nivel ChatGPT

Open Assistant lanza un modelo y, lo que es más importante, un conjunto de datos para la alineación a través de RLHF. Su modelo está cerca de ChatGPT en términos de preferencias humanas (48,3 % frente a 51,7 %). Además de LLaMA, también demostraron que este conjunto de datos se puede aplicar a Pythia-12B, lo que brinda a las personas la opción de ejecutar modelos utilizando una pila completamente abierta. Además, dado que el conjunto de datos está disponible públicamente, RLHF pasa de ser imposible a ser barato y fácil para los pequeños experimentadores.

Atentos a la cuenta oficial

Recomendaciones de buenos libros de IA
La IA cambia cada día que pasa, pero los edificios de gran altura no se pueden separar de una buena base. ¿Está interesado en aprender sobre los principios y la práctica de la inteligencia artificial? ¡No busque más! Nuestro libro sobre principios y prácticas de IA es el recurso perfecto para cualquier persona que busque obtener información sobre el mundo de la IA. Escrita por expertos líderes en el campo, esta guía completa cubre todo, desde los conceptos básicos del aprendizaje automático hasta técnicas avanzadas para construir sistemas inteligentes. Ya sea que sea un principiante o un practicante experimentado de IA, este libro lo tiene cubierto. Entonces, ¿por qué esperar?


[Los principios y la práctica de la inteligencia artificial cubren de manera integral los clásicos de varios sistemas importantes de inteligencia artificial y ciencia de datos]

Peking University Press, Principios y práctica de la inteligencia artificial Inteligencia artificial y ciencia de datos desde la entrada hasta la competencia Explicación detallada de los principios del algoritmo de aprendizaje profundo de aprendizaje automático

Supongo que te gusta

Origin blog.csdn.net/robot_learner/article/details/130550947
Recomendado
Clasificación