La estrategia Superalignment de OpenAI: la informática es el rey

De: Lee Rumor

Ingrese al grupo de PNL -> únase al grupo de intercambio de PNL

Con respecto a cómo lograr el objetivo metafísico de AGI, siento que todos están en el mismo estado: no sabemos cómo hacerlo, pero sentimos que la tecnología LLM actual está lejos de ser suficiente .

Entonces, cuando vi a OpenAI decir que utilizará modelos para realizar investigaciones de alineación [1] y recientemente dije que creará SuperAlignment dentro de 4 años [2] , me llené de signos de interrogación. Sentí que no había nada nuevo y No pude captar sus ideas.

f9ed40d45102b58ad84d6fcb1689baa2.jpeg

¿Por qué quieres ser investigador de IA?

Hasta hace poco leí la entrevista de Jan Leike dos veces de forma intermitente y de repente tuve la sensación de que la idea central era así de simple. Y mirando hacia atrás, OpenAI ha seguido esta idea en los últimos años, pero ha logrado avances aparentemente "violentos" uno por uno.

El camino elegido por OpenAI es: "Convertir la computación en alineación", que genera cambios cualitativos inteligentes a través de cambios cuantitativos en los cálculos. El cálculo requiere la acción conjunta de datos, potencia informática y marco modelo, y desmantelarlo en pasos específicos es automatización->escala->iteración.

En el pasado, siempre usamos la palabra "paradigma" para dividir el desarrollo de la PNL, como aprendizaje supervisado -> preentrenamiento + ajuste fino -> preentrenamiento + RLHF. De hecho, estos paradigmas son sólo formas de aumentar la cantidad de cálculos efectivos:

  • Automatización: supervisado -> autosupervisado, elimine la dependencia humana y obtenga señales de supervisión de manera más eficiente

  • Escala: realice más cálculos con más datos y modelos más grandes

  • Iteración: basado continuamente en el nuevo modelo de iteración de casos para formar un volante de datos

No hace falta decir que la serie GPT puede demostrar los cambios cualitativos provocados por la automatización y la escala. Pero el último paso de la "iteración" a menudo se pasa por alto, y este puede ser un paso importante hacia la Superalineación. Alpha GO es la mejor castaña. Desde el principio, imita a los ajedrecistas humanos para jugar al ajedrez, y luego continúa jugando solo después de tener habilidades básicas, y finalmente supera a los ajedrecistas humanos.

Entonces aquí viene el problema: la "iteración" que estamos haciendo actualmente, ya sea RLHF o SFT puro, todavía necesita proporcionar señales de supervisión manualmente, que no se pueden automatizar ni escalar, y la velocidad de iteración será muy lenta. Al mismo tiempo, los humanos no pueden supervisar tareas más allá de su propio nivel y es imposible entrenar modelos superinteligentes . Por eso OpenAI lleva 22 años diciendo que es necesario utilizar la IA para ayudar a los humanos en la evaluación [3] .

Siga pensando, si existe un modelo que puede dar señales de supervisión a nivel humano, ¿para qué más podemos usarlo además de la evaluación? Por supuesto, siguiendo la idea de un cambio cuantitativo para producir un cambio cualitativo, ¡que ayude a iterar AGI automáticamente y a gran escala!

  • Automatización: permita a los investigadores de IA planificar experimentos automáticamente y proporcionar señales de supervisión para entrenar modelos

  • Escalar: escalar los procesos automatizados anteriores

  • Iteración: el investigador de IA en sí también es un modelo, déjelos poner huevos y gallinas y entrenarse continuamente entre sí.

Pensando en esto, la idea de por qué OpenAI quiere construir "un investigador de alineación automatizado de nivel aproximadamente humano" es una cuestión de rutina. No sé cuál es la lógica de pensamiento del Sr. Jan Leike, de todos modos, es bastante fácil para mí descubrirla, bienvenido a discutir.

Cómo ser un investigador de IA

Después de encontrar el punto de partida de "AI Researcher", el siguiente paso es cómo implementarlo. En comparación con cómo entrenar este modelo, el Sr. Jan se centró principalmente en cómo construir una evaluación automatizada e integral. De hecho, al igual que lo anterior, una buena evaluación puede proporcionar comentarios de supervisión para guiar la iteración del modelo. .

Primero, debe poder verificar que el modelo pueda alcanzar el desempeño humano . De hecho, es muy difícil evaluar esto realmente, al igual que ahora hay tantos modelos en la industria que nadie puede dar una lista de clasificación real. Y es mejor automatizarse, evitando que las personas proporcionen datos reales, para poder realizar una evaluación más completa . El grandullón aquí proporciona un método de medición de la brecha entre discriminación y crítica. Por ejemplo, hemos creado un modelo de programación y queremos usar ChatGPT para evaluar automáticamente su efecto. La forma más fácil es ordenar directamente a ChatGPT que juzgue si una determinada pregunta de programación está completa. correctamente. Entonces surge la pregunta: ¿cómo determinamos si los resultados de la evaluación de ChatGPT son confiables? Es una pérdida de tiempo buscarlo manualmente. El método automatizado consiste en entrenar directamente un modelo discriminante basado en ChatGPT para juzgar si el resultado es correcto, y luego usamos algunas muestras difíciles con etiquetas para ver la precisión del modelo discriminante y la precisión de ChatGPT. Explique que se puede usar Evaluar directamente la calidad de los resultados de la programación sin necesidad de formación.

En segundo lugar, la detección de robustez y el análisis de interpretabilidad se realizan automáticamente . ¿Por qué tenemos que hacer explicabilidad?

  1. puede mostrarnos la manera de resolver el problema

  2. Muchas investigaciones existentes se centran en la correlación entre el conocimiento y las neuronas. El jefe cree que es más significativo hacerlo de forma automática y a gran escala, para explorar la interpretabilidad de dimensiones superiores (el modelo en su conjunto).

Finalmente, se realiza una prueba adversarial en modelos desalineados entrenados intencionalmente para verificar la efectividad del método de evaluación . Esto evita falsas alineaciones. Lo más extremo es que una superinteligencia está realmente entrenada. Puede encontrar una manera de respaldar su peso y escapar del control humano. Necesita usar otras tareas de agente (como dejar que el modelo piratee una determinada máquina) para ver qué tan difícil es. Es. Evalúe si el sistema puede detectarlo.

Consideración del costo de los insumos

En los próximos 4 años, OpenAI creará un equipo de 30 a 100 personas en Superalignment e invertirá el 20% de su potencia informática . De hecho, el 20% personalmente cree que es principalmente para expresar su determinación. El Sr. Jan dijo que esta cantidad ya es la mayor inversión individual en la dirección de la alineación y la aumentará después de hacerlo bien.

Sin embargo, el plan de 4 años, ya sea cerca o lejos, también está relacionado con la duración del período de recesión de dividendos (cabeza de perro) que experimentarán otros practicantes. Jan dio el siguiente plan:

  1. Descubra qué tecnología utilizar para implementar el investigador de alineación de IA en 2 años y analice el problema en detalle, y el resto son problemas de ingeniería.

  2. Realice un investigador de alineación de IA en 3 años

  3. Queda un año para explorar la súper alineación

De esta manera, el tiempo todavía es bastante escaso y los dos últimos planes son ligeramente optimistas. La confianza de Jan es del 85% y dijo que ya hay muchos experimentos en el experimento (al menos la investigación comenzó antes de la publicación del blog del 22 de agosto). arriba). Su confianza proviene principalmente de 5 aspectos:

  1. El éxito del modelo de lenguaje: LLM puede comprender el lenguaje natural, lo que nos permite expresarle al modelo lo que queremos que haga y es más fácil de manipular.

  2. El efecto de RLHF supera las expectativas: con sólo una pequeña cantidad de cálculos y sin siquiera intentar recopilar datos, se pueden obtener mejores resultados en modelos pequeños que en modelos grandes.

  3. Se ha avanzado mucho en las métricas de evaluación que pueden proporcionar direcciones para mejorar.

  4. La evaluación es más simple que la generación: si los humanos solo evalúan y no generan, entonces la velocidad de desarrollo será más rápida, o la idea de automatizar las señales de supervisión

  5. Creencia en el modelo de lenguaje: el modelo de lenguaje es muy adecuado para la súper alineación, cualquier tarea se puede expresar como entrada y salida de texto, ya sea haciendo experimentos o comprendiendo los resultados, se puede realizar

¿Sigue siendo útil la tecnología actual?

Para la capacitación previa, Jan Leike cree que predecir el próximo token no es un objetivo a largo plazo y que es posible que se necesiten mejores tareas. Personalmente, creo que tarde o temprano los datos de video, imágenes y texto en Internet se agotarán, por lo que la capacitación previa actual es principalmente para proporcionar un mejor modelo base, y las señales de seguimiento de supervisión de alta calidad deberían provenir de el modelo en sí, como siempre he dicho antes "automatización". Pero si esto todavía puede llamarse "preformación" no es necesariamente cierto.

Para RLHF, Jan Leike también se muestra escéptico, porque la señal de supervisión actual proviene del juicio humano, pero los seres humanos no son buenos para distinguir respuestas que parecen buenas. Varios artículos muestran que una tasa de coherencia del 70% entre humanos no es mala. La señal en sí no está necesariamente alineada. Al mismo tiempo, la necesidad de mano de obra resultará en la imposibilidad de escalar y expandirse, y no satisface nuestras necesidades de aumentar la cantidad de cálculo.

Es probable que el paradigma actual de preentrenamiento + RLHF sea solo una versión en el desarrollo de la IA. Según la idea del investigador de IA de OpenAI, la complejidad del sistema del entrenamiento del modelo posterior puede aumentar mucho. Se estima que habrá más de N Investigadores de IA que son buenos en diferentes tareas. Para entrenar un modelo con una máquina, los humanos solo necesitan proporcionar una pequeña cantidad de señales de supervisión para decirle al sistema qué hacer, y luego pueden ejecutarse automáticamente. Después del entrenamiento, los pesos se calculan automáticamente. sincronizado y actualizado continuamente .

Resumir

Después de leer toda la entrevista con Jan Leike, realmente aprendí mucho, no sé si lo he expresado claramente, de hecho, es:

  1. La informática es el núcleo, los cambios cuantitativos en la informática producen cambios cualitativos en la inteligencia.

  2. La forma de acelerar la cantidad de cálculo efectivo es: Automatización -> Escala -> Iteración

Así como los seres humanos han evolucionado desde la Edad de Piedra hasta la actual era de la información durante millones de años, el progreso de la ciencia y la tecnología no se produce de la noche a la mañana, sino que va en espiral ascendente, condensado por la sabiduría de varias generaciones .

PD: Este artículo contiene muchas interpretaciones personales de las publicaciones del blog de OpenAI y las entrevistas de Jan Leike. Adopte una visión dialéctica y dé la bienvenida a las discusiones.

Referencias

[1]

Nuestro enfoque para la investigación de alineación: https://openai.com/blog/our-approach-to-alignment-research

[2]

Presentamos la superalineación: https://openai.com/blog/introtaining-superalignment

[3]

Nuestro enfoque para la investigación de alineación: https://openai.com/blog/our-approach-to-alignment-research


Ingrese al grupo de PNL -> únase al grupo de intercambio de PNL

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/132463667
Recomendado
Clasificación