El modelo grande ayuda a Tao Terence a resolver problemas y probar teoremas matemáticos: ¿Serán realmente las matemáticas la primera materia en lograr avances con la ayuda de la IA? ...

ab210e0efd0bd522150db08bb8b86109.png

来源:机器之心
本文约4800字,建议阅读9分钟数学将成为第一门通过人工智能实现重大突破的学科?

¿Serán las matemáticas el primer tema en lograr grandes avances con la IA?

En febrero del año pasado, DeepMind lanzó AlphaCode, una ayuda de programación. Utiliza tecnología de inteligencia artificial para ayudar a los programadores a escribir código más rápido y puede completar el código automáticamente, proporcionar sugerencias de código y verificar errores, mejorando así la eficiencia de la programación. La llegada de AlphaCode significa que la IA ha dado otro gran paso en el camino hacia la solución de problemas del mundo real.

Coincidentemente, el mismo día, OpenAI también demostró un resultado importante: el demostrador del teorema neuronal que desarrollaron resolvió con éxito dos problemas de Olimpiadas internacionales. Este logro se basa en Lean, una IA matemática que Microsoft ha perfeccionado durante muchos años. Lean se lanzó en 2013. Los matemáticos pueden convertir fórmulas matemáticas en códigos y luego ingresarlos en Lean para permitir que el programa verifique si los teoremas son correctos. El éxito de OpenAI muestra que la IA se puede utilizar no solo para resolver problemas en ciencias aplicadas como la programación, sino también en ciencias naturales como las matemáticas.

a33b4ef3f505298d4cd5ad671438a616.png

Vale la pena señalar que esta no es la "ilusión" de los investigadores de IA. Al igual que los ingenieros de software que rápidamente adoptaron AlphaCode, los matemáticos, como Terence Tao, quien ganó la Medalla Fields, utilizan cada vez más la IA. Incluso predijo que para 2026, la IA se convertirá en un coautor (coautor) de confianza en el campo de la investigación matemática.

Al mismo tiempo, la IA que se enfoca en problemas matemáticos también está creciendo: una plataforma abierta llamada LeanDojo proporciona un conjunto de probadores de teoremas de código abierto basados ​​en grandes modelos de lenguaje, lo que elimina la necesidad de métodos patentados que existen cuando se utilizan métodos de aprendizaje automático para teoremas. Las barreras como el código, los datos y los requisitos computacionales masivos facilitan la investigación de métodos de aprendizaje automático en el campo de la demostración de teoremas.

“Creo que las matemáticas serán el primer tema en lograr grandes avances a través de la inteligencia artificial”, predijo en un tuit Jim Fan, científico investigador sénior de IA en Nvidia, después de ver estos desarrollos.

91a7fa2142ddadac52e93fc156d0f014.png

Además de los desarrollos anteriores, Jim Fan también enumeró las siguientes inferencias:

  • Las matemáticas se pueden convertir fácilmente en problemas de codificación, en los que las cadenas juegan un papel importante, lo que permite que los problemas matemáticos sean procesados ​​y analizados por herramientas de inteligencia artificial;

  • A diferencia de las disciplinas que se basan en resultados empíricos, las matemáticas se pueden verificar rigurosamente con probadores de teoremas como Lean;

  • A diferencia de las disciplinas que se basan en experimentos físicos, como la biología y la medicina, las matemáticas no requieren experimentos físicos y no se basan en robótica o equipos experimentales que aún no están completamente desarrollados.

En este viaje cruzado entre las matemáticas y la IA, los matemáticos y los científicos investigadores de la IA están explorando juntos más posibilidades. Tal vez, las predicciones de Tao Terence y Jim Fan se aceleren.

De la mano de Terence Tao, la IA se ha convertido en la mano derecha de un matemático

"Predigo que, si se usa correctamente, para 2026, la IA se convertirá en un coautor confiable de la investigación matemática y muchos otros campos", dijo el matemático Terence Tao en un blog reciente.

Entre muchos matemáticos conocidos, Tao Terence fue uno de los primeros en aceptar y descubrir el valor matemático de los grandes modelos de IA como ChatGPT. Ya en marzo de este año, cuando ChatGPT ni siquiera pudo resolver el problema de los pollos y los conejos en la misma jaula, Tao Zhexuan le dio una actitud positiva, pensando que este tipo de modelo grande es totalmente capaz de realizar algunas tareas auxiliares, como ayudar a los investigadores matemáticos a realizar una búsqueda semántica, generar algunas pistas.

5ab993591f72668becce39deef84d316.png

En este ejemplo, Terence Tao hizo la pregunta: "Estoy buscando una fórmula sobre xx. Creo que es un teorema clásico, pero no recuerdo el nombre. ¿Tiene alguna impresión?". ronda de respuestas, aunque ChatGPT no pudo dar la respuesta correcta (teorema de Kummer), de acuerdo con la respuesta aproximada que dio (fórmula de Legendre), podemos encontrar fácilmente la respuesta correcta en combinación con los motores de búsqueda tradicionales.

OpenAI no tardó mucho en lanzar GPT-4 con capacidades matemáticas significativamente mejoradas. Tao Terence también ha estado tratando de desbloquear esta poderosa herramienta de IA.

En el proceso de usarlo, resumió algo de experiencia: no intente dejar que la IA responda directamente a preguntas matemáticas (para que la respuesta sea un 80 % absurda), sino que desempeñe el papel de colaborador y pídale que proporcione información estratégica. consejo.

487cb0da73e8ed4dfc0cd89090feb71c.png

De acuerdo con este método de sugerencias, Terence Tao resolvió con éxito un problema de prueba matemática con la ayuda de GPT-4 (GPT4 propuso 8 métodos, uno de los cuales resolvió con éxito el problema).

e2a95a58e6502d240dd5cb89cf52095c.png

Terence Tao usa GPT-4 para resolver el problema.

49f2d69873aee16de3b3c95ed1046044.png

Tao Zhexuan proporcionó el Aviso a GPT-4 para resolver el problema de prueba anterior: "Hola, soy profesor de matemáticas. Espero que puedas interpretar a un colaborador experto en matemáticas que es bueno para proponer habilidades para resolver problemas. Estoy tratando de responde la pregunta en MathOverflow. Las siguientes preguntas……"

5bd1529527b931db84c92476b5c94e52.png

Algunas de las recomendaciones dadas por GPT-4.

Por supuesto, además de esta pregunta de prueba, Terence Tao también usa GPT-4 para completar otras tareas, incluidas, entre otras, las siguientes:

  • Haga preguntas: Introduce las primeras páginas de algunos trabajos preliminares de matemáticas recientes en GPT-4 y le pide que genere preguntas relacionadas con ese trabajo, como las que hacen sus compañeros. Esto puede ayudarlo a prepararse mejor para su presentación.

  • Responder preguntas: ahora usa GPT-4 de forma rutinaria para responder preguntas aleatorias y vagas que antes podría intentar responder con consultas de motores de búsqueda bien diseñadas;

  • Escritura asistida: una vez le pidió a GPT-4 que proporcionara sugerencias de primer borrador para documentos complejos para ayudar a escribir.

Sin embargo, Terence Tao también señaló que la aplicación generalizada de la IA en campos académicos como las matemáticas es una prueba tanto para la industria editorial como para la comunidad educativa: cuando se pueden generar trabajos de matemáticas de nivel de entrada para estudiantes graduados guiados por inteligencia artificial en menos de al día, investigación ¿Cómo cambiarán las revistas sus mecanismos de publicación y citación? ¿Cómo cambiará la forma en que enseñamos a los estudiantes de posgrado? ¿Alentaremos y capacitaremos activamente a los estudiantes para que usen estas herramientas? Terence Tao no dio respuestas a estas preguntas.

Gana la prueba del teorema matemático, esta investigación puede hacer realidad la predicción de Tao Terence lo antes posible

La demostración formal de teoremas siempre ha sido un desafío importante en el aprendizaje automático. La prueba formal es esencialmente un programa de computadora, pero a diferencia de los programas tradicionales en C++ o Python, la corrección de la prueba se puede verificar con un asistente de prueba (como Lean mencionado al principio). La demostración de teoremas es una forma especializada de generación de código que es muy rigurosa en la evaluación, sin dejar lugar para las alucinaciones del modelo.

Esto es un desafío para los modelos de lenguaje grande (LLM) actuales, que, a pesar de sus excelentes capacidades en la generación de código, tienen fallas en la factualidad y las alucinaciones.

La investigación previa sobre LLM para la demostración de teoremas se ha enfrentado a muchos obstáculos: por ejemplo, ninguno de los probadores basados ​​en LLM existentes es de código abierto; todos usan datos privados preentrenados y los requisitos computacionales pueden alcanzar miles de horas de GPU; además, alguna infraestructura se basa en estar hecha a la medida para la capacitación distribuida y la interacción con asistentes de prueba, los cuales son imposibles de reproducir completamente sin código fuente abierto.

En un estudio reciente, investigadores de Caltech, NVIDIA y otras instituciones dieron un paso importante en el proceso de resolver esta propuesta y propusieron una plataforma abierta LeanDojo.

00b46950c0a82866be0b4cfbbaacea25.png

Enlace en papel: https://arxiv.org/pdf/2306.15626.pdf

Página de inicio del proyecto: https://leandojo.org/

En general, la investigación tiene las siguientes contribuciones:

  • Primero, se presentan herramientas para extraer e interactuar con datos de Lean;

  • En segundo lugar, desarrolló ReProver, el primer modelo de lenguaje con recuperación mejorada para la demostración de teoremas;

  • Tercero, construya un punto de referencia desafiante para la demostración de teoremas basados ​​en el aprendizaje y utilícelo para verificar la efectividad de ReProver;

  • Finalmente, el lanzamiento público de datos, modelos y código ha estimulado la investigación sobre LLM para la demostración de teoremas.

Se espera que el nacimiento de LeanDojo cambie el status quo actual: desde kits de herramientas de código abierto, modelos hasta puntos de referencia, LeanDojo permite a los investigadores obtener probadores de última generación basados ​​en LLM a un costo computacional modesto. ReProver no se basa en conjuntos de datos privados y se puede entrenar en una semana en una sola GPU.

detalles de la investigación

Lean es un lenguaje de programación que puede escribir programas tradicionales, así como teoremas y demostraciones. Proporciona dos mecanismos: primero, basado en la programación funcional con tipos dependientes, Lean proporciona un lenguaje unificado para definir programas, objetos matemáticos, teoremas y pruebas; segundo, Lean proporciona un sistema táctico para construir pruebas verificables por máquina de forma semiautomática.

La Figura 2 muestra un ejemplo simple para ilustrar cómo se formalizan y prueban los teoremas en Lean:

1e69fd9b8c3bcf5ec5519db64f0de5c5.png

La sintaxis de una táctica es bastante flexible, puede aceptar parámetros y también se puede combinar en una estrategia compuesta. Las políticas se pueden considerar como programas en un lenguaje específico de dominio (DSL). Los usuarios pueden extender el DSL definiendo nuevas políticas. Este espacio de acción discreto, combinatorio e ilimitado hace que la demostración de teoremas sea un desafío para el aprendizaje automático.

Otro desafío es la elección de la premisa. Una premisa es un axioma existente o una definición útil para probar un teorema, que se utiliza como argumento para una estrategia. La prueba no puede usar una premisa que no haya sido definida, ni puede usar una premisa que no haya sido importada al archivo actual. A menudo, las premisas provienen de una gran biblioteca matemática de cientos de miles de definiciones y teoremas existentes, lo que dificulta que tanto los humanos como las máquinas elijan las premisas correctas al generar políticas. Este es un cuello de botella crítico en la demostración de teoremas, y los investigadores esperan abordarlo con LLM aumentados por recuperación.

Punto de referencia de LeanDojo

Los investigadores utilizaron LeanDojo para construir un punto de referencia que constaba de 96 962 teoremas/pruebas extraídos de mathlib. El punto de referencia es actualmente uno de los conjuntos de datos más grandes de demostración de teoremas enfocados en matemáticas, que cubre diversos temas como análisis, álgebra y geometría.

A diferencia de los conjuntos de datos Lean existentes, LeanDojo Benchmark también contiene 128 163 definiciones de premisas, incluidos no solo teoremas, sino también otras definiciones que pueden servir como premisas, como gcd en la Figura 2. Adicionalmente, el dataset cuenta con 212.787 pólizas, de las cuales 126.058 tienen al menos una premisa. Entre las estrategias con premisas, la media de premisas fue de 2,12.

LeanDojo Benchmark aborda dos cuestiones clave:

  • información previa

Los repositorios lean (p. ej., mathlib o lean-liquid) contienen código fuente para teoremas/pruebas escritos por humanos. Sin embargo, el código original no es adecuado para entrenar a un validador y carece de la información de tiempo de ejecución disponible para los humanos cuando usan Lean, como los estados intermedios entre los pasos de prueba.

Y LeanDojo puede extraer datos de cualquier repositorio de GitHub de Lean, que contiene información valiosa que no se puede ver directamente en el código Lean original, incluidas dependencias de archivos, árboles de sintaxis abstracta (AST), estado de prueba, políticas y premisas. LeanDojo Benchmark contiene anotaciones detalladas de premisas (donde se usan en la prueba y donde se definen en la biblioteca), lo que proporciona datos valiosos para la selección de premisas, que también es un cuello de botella clave en la demostración de teoremas.

  • Segmentación de datos desafiante

Los investigadores encontraron que la práctica común de dividir aleatoriamente los teoremas en entrenamiento/prueba condujo a una sobreestimación del rendimiento en artículos anteriores. Los LLM pueden probar teoremas aparentemente difíciles simplemente memorizando pruebas de teoremas similares durante el entrenamiento.

Un modismo común en el código Lean escrito por humanos es tener un teorema/bloque de prueba similar para propiedades ligeramente diferentes del mismo concepto matemático. Por ejemplo, en la Figura 3, los dos últimos teoremas no solo se ven similares, sino que también tienen la misma demostración. Si uno está en entrenamiento, el modelo puede probar fácilmente al otro de memoria. Este atajo permite que los modelos demuestren teoremas aparentemente no triviales, incluidos aquellos que requieren premisas para su demostración.

9bec75339cc3fc84de26859eb2654002.png

En LeanDojo Benchmark, los investigadores mitigan este problema mediante el diseño de premisas novedosas de división de datos desafiantes, que requieren pruebas de prueba para usar al menos una premisa que nunca se haya usado en el entrenamiento.

Por ejemplo, los dos últimos teoremas de la Figura 3 usan la premisa conj_mul. Si un teorema está en el conjunto de entrenamiento de la división novel_premises, el otro también debe estar en el conjunto de entrenamiento.

Interactuar con Lean programáticamente

Otra característica importante de LeanDojo es interactuar programáticamente con Lean. Convierte Lean en un entorno similar a un gimnasio donde un probador puede observar el estado de la prueba, ejecutar políticas para cambiar el estado y recibir comentarios sobre los errores o la finalización de la prueba. Este entorno es indispensable para evaluar/desplegar un validador o entrenar un probador a través de RL.

A continuación se muestran las principales formas de LeanDojo para interactuar con Lean a través de políticas. Lean también admite otros estilos de prueba que no están basados ​​en políticas, pero LeanDojo solo admite pruebas de estilo de política. Pero cualquier prueba se puede convertir en una prueba de estilo de estrategia, dada la suficiente generalidad.

8c88c14cdbb489be3a598644852a3d81.png

Reprobador

Posteriormente, los investigadores utilizaron LeanDojo Benchmark para entrenar y evaluar ReProver. En su núcleo es un generador de políticas aumentado por la recuperación (parte inferior de la Figura 1).

c2fd04f502d285fcbcc1e5c4e950898e.png

Según el estado de prueba actual, recupera una pequeña cantidad de premisas potencialmente útiles y genera una política basada en las conexiones entre el estado y las premisas recuperadas. Al probar teoremas, el modelo genera múltiples estrategias candidatas en cada paso, que se utilizan en un algoritmo de búsqueda óptimo estándar para encontrar pruebas.

Vale la pena señalar que el entrenamiento de ReProver solo lleva cinco días en una sola GPU (120 horas de GPU), lo que requiere muchos menos cálculos que los métodos anteriores (más de 1000 horas).

Los probadores anteriores basados ​​en LLM están pre-entrenados en conjuntos de datos matemáticos y específicos del código, que son computacionalmente costosos y los conjuntos de datos se mantienen en secreto. Por el contrario, ReProver evita el entrenamiento previo específico del dominio y se basa en "google/byt5-small", un punto de control de modelo relativamente pequeño, general y disponible públicamente.

Además, ReProver solo se ajustó a las políticas escritas por humanos, sin datos auxiliares ni datos recopilados a través de interacciones en línea con Lean. Si bien estas direcciones ortogonales son valiosas, aumentan en gran medida la complejidad y los requisitos computacionales del método.

En los experimentos de evaluación, ReProver puede probar el 51,4 % de los teoremas, superando a una línea de base que genera políticas directamente sin recuperación (47,5 %) y a otra línea de base que utiliza GPT-4 para generar políticas de forma instantánea (28,8 %).

b2e9d66a32d3228fd5f48af87662b7b2.png

Los investigadores también probaron ReProver en dos conjuntos de datos, MiniF2F y ProofNet. Puede probar el 26,5 % de los teoremas en MiniF2F y el 13,8 % de los teoremas en ProofNet, que es casi comparable al método SOTA de aprendizaje por refuerzo y utiliza muchos menos recursos durante el entrenamiento.

Además, muchos teoremas no tienen pruebas de verdad en el terreno en Lean. Y ReProver puede probar 65 teoremas que no han sido probados en Lean, entre los cuales MiniF2F encontró 33 pruebas y ProofNet encontró 39 teoremas. Según los investigadores, ReProver también se puede utilizar como una herramienta eficaz para mejorar la biblioteca matemática existente en Lean.

Complemento ChatGPT

Los investigadores también crearon un complemento LeanDojo ChatGPT que permite a ChatGPT probar teoremas al interactuar con Lean. A diferencia de los LLM (como ReProver) que se ajustan específicamente para la demostración de teoremas, ChatGPT puede entretejer matemáticas informales con pasos de demostración formales, de forma similar a cómo los humanos interactúan con los asistentes de demostración. Puede explicar los mensajes de error de Lean y es más fácil de manipular que los probadores especializados. Sin embargo, encontrar la prueba correcta es difícil en la mayoría de los casos debido a las deficiencias en la búsqueda y la planificación.

Los ejemplos son los siguientes:

un + segundo + c = un + c + segundo

fórmula de Stirling

fórmula de suma de Gauss

información del equipo

Finalmente, conozca a los autores de este artículo:

dbf97355a449d5a400efcd73b29e97fd.png

Kaiyu Yang, el primer autor de la tesis, es actualmente un becario postdoctoral en el Departamento de Computación y Ciencias Matemáticas (CMS) de Caltech, y anteriormente recibió su doctorado de la Universidad de Princeton.

Alex Gu es estudiante de doctorado en el MIT bajo la supervisión de Armando Solar-Lezama. Anteriormente, recibió su licenciatura y maestría del Instituto de Tecnología de Massachusetts y tiene experiencia de pasantía en Meta AI Research, Jane Street y pony.ai.

Peiyang Song actualmente es estudiante de pregrado en informática en la Facultad de Estudios Creativos (CCS) de la Universidad de California, Santa Bárbara (UCSB). Su trabajo de investigación se centra principalmente en dos direcciones: 1) demostración de teoremas neuronales y razonamiento automático, combinando modelos de lenguaje extenso (LLM) y probadores de teoremas interactivos (ITP); 2) lógica temporal para el razonamiento de aprendizaje automático de eficiencia energética.

Shixing Yu es actualmente un estudiante de doctorado en ciencias de la computación en la Universidad de Cornell en los EE. UU. Anteriormente recibió una maestría de la Universidad de Texas en Austin y una licenciatura de la Escuela de Ciencia y Tecnología de la Información de la Universidad de Pekín.

Link de referencia:

https://unlocked.microsoft.com/ai-anthology/terence-tao/

https://unlocked.microsoft.com/ai-anthology/terence-tao/

Editor: Yu Tengkai

Revisión: Lin Yilin

30bcdf85c22e0c63f277f046fb04c970.png

Supongo que te gusta

Origin blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/131757804
Recomendado
Clasificación