Aprendizaje por refuerzo: una introducción Traducción del aprendizaje por refuerzo sección 1.7

1.7 Historia temprana del aprendizaje por refuerzo

La historia temprana del aprendizaje por refuerzo tiene dos líneas principales, tanto largas como ricas, y se siguieron de forma independiente antes de que se entrelazara el aprendizaje por refuerzo moderno. Una de las pistas es sobre el aprendizaje de prueba y error, que se originó en la psicología del aprendizaje animal. Esta pista atraviesa algunos de los primeros trabajos en el campo de la inteligencia artificial y llevó al renacimiento del aprendizaje por refuerzo a principios de la década de 1980. La segunda pista involucra el problema de control óptimo y su solución usando funciones de valor y programación dinámica. En la mayoría de los casos, este hilo no implica aprendizaje. Estos dos hilos son básicamente independientes, pero se han vuelto interrelacionados hasta cierto punto. Aproximadamente un tercio de los hilos no son obvios sobre el método de diferencia de tiempo, como el hilo utilizado en el ejemplo Tic-Tac-Toe de este capítulo.

Estas tres pistas se juntaron a fines de la década de 1980 y formaron el campo moderno del aprendizaje por refuerzo que presentamos en este libro. En esta breve historia, las pistas que se centran en el aprendizaje de prueba y error son las que más conocemos y las que más podemos decir. Sin embargo, antes de eso, analicemos brevemente el hilo de control óptimo.

El término "control óptimo" se utilizó a fines de la década de 1950 para describir el diseño de controladores para minimizar o maximizar el comportamiento de los sistemas dinámicos a lo largo del tiempo. A mediados de la década de 1950, Richard Bellman y otros propusieron una solución a este problema ampliando las teorías de Hamilton y Jacoby en el siglo XIX. Este método utiliza el concepto de estado del sistema dinámico y función de valor o "función de retorno óptima" para definir una ecuación funcional, que ahora se denomina comúnmente ecuación de Bellman. Un tipo de método que resuelve el problema de control óptimo resolviendo esta ecuación se llama programación dinámica (Bellman, 1957a). Bellman (1957b) también introdujo versiones estocásticas discretas de problemas de control óptimo denominados Procesos de decisión de Markov (MDP). Ronaldhoward (1960) propuso el método de iteración de estrategias de mdp. Todos estos son los elementos básicos de las teorías y algoritmos modernos de aprendizaje por refuerzo.

La programación dinámica se considera ampliamente como el único método factible para resolver problemas generales de control estocástico óptimo. Se originó a partir de la "maldición de la dimensionalidad" de Bellman, es decir, sus requisitos computacionales aumentan exponencialmente con el número de variables de estado, pero sigue siendo más eficaz y más aplicable que cualquier otro método general. Desde finales de la década de 1950, la programación dinámica se ha desarrollado ampliamente, incluida la extensión de mdp parcialmente observable (Lovejoy, 1991), muchas aplicaciones (White survey, 1985, 1988, 1993) y métodos aproximados (Rust survey, 1996). ) Y métodos asincrónicos (Bertsekas, 1982, 1983). Se encuentran disponibles muchos métodos excelentes de procesamiento moderno para la programación dinámica (por ejemplo, Bertsekas, 2005, 2012; Puterman, 1994; Ross, 1983; Whittle, 1982, 1983). Bryson (1996) proporciona un control óptimo histórico autorizado.

Por un lado, el vínculo entre el control óptimo y la programación dinámica, por otro lado, el vínculo entre el aprendizaje es difícil de entender. No podemos determinar la razón de esta separación, pero la razón principal es probablemente la separación entre la disciplina involucrada y sus diferentes objetivos. Otra razón puede ser que la gente generalmente cree que la programación dinámica es un cálculo fuera de línea, que esencialmente se basa en un modelo de sistema preciso y la solución analítica de la ecuación de Bellman. Además, la forma más sencilla de programación dinámica son los cálculos hacia atrás, lo que dificulta entender cómo participa en el proceso de aprendizaje que debe avanzar. Algunos de los primeros trabajos en programación dinámica, como el trabajo de Bellman y Dreyfus (1959), pueden ahora clasificarse como siguiendo el método de aprendizaje. El trabajo de Witten (1977) (discutido más adelante) debe ser una combinación de aprendizaje e ideas de programación dinámica. Werbos (1987) señaló claramente que existe una mayor correlación entre la programación dinámica y los métodos de aprendizaje, y la correlación entre la programación dinámica y la comprensión de los mecanismos neurales y cognitivos. Para nosotros, la integración completa de los métodos de programación dinámica y el aprendizaje en línea no apareció hasta el trabajo de Chriswatkins en 1989, y su uso del formalismo MDP para lidiar con el aprendizaje por refuerzo ha sido ampliamente adoptado. Desde entonces, estas relaciones han sido ampliamente desarrolladas por muchos investigadores, especialmente el término "programación dinámica neuronal" propuesto por Dimitri Bertsekas y John Tsitiklis (1996) se refiere a la combinación de programación dinámica y redes neuronales artificiales. Otro término utilizado actualmente es "programación dinámica aproximada". Estos diferentes métodos enfatizan diferentes aspectos de la asignatura, pero todos tienen el mismo interés que el aprendizaje por refuerzo para evitar las deficiencias clásicas de la programación dinámica.

Creemos que todo el trabajo en control óptimo es también un trabajo de aprendizaje reforzado en cierto sentido. Definimos los métodos de aprendizaje por refuerzo como cualquier método eficaz para resolver problemas de aprendizaje por refuerzo.Ahora se puede ver claramente que estos problemas están estrechamente relacionados con los problemas de control óptimo, especialmente los problemas estocásticos de control óptimo, como los problemas de MDP. Por lo tanto, debemos considerar los métodos óptimos de resolución de controles, como la programación dinámica, como métodos de aprendizaje por refuerzo. Debido a que casi todos los métodos tradicionales requieren un conocimiento completo del sistema a controlar, es un poco antinatural decir que son parte del aprendizaje por refuerzo. Por otro lado, muchos algoritmos de programación dinámica son incrementales e iterativos. Al igual que los métodos de aprendizaje, obtienen gradualmente la respuesta correcta mediante una aproximación continua. Como mostramos en el resto de este libro, estas similitudes son mucho más que superficiales. Las teorías y soluciones del conocimiento completo y el conocimiento incompleto están tan estrechamente vinculadas que pensamos que deben ser consideradas como parte de un mismo tema.

Ahora volvamos a otro hilo principal que conduce al campo moderno del aprendizaje por refuerzo, que es la pista centrada en el aprendizaje por ensayo y error. Solo discutimos los principales puntos de contacto, discutimos este tema con más detalle en la Sección 14.3. Según el psicólogo estadounidense RS Woodworth (1938), la idea del aprendizaje por ensayo y error se remonta a la discusión de Alexander Bain sobre el aprendizaje "a tientas y experimental" en la década de 1850, y más específicamente, al conductista animal británico. Y el psicólogo Conway Lloyd Morgan utilizó este término en 1894 para describir su comportamiento de observación de animales. Edward Thorndike puede ser el primero en expresar de manera sucinta la esencia del aprendizaje de prueba y error como principio de aprendizaje:

Entre las diversas reacciones ante una misma situación, bajo las mismas otras condiciones, la satisfacción del animal va acompañada o seguida de la satisfacción del animal. Estarán más estrechamente relacionadas con la situación. Cuando esto vuelva a suceder, será más probable que vuelva a suceder; aquellas reacciones que acompañan o siguen al malestar del animal, en otras condiciones son las mismas, su conexión con esta situación se debilitará, por lo que cuando esta Cuando esto vuelva a suceder, es poco probable que ocurra. Cuanto mayor sea la sensación de satisfacción o malestar, mayor será el fortalecimiento o debilitamiento de esta conexión. (Thunderk, 1911, pág.244)

Thorndike lo llama la "ley de igualdad E" porque describe la influencia de los eventos de refuerzo en la tendencia a elegir acciones. Thorndike modificó más tarde esta ley para explicar mejor los datos continuos del aprendizaje animal (como la diferencia entre recompensas y castigos), y varias formas de ley han causado una controversia considerable entre los teóricos del aprendizaje (por ejemplo, ver Gallistel, 2005; Herrnstein, 1970; Kimble, 16 Capítulo 1: Introducción 1961, 1967; Mazu, 1994). Sin embargo, la ley del efecto de una forma u otra se considera ampliamente como el principio básico de muchos comportamientos (por ejemplo, Hilgard y Bower, 1975; Dennett, 1978; Campbell, 1960; Cziko, 1995). Es la base de la influyente teoría del aprendizaje de Clark Hull (1943, 1952) y del influyente método experimental de Skinner (1938).

La palabra "refuerzo" en el aprendizaje animal comenzó a usarse después de que Thorndike expresó la ley del efecto. Apareció por primera vez en este contexto en la traducción al inglés de la monografía de Pavlov sobre condicionamiento en 1927 (según nuestro Conocido). Pavlov describió el refuerzo como el refuerzo del patrón de comportamiento de un animal después de recibir un estímulo, es decir, un potenciador que tiene una relación temporal apropiada con otro estímulo o respuesta. Algunos psicólogos amplían el concepto de refuerzo para incluir el debilitamiento y refuerzo de la conducta, y amplían el concepto de refuerzo para incluir posiblemente la omisión o terminación de estímulos. Para ser considerado un potenciador, la mejora o debilitamiento debe continuar después de que se retira el potenciador; un estímulo que simplemente atrae la atención del animal o estimula su comportamiento sin producir un cambio duradero no se considerará un potenciador.

La idea del aprendizaje de prueba y error en una computadora es una de las primeras ideas sobre la posibilidad de la inteligencia artificial. En un informe de 1948, Alan Turing describió el diseño de un "sistema de placer-dolor" que sigue la ley del efecto:

Cuando se alcanza una configuración con una acción indeterminada, los datos faltantes se seleccionarán al azar y las entradas correspondientes se ingresarán temporalmente en la descripción y luego se aplicarán. Cuando aparece un estímulo doloroso, todos los elementos provisionales se cancelan y cuando aparece un estímulo feliz, se retienen permanentemente. (Turing, 1948)

Se han construido muchas máquinas electromecánicas sofisticadas, lo que demuestra el aprendizaje de errores de Trilan. La posibilidad más temprana es una máquina hecha por Thomas Ross (Thomas Ross, 1933), que puede encontrar su camino en un laberinto simple y recordar el camino a través de la configuración de interruptores. En 1951, W. Gray Walter (W. Gray Walter) produjo una versión de la "tortuga mecánica" (Walter, 1950) capaz de aprendizaje simple. En 1952, Claude Shannon hizo una demostración de un ratón que corría por un laberinto llamado Teseo. Encontró el camino del laberinto a través de prueba y error. El laberinto en sí recordó la dirección del éxito a través de imanes y relés debajo del piso (ver también Shannon, 1951). J. A. Deutsch (1954) describió una máquina de resolución de laberintos basada en la teoría del comportamiento (Deutsch, 1953), que comparte algunas características con el aprendizaje por refuerzo basado en modelos (Capítulo 8). En su tesis doctoral, Marvin Minsky (1954) discutió el modelo computacional de aprendizaje por refuerzo y describió una máquina de simulación que construyó compuesta de componentes que llamó SNARC (calculadoras de refuerzo de simulación neuronal aleatoria), diseñadas para simular Conexiones sinápticas modificables en el cerebro (Capítulo 15). La red de control del sitio web contiene una gran cantidad de información sobre estas y muchas otras máquinas de aprendizaje electromecánicas.

El establecimiento de máquinas de aprendizaje electromecánicas da paso a la programación de computadoras digitales para realizar varios tipos de aprendizaje, algunos de los cuales implementan el aprendizaje de prueba y error. Farley y Clark (1954) describieron una simulación digital de una máquina de aprendizaje de redes neuronales que aprende mediante prueba y error. Pero su interés pasó rápidamente del aprendizaje por ensayo y error a la generalización y el reconocimiento de patrones, es decir, del aprendizaje reforzado al aprendizaje supervisado (Clark y Farley, 1955). Esto comienza la confusión sobre la relación entre estos tipos de aprendizaje. Muchos investigadores parecen pensar que están estudiando el aprendizaje por refuerzo, cuando en realidad están estudiando el aprendizaje supervisado. Por ejemplo, los pioneros de las redes neuronales artificiales como Rosenblatt (1962) y Widrow y Ho (1960) obviamente están motivados por el aprendizaje por refuerzo. Utilizan el lenguaje de recompensa y castigo, pero el sistema que estudian es un sistema de aprendizaje supervisado adecuado para el reconocimiento de patrones y el aprendizaje perceptual. Los investigadores incluso han difuminado la distinción entre los investigadores y los libros de texto actuales. Por ejemplo, algunos libros de texto usan el término "error de Triland" para describir redes neuronales artificiales aprendidas de ejemplos de entrenamiento. Esta es una confusión comprensible, porque estas redes usan información incorrecta para actualizar los pesos de conexión, pero esto ignora la característica esencial del aprendizaje de prueba y error, que es elegir acciones basadas en la retroalimentación de la evaluación en lugar de confiar en el conocimiento de las acciones correctas.

Hasta cierto punto, debido a estas confusiones, la investigación sobre el verdadero aprendizaje por ensayo y error se volvió escasa en las décadas de 1960 y 1970, aunque hubo notables excepciones. En la década de 1960, la literatura de ingeniería utilizó por primera vez "refuerzo" y "aprendizaje por refuerzo" para describir aplicaciones de ingeniería del aprendizaje de prueba y error (por ejemplo, Waltz y Fu, 1965; Mendel, 1966; Fu, 1970; Mendel y McClaren, 1970). Particularmente influyente es el artículo de Minsky "Steps to Artificial Intelligence" (Minsky, 1961), que analiza varios temas relacionados con el aprendizaje de prueba y error, incluidas las predicciones, las expectativas y lo que él llama refuerzo complejo. El problema básico de asignación de créditos del sistema de aprendizaje: ¿Cómo asignar los créditos para el éxito entre las muchas decisiones que pueden implicar tomarlo? En cierto sentido, todos los métodos que discutimos en este libro están diseñados para resolver este problema. Vale la pena leer el artículo de Minsky hoy.

En los próximos párrafos, discutiremos algunas otras excepciones y algunas excepciones que fueron relativamente ignoradas en el cálculo y la investigación teórica del aprendizaje real de prueba y error en las décadas de 1960 y 1970.

Una excepción es el trabajo del investigador neozelandés John Andre, quien desarrolló un sistema llamado STeLLA para aprender la interacción con el medio ambiente mediante prueba y error. Este sistema incluye un modelo interno del mundo y posteriores "monólogos internos" para abordar el problema de los estados ocultos (Andreae, 1963, 1969; Andreae y Cashin, 1969). El trabajo posterior de Andrei (1977) enfatizó el aprendizaje de los maestros, pero aún incluía el aprendizaje por ensayo y error, y uno de los objetivos del sistema era generar eventos novedosos. Una característica de este trabajo es el "proceso de fuga", que Andreae (1998) elaboró ​​de manera más exhaustiva e implementa un mecanismo de asignación de crédito similar a la operación de actualización de respaldo que describimos. Desafortunadamente, su investigación pionera no es ampliamente conocida, ni tuvo un impacto significativo en la investigación posterior del aprendizaje por refuerzo. El resumen más reciente está disponible (Andreae, 2017a, b).

Más influyente es el trabajo de Donald Mitch. En 1961 y 1963, describió un sistema simple de aprendizaje de prueba y error, aprendiendo a jugar al tic-tac-toe (o cero y cruces) llamado amenaza (notts educados en caja de cerillas y motor cruzado). Incluye una caja de cerillas para cada posible posición de juego, cada caja de cerillas contiene muchas cuentas de colores y diferentes colores para cada posible movimiento desde esa posición. Seleccionando aleatoriamente una cuenta correspondiente a la posición actual del juego de la caja de cerillas, se puede determinar el movimiento de la amenaza. Cuando termine el juego, agregue o quite cuentas en la caja que se usa para recompensar o castigar las amenazas. Michie y Chambers (1968) describieron otro aprendiz de refuerzo de tic-tac-toe llamado GLEE (Game Learning Expectation Simulation Engine) y un controlador de aprendizaje por refuerzo llamado box. Aplicaron la caja a la tarea de aprender a equilibrar un poste eléctrico que está articulado a un carro móvil, en base a una señal de falla que solo ocurre cuando el poste cae o el carro llega al final de la pista. Esta tarea está adaptada de un trabajo anterior de Widrow y Smith (1964), quienes utilizaron un método de aprendizaje supervisado, asumiendo la orientación de un maestro que ya era capaz de equilibrar la pole position. El equilibrio de polos de Michie y Chambers es uno de los mejores ejemplos tempranos de tareas de aprendizaje por refuerzo bajo la condición de conocimiento incompleto. Influyó en el trabajo posterior sobre el aprendizaje por refuerzo, comenzando con algunas de nuestras propias investigaciones (Barto, Sutton y Anderson, 1983; Sutton, 1984). Mitch (1974) enfatizó constantemente que la depuración y el aprendizaje son aspectos importantes de la inteligencia artificial.

Widrow, Gupta y Maitra (1973) mejoraron el algoritmo de mínimos cuadrados medios (LMS) de Widrow y Ho (1960) y produjeron una regla de aprendizaje por refuerzo que puede aprender de las señales de éxito y fracaso en lugar de Aprenda de los ejemplos de formación. Llaman a este estilo de aprendizaje "adaptación guiada selectivamente" y lo describen como "aprender con críticos" en lugar de "aprender con profesores". Analizaron esta regla y mostraron cómo aprender blackjack. Este es un intento aislado de Widrow sobre el aprendizaje por refuerzo, y su contribución al aprendizaje supervisado es más influyente. Nuestro uso del término "crítico" se deriva de los artículos de Widlow, Gupta y Maitra. Buchanan, Mitchell, Smith y Johnson (1978) utilizaron de forma independiente el término "crítico" en el contexto del aprendizaje automático (véase también Dieterich y Buchanan, 1984), pero para ellos, los críticos son un sistema experto que puede hacer No se trata solo de evaluar el desempeño.

Tiene un impacto más directo en el aprendizaje moderno de pistas y la investigación de refuerzo. Estos métodos resuelven un problema de aprendizaje de elección pura, no asociativo, llamado máquina de juego de brazo k, a través de máquinas tragamonedas analógicas o "máquinas de juego de un brazo", excepto por la palanca k (véase el capítulo 2). El autómata de aprendizaje es una máquina simple de poca memoria que se utiliza para aumentar la probabilidad de retorno en estos problemas. Los autómatas de aprendizaje se originaron en el trabajo del matemático y físico ruso MLTsetlin y sus colegas en la década de 1960 (publicado después de la muerte de Tsetlin, 1973), y se ha desarrollado ampliamente en el campo de la ingeniería (ver Narendra y Thathachar, 1974, 1989). Estos desarrollos incluyen el estudio de autómatas de aprendizaje aleatorio, un método de actualización de la probabilidad de acción basado en señales de recompensa. El algoritmo Alopex de Harth y Tzanakou (1974) (para el algoritmo de extracción de patrones) no está desarrollado en la tradición de los autómatas de aprendizaje aleatorio, pero es un método estocástico para detectar la correlación entre acción y refuerzo. Influyó en algunos de nuestros primeros estudios (Barto, Sutton y Brouwer, 1981). Los autómatas de aprendizaje aleatorio son un precursor de la investigación psicológica temprana, comenzando con William Estes (1950), avanzando hacia la teoría estadística del aprendizaje y desarrollada por otros (por ejemplo, Bush y Mosteller, 1955; Sternberg, 1963).

La teoría del aprendizaje estadístico desarrollada en psicología es adoptada por investigadores económicos, dando lugar a una serie de investigaciones en este campo dedicadas al aprendizaje reforzado. Este trabajo se inició en 1973, aplicando la teoría del aprendizaje de Bush y Mostler a una serie de modelos económicos clásicos (Cross, 1973). Uno de los objetivos de esta investigación es estudiar agentes artificiales que se comporten más como personas reales que como agentes económicos ideales tradicionales (Arthur, 1991). Este método se extiende a la investigación del aprendizaje por refuerzo en el contexto de la teoría de juegos. El aprendizaje por refuerzo en economía es en gran medida independiente del trabajo inicial del aprendizaje por refuerzo en inteligencia artificial, aunque la teoría de juegos sigue siendo un tema de interés en estos dos campos (fuera del alcance de este libro). Camerer (2011) analizó la tradición del aprendizaje por refuerzo en economía. Now, e, Vrancx y De haware (2012) describen los métodos presentados en este libro desde la perspectiva de la expansión de múltiples agentes. El aprendizaje por refuerzo en el contexto de la teoría de juegos es muy diferente del aprendizaje por refuerzo utilizado para jugar tic-tac-toe, damas y otros juegos de entretenimiento. Para conocer el aspecto de aprendizaje de Szita, consulte Descripción general del aprendizaje de Szita 2012.

Johnholland (1975) esbozó la teoría general de los sistemas adaptativos basada en principios de selección. Su trabajo inicial involucró principalmente ensayo y error en formas no relacionadas, como métodos evolutivos y bandidos con armas k. En 1976 y 1986, introdujo el sistema clasificador, el verdadero sistema de aprendizaje por refuerzo, que incluye funciones de correlación y valor. Un componente clave del sistema clasificador de Holland es el "algoritmo de presupuesto de cubeta" para la asignación de créditos, que está estrechamente relacionado con el algoritmo de diferencia de tiempo que usamos en el ejemplo de tic-tac-toe y que se analiza en el Capítulo 6. Otro componente clave es el algoritmo genético, un método evolutivo cuya función es desarrollar representaciones útiles. El sistema clasificador ha sido desarrollado extensamente por muchos investigadores, formando una rama importante de la investigación del aprendizaje por refuerzo (Urbanowicz y Moore, revisión de 2009), pero no nos consideramos un algoritmo genético para sistemas de aprendizaje por refuerzo que haya recibido más atención. Lo mismo ocurre con otros métodos evolutivos (por ejemplo, Fogel, Owens y Walsh, 1966; Koza, 1992).

La persona que intentó repetidamente restaurar el aprendizaje reforzado en inteligencia artificial fue Harry Klopf (1972, 1975, 1982). Klopf reconoce que a medida que los investigadores del aprendizaje se centran casi por completo en el aprendizaje supervisado, los aspectos fundamentales del comportamiento adaptativo están desapareciendo. Según Klopf, lo que falta es el aspecto hedónico de la conducta: el impulso para obtener un determinado resultado del entorno, para controlar el entorno en la meta deseada, lejos de la meta no deseada (ver Sección 15.9). Esta es la idea básica del aprendizaje por ensayo y error. Las ideas de Klopf son particularmente influyentes para el autor, porque nuestra evaluación de ellas (Barto y Sutton, 1981a) nos hace reconocer la diferencia entre el aprendizaje supervisado y el aprendizaje reforzado y, en última instancia, centrarnos en el aprendizaje reforzado. La mayor parte del trabajo inicial realizado por nosotros y nuestros colegas tiene como objetivo mostrar que el aprendizaje reforzado y el aprendizaje supervisado son de hecho diferentes (Barto, Sutton y Brouwer, 1981; Barto y Sutton, 1981b; Barto y Anandan, 1985). Otros estudios han demostrado cómo el aprendizaje por refuerzo puede resolver problemas importantes en el aprendizaje de redes neuronales artificiales, especialmente cómo generar algoritmos de aprendizaje de redes multicapa (Barto, Anderson y Sutton, 1982; Barto y Anderson, 1985; Barto, 1985, 1986; Barto y Jordan, 1987; ver sección 15.10).

Pasamos ahora a la tercera pista del aprendizaje por refuerzo, que trata sobre la historia del aprendizaje en diferencia horaria. El método de aprendizaje por diferencia de tiempo es único en el sentido de que está impulsado por la diferencia entre estimaciones consecutivas de la misma cantidad de tiempo, por ejemplo, la probabilidad de ganar en el ejemplo del tic-tac-toe. Esta pista es más pequeña y menos obvia que las otras dos pistas, pero juega un papel particularmente importante en este campo, en parte porque el método de diferencia de tiempo parece ser una característica nueva y única del aprendizaje por refuerzo.

Parte del origen del aprendizaje con diferencia horaria proviene de la psicología del aprendizaje animal, especialmente el concepto de potenciadores secundarios. Un potenciador secundario es un irritante que se combina con un potenciador primario (como la comida o el dolor) y, por lo tanto, tiene propiedades fortalecedoras similares. Minsky (1954) puede ser la primera persona en darse cuenta de la importancia de este principio psicológico para los sistemas de aprendizaje artificial. Arthur Samuel (1959) fue el primero en proponer e implementar un método de aprendizaje que incluye la idea de diferencia horaria como parte de su famoso proyecto de damas (sección 16.2).

Samuel no mencionó el trabajo de Minsky, ni mencionó que podría estar relacionado con el aprendizaje de los animales. Obviamente, su inspiración provino de la sugerencia de Claude Shannon (1950) de que la computadora puede programarse para usar una función de evaluación para jugar al ajedrez, y el juego se puede mejorar modificando esta función en línea. (Es posible que estas ideas de Shannon también influyeran en Bellman, pero no conocemos la evidencia de esto). Minsky (1961) discutió extensamente el trabajo de Samuel en su artículo "Steps", proponiendo una diferencia entre lo natural y lo artificial. Reforzar la conexión teórica.

Como ya hemos comentado, en los diez años posteriores al trabajo de Minsky y Samuel, se ha realizado muy poco trabajo computacional sobre el aprendizaje de prueba y error, y está claro que no se ha realizado ningún trabajo computacional en términos de aprendizaje en diferencia de tiempo. En 1972, Klopf combinó el aprendizaje por ensayo y error con una parte importante del aprendizaje por diferencia de tiempo. Klopf está interesado en los principios que se pueden aprender en sistemas grandes y, por lo tanto, está interesado en el concepto de refuerzo local, es decir, los subcomponentes de todo el sistema de aprendizaje pueden mejorarse entre sí. Propuso el concepto de "refuerzo general", es decir, cada componente (nominal, cada neurona) trata todas sus entradas de manera reforzada: la entrada excitadora es recompensa y la entrada inhibitoria es el castigo. Esto es diferente del concepto de aprendizaje de diferencias temporales tal como lo conocemos ahora y, en retrospectiva, está más lejos que el trabajo de Samuel. Por otro lado, Klopf conecta este tipo de pensamiento con el intento de aprender y lo conecta con la vasta base de datos de experiencias de la psicología del aprendizaje animal.

Sutton (1978a, b, c) desarrolló aún más las ideas de Klopf, especialmente en conexión con la teoría del aprendizaje animal, y describió las reglas de aprendizaje impulsadas por cambios predictivos continuos en el tiempo. Él y Barto mejoraron estas ideas y desarrollaron un modelo psicológico clásico de condicionamiento basado en el aprendizaje en diferencia de tiempo (Sutton y Barto, 1981a; Barto y Sutton, 1982). Basado en el aprendizaje por diferencia de tiempo, también sigue varios otros modelos influyentes de la psicología del condicionamiento clásico (por ejemplo, Klopf, 1988; Moore et al., 1986; Sutton y Barto, 1987, 1990). Algunos modelos de neurociencia desarrollados en este momento han sido bien explicados en términos de aprendizaje por diferencia de tiempo (Hawkins y Kandel, 1984; Byrne, Gingrich y Baxter, 1990; Gelperin, Hopfield y Tank, 1985; Tesauro, 1986; Friston et al., 1994), aunque en la mayoría de los casos no existe una correlación histórica.

Nuestra investigación inicial sobre el aprendizaje en diferencia de tiempo estuvo fuertemente influenciada por la teoría del aprendizaje animal y el trabajo de Klopf. La relación con el archivo "step" de Minsky y el jugador de damas de Samuel no se confirmó hasta más tarde. Sin embargo, en 1981, éramos plenamente conscientes de que todo el trabajo anterior descrito anteriormente formaba parte de la diferencia horaria y el hilo de prueba y error. En este momento, desarrollamos un método que combina el aprendizaje por diferencia de tiempo con el aprendizaje por prueba y error, llamado arquitectura actor-crítico, y aplicamos este método al problema del equilibrio de polos de Michie y Chambers (Barto, Sutton y Anderson, 1983 ). Este método ha sido ampliamente estudiado en la tesis doctoral de Sutton (1984) y se extendió para utilizar redes neuronales de retropropagación en la tesis doctoral de Anderson (1986). Durante este período de tiempo, Holland (1986) incorporó explícitamente la idea de diferencia de tiempo en su sistema de clasificación en forma de un algoritmo de desplazamiento de barril. Sutton (1988) dio un paso clave para separar el aprendizaje y el control de la diferencia de tiempo como método general de pronóstico. Este artículo también presenta el algoritmo TD y demuestra algo de su convergencia.

En 1981, cuando terminamos nuestro trabajo sobre la arquitectura actor-crítico, descubrimos un artículo de Ian Witten (1977, 1976a), que parecía ser la primera publicación de las reglas de aprendizaje por diferencia de tiempo. Propuso lo que ahora llamamos TD tabular (0) como parte del controlador adaptativo que resuelve mdp. Esta investigación se envió por primera vez a una revista para su publicación en 1974 y también apareció en la tesis doctoral de Witten en 1976. El trabajo de Witton es un descendiente de los primeros experimentos de Andre con Stella y otros sistemas de aprendizaje de prueba y error. Por lo tanto, el artículo de Witten de 1977 cruza las principales pistas de la investigación del aprendizaje por refuerzo, el aprendizaje por ensayo y error y el control óptimo, al tiempo que hace una contribución temprana significativa al aprendizaje con diferencia de tiempo.

En 1989, con el desarrollo de Q-learning por Chris Watkins, la diferencia de tiempo y los subprocesos de control óptimos se integraron completamente. Esta investigación amplía e integra las tres pistas de la investigación del aprendizaje por refuerzo. Paulwerbos (1987) ha abogado por la integración del aprendizaje por ensayo y error y la programación dinámica desde 1977. Cuando llegué a Watkins, la investigación sobre el aprendizaje por refuerzo había crecido enormemente, principalmente en el subcampo del aprendizaje automático de la inteligencia artificial, pero también en el campo más amplio de las redes neuronales artificiales y la inteligencia artificial. En 1992, el proyecto de juego de backgammon de Gerry Tesauro TD Gammon logró un éxito notable, que también atrajo más atención al campo.

Desde la publicación de la primera edición de este libro, se ha desarrollado una rama floreciente de la neurociencia, que se centra en la relación entre los algoritmos de aprendizaje por refuerzo y el aprendizaje por refuerzo en el sistema nervioso. Como han señalado muchos investigadores, existe una sorprendente similitud entre el comportamiento del algoritmo de diferencia de tiempo y la actividad de las neuronas productoras de dopamina en el cerebro (Friston et al., 1994; Barto, 1995a; Houk, Adams y Barto, 1995; Montague, Dayan y Sejnowski, 1996; Schultz, Dayan y Montague, 1997). El capítulo 15 presenta este interesante aspecto del aprendizaje por refuerzo. En la historia reciente del aprendizaje por refuerzo, hay muchas otras cosas importantes que mencionar en esta breve narración; citamos muchas de ellas al final de los capítulos en los que se producen.

Observaciones bibliográficas

Para otros informes generales sobre el aprendizaje por refuerzo, remitimos a los lectores a Szepesv'ari (2010), Bertsekas y Tsitiklis (1996), Kaelbling (1993a) y Sugiyama, Hachiya y Morimura (2013). Los libros que adoptan una perspectiva de investigación de operaciones o de control incluyen Si, Barto, Powell y Wunsch (2004), Powell (2011), Lewis y Liu (2012) y Bertsekas (2012). La revisión de Cao (2009) sitúa el aprendizaje por refuerzo en el contexto de otros métodos de aprendizaje y optimización de sistemas dinámicos estocásticos. Tres números especiales de la revista "Machine Learning" se centran en el aprendizaje por refuerzo: Sutton (1992a), Kaelbling (1996) y Singh (2002). Barto (1995b), Kaelbling, Littman y Moore (1996) y Keerthi y Ravindran (1997) proporcionan encuestas útiles. El libro editado por Weiring y van Otterlo (2012) proporciona una excelente descripción de los desarrollos recientes.

1.2 El ejemplo del desayuno de Phil en este capítulo está inspirado en Agre (1988).

1.5 En el Capítulo 6, se desarrolla el método de diferencia de tiempo utilizado en Tic Tac Toe.

Parte I: Métodos de solución tabular

En esta parte del libro, describimos casi todas las ideas centrales de los algoritmos de aprendizaje por refuerzo. La forma más simple de estos algoritmos es: el espacio de estados y el espacio de acción son lo suficientemente pequeños como para representar la función de valor aproximado como una matriz o tabla. En este caso, estos métodos a menudo pueden encontrar soluciones precisas, es decir, generalmente pueden encontrar la función de valor óptima y la estrategia óptima con precisión. Esto contrasta con el método de aproximación que se describe en la siguiente parte del libro, que solo puede encontrar soluciones aproximadas, pero a su vez se puede aplicar de manera efectiva a problemas más grandes.

El primer capítulo de esta parte del libro describe la solución al caso especial del problema del aprendizaje por refuerzo, en el que solo hay un estado, llamado problema del bandido. El capítulo 2 describe la fórmula general del problema que tratamos en el resto de este libro (el proceso finito de decisión de Markov) y sus ideas principales, incluida la ecuación de Bellman y la función de valor.

Los siguientes tres capítulos describen tres métodos básicos para resolver problemas de decisión de Markov finitos: programación dinámica, métodos de Monte Carlo y aprendizaje por diferencia de tiempo. Cada tipo de método tiene sus ventajas y desventajas. El método de programación dinámica ha sido bien desarrollado en matemáticas, pero necesita un modelo ambiental completo y preciso. El método Monte Carlo no requiere un modelo y el concepto es simple, pero no es adecuado para el cálculo incremental. Finalmente, el método de diferencia de tiempo no requiere un modelo y es completamente incremental, pero es más complicado de analizar. Estos métodos también difieren en eficiencia y velocidad de convergencia.

Los dos capítulos restantes describen cómo combinar estos tres tipos de métodos para obtener sus mejores características. En un capítulo, describimos cómo combinar las ventajas del método Monte Carlo con las ventajas del método ad hoc a través de un método guiado de varios pasos. En el último capítulo de esta parte del libro, mostraremos cómo combinar métodos de aprendizaje por diferencia de tiempo con métodos de aprendizaje y planificación de modelos (como la programación dinámica) para resolver problemas de aprendizaje por refuerzo de tablas de manera completa y uniforme.

Supongo que te gusta

Origin blog.csdn.net/wangyifan123456zz/article/details/107381096
Recomendado
Clasificación