Mejora de la generalización del comercio basado en el aprendizaje de refuerzo mediante el uso de modelos de mercado generativos antagónicos

Mejora de la generalización en el comercio basado en el aprendizaje por refuerzo mediante el uso de un modelo de mercado antagónico generativo | Diarios y revistas del IEEE | Explorar IEEE

Mejora de la generalización en el comercio basado en el aprendizaje por refuerzo mediante el uso de un modelo de mercado antagónico generativo

primera parte.

introducir

La gestión de cartera es un componente de larga data del comercio cuantitativo, donde el objetivo es satisfacer una función de utilidad predefinida mediante la reasignación continua de fondos entre ciertos productos financieros. Los enfoques para la gestión de cartera se dividen en uno de tres tipos: 1) enfoques tradicionales (como impulso [1] y estrategias contrarias [2] ), 2) métodos de aprendizaje automático (como coincidencia de patrones [3] ) y 3) basados en Métodos de aprendizaje por refuerzo (RL) [4] , [5] . Con el vigoroso desarrollo de las redes neuronales profundas, muchos investigadores combinaron el aprendizaje profundo con RL y lograron resultados notables en muchos campos financieros, como el comercio de divisas [6], la gestión de carteras [4], [5], [ 7 ] , [ 8] y creación de mercado [9] .

La investigación de RL más exitosa utiliza motores físicos realistas o entidades que interactúan dinámicamente para construir entornos de entrenamiento. Por ejemplo, AlphaZero [10] entrena a un agente para que juegue un juego de mesa a través del autojuego. Aquí, el juego automático significa que el entorno al que se enfrenta el agente, es decir, el entorno contra el que juega el jugador-agente, es generado por el mejor jugador (agente) entrenado por la red neuronal de todas las iteraciones anteriores. El agente de formación recibe retroalimentación continua en respuesta a su propio comportamiento, lo que da como resultado una interrelación sólida y plausible entre el entorno de formación y el agente. Sin embargo, la investigación sobre la gestión de cartera basada en RL ha tenido menos éxito. En tales estudios, los datos de precios históricos todavía se usan directamente para construir el entorno de entrenamiento [4], [5], [7], [8] Desde el punto de vista del agente, la retroalimentación de dicho comportamiento de entrenamiento no responde. Por lo tanto, el agente se enfrenta a varios problemas para optimizar sus acciones en un entorno de formación tan insensible. Primero, el estado obtenido del entorno es independiente del comportamiento del agente. La interacción de un agente con un entorno que no responde puede violar la definición de un proceso de decisión de Markov (MDP), donde el teorema de MDP define explícitamente las transiciones de estado como aquellas que dependen del estado y las acciones actuales. Dado que el teorema de MDP es un teorema fundamental de RL, violar la definición de MDP puede conducir a un proceso de optimización irrazonable para los agentes de cartera basados en RL. En segundo lugar, esta falta de respuesta significa que el entorno no responde adecuadamente al comportamiento del agente en el mercado. En otras palabras, un entorno basado en datos de precios históricos no puede modelar la influencia del agente en el mercado. Como resultado, los agentes optimizados utilizando datos de precios históricos pueden producir una generalización deficiente: el conocimiento comercial creado a partir de datos de la muestra (entrenamiento) no se puede aplicar fuera de la muestra (pruebas). Independientemente de qué tan bien se ajuste el modelo a los datos de entrenamiento, un modelo que generaliza mal es inútil para resolver problemas prácticos de decisión. Por lo tanto, la generalización puede considerarse como el mayor obstáculo que debe superarse para construir un modelo de gestión de cartera basado en RL. [9], [11] mejoran la capacidad de generalización de los agentes transaccionales basados en RL inyectando aleatorización en el entorno. Sin embargo, la mayoría de estos estudios utilizan datos de precios históricos para construir el entorno; la inyección de ruido aleatorio no aborda directamente los problemas anteriores.

En nuestra opinión, se pueden utilizar dos soluciones para abordar los problemas anteriores. El primero es interactuar con un agente de cartera basado en RL con datos bursátiles para optimizar las carteras. El segundo es usar otro modelo de IA para construir un mercado virtual real para que los agentes de RL interactúen. La primera solución se basa en recompensas por resultados comerciales en mercados financieros reales. Sin embargo, debido al alto costo de esta solución y al tiempo de recolección de datos relativamente largo requerido para que el agente converja, no se puede aplicar en la práctica a la optimización de cartera basada en RL. El segundo enfoque es donde radica nuestra principal contribución. En nuestro estudio, se propone una variante de redes antagónicas generativas (GAN) para simular el comportamiento de las órdenes de mercado mediante el modelado de la distribución de órdenes límite históricas . Luego, el modelo generativo se utiliza para construir una bolsa de valores sintética como entorno de capacitación para el agente. El marco de aprendizaje propuesto permite a los agentes obtener respuestas de mercado simuladas a sus decisiones comerciales. Al hacerlo, se fortalece la relación causal entre el estado y la acción. Además, simular una bolsa de valores evita que el agente viole la definición de MDP al permitir que el agente participe en el proceso de transición de estado ; esto justifica el uso de RL en la optimización de cartera al garantizar que se mantengan los teoremas fundamentales que sustentan el marco RL. Al interactuar con una bolsa de valores simulada, el agente puede explorar una gama más amplia de situaciones de mercado previamente imprevistas; el conjunto de datos de entrenamiento también es más diverso. Hasta donde sabemos, este es el primer estudio que utiliza modelos generativos para reconstruir los mercados financieros en simulaciones de gestión de cartera basadas en RL con el objetivo de mejorar la generalización de los agentes. Las principales contribuciones de este estudio son las siguientes:

Un modelo generativo conocido como libro de órdenes límite (LOB)-GAN modela la distribución bajo órdenes límite históricas . LOB-GAN se utiliza para simular el comportamiento de las órdenes de los inversores en su conjunto en el mercado.
Introducir un módulo de conversión de órdenes límite para permitir que LOB-GAN sintetice las cantidades relativas de las órdenes en lugar de predecir directamente los precios de las órdenes y las cantidades correspondientes.
Al hacer que el generador en LOB-GAN coopere con un sistema de coincidencia seguro, se construye una bolsa de valores integral llamada mercado virtual. Un mercado virtual puede presentar reacciones de mercado simuladas basadas en las decisiones comerciales de un agente.
Se propone un nuevo marco de aprendizaje basado en RL para la optimización de cartera utilizando mercados virtuales. El marco asegura que la definición de un MDP nunca se viole al establecer una interrelación más estrecha entre las acciones y los estados de transición.

El resto del documento está organizado de la siguiente manera: la sección II revisa la literatura; la sección III establece los supuestos y define el problema; la sección IV presenta el simulador de comportamiento de mercado propuesto, la construcción de mercados virtuales y otras estrategias de generalización; la sección V presenta la propuesta marco de optimización de cartera basado en RL; la sección VI presenta los resultados experimentales; la sección VII concluye el documento y analiza las direcciones de investigación futuras .

la segunda parte.

revisión de literatura

Esta sección revisa tres cuerpos de literatura: sobre la explotación de RL en finanzas, técnicas de generalización de RL y simulaciones de mercado artificial.

A. Aprendizaje de refuerzo financiero

RL se ha utilizado ampliamente en varias áreas de las finanzas, como la creación de mercado y el comercio de divisas, y es especialmente importante en la gestión de carteras. En esta sección, nos enfocamos en revisar la literatura sobre la gestión de cartera basada en RL. Como regla general, la gestión de la cartera se puede dividir en tres pasos principales: selección de la cartera, ponderación y reequilibrio. En la selección de cartera, la atención se centra en la selección de los activos de la cartera; en la ponderación de la cartera, el proceso determina la asignación de capital; y, en el reequilibrio de la cartera, decide si cambiar las ponderaciones de la cartera y cuándo hacerlo. Sbruzzi et al. [12] se centran en la selección de carteras y utilizan un marco de RL en el que el agente de selección del conjunto de activos optimiza la estrategia de selección. Wang et al. [4] unió el proceso de selección y ponderación de la cartera utilizando su método AlphaStock propuesto. Específicamente, los autores formulan un mecanismo especializado de red de atención de activos cruzados (CAAN) en AlphaStock para capturar las interrelaciones entre los activos de la cartera. jengibre y así sucesivamente. [7] se centran en los pesos de la cartera y proponen su topología de conjunto de evaluadores independientes iguales (EIIE). Su estrategia de selección de cartera se basa directamente en el volumen de negociación, teniendo en cuenta los costos de transacción (un tema clave en la ejecución de la estrategia de negociación algorítmica) en su marco de aprendizaje. Los autores examinan varios modelos de extracción de características de series temporales utilizando su topología EIIE. Shi et al. [5] amplían la topología EIIE en su conjunto de la misma topología inicial independiente (EIII), que explota la red inicial para considerar simultáneamente movimientos de precios de diferentes tamaños. Sus resultados experimentales muestran que la topología EIII produce un mejor rendimiento de cartera que el EIIE original. Ye et al. [8] también amplió la topología EIIE en su topología RL aumentada por estado (SARL), donde se introduce la cooperación en conjuntos de datos heterogéneos para ayudar a los agentes a hacer mejores predicciones. Espigaesperar. [13] también enfatiza la combinación de múltiples fuentes, donde las métricas tradicionales y los módulos de GAN preentrenados constituyen flujos de datos diferentes. Lee et al. [14] aplicó un algoritmo RL novedoso que utiliza codificadores automáticos de eliminación de ruido apilados (SDAE) para crear agentes con el objetivo de obtener representaciones de estado sólidas. A pesar de estos avances, la mayoría de los estudios sobre optimización de cartera basada en RL utilizan datos históricos para optimizar a los agentes, lo que puede conducir a agentes con poca capacidad de generalización.

B. Generalización en el aprendizaje por refuerzo

El problema de la generalización en RL ha sido estudiado en varios campos. Whitson et al. [15] dividió el problema de generalización en variantes dentro y fuera de la tarea. En la variante dentro de la tarea, la generalización es satisfactoria si el agente optimizado en la trayectoria de entrenamiento se desempeña bien en la trayectoria de prueba en el mismo entorno. En la variante fuera de la tarea, la generalización es satisfactoria cuando el agente se desempeña bien en un entorno diferente al entorno de formación. Los métodos utilizados para resolver el problema de generalización en RL se pueden dividir en cinco categorías.

Métodos de regularización: se aplican diversas técnicas, como el abandono y la regularización de L2, para evitar que el agente se sobreajuste en el espacio de estado limitado [16] . Igle et al. [17] propusieron la inyección selectiva de ruido (SNI), que conserva el efecto de regularización pero alivia los efectos secundarios en los gradientes, para mejorar la adaptabilidad a RL.
对抗训练： Se introducen diferentes configuraciones de la estrategia de generación de perturbaciones en el comercio basado en RL [9] , [11] . El ruido inyectado puede 1) ayudar al agente a aprender a proporcionar una representación sólida y 2) diversificar el entorno de formación.
Aumento de datos: para que los datos sean más diversos, se aplican transformaciones al estado [18] , [19] .
Transferencia de aprendizaje: se usa ampliamente para la adaptación del dominio [20] al centrarse en ayudar a los agentes a generalizarse a nuevas tareas . Gamrian y Goldberg [21] utilizaron además GAN para mapear observaciones visuales desde el dominio de destino hasta el dominio de origen.
Metaaprendizaje: el agente aprende metapolíticas que lo ayudan a adaptarse rápidamente a otros dominios [22] . Wang et al. [23] también se centran en el problema de permitir que los agentes se adapten rápidamente a nuevas tareas; lo hacen extendiendo las redes recurrentes para admitir el metaaprendizaje en RL.

En este estudio, nos centramos en la capacidad de generalización dentro de la tarea de los agentes cuyo objetivo es aprender una estrategia comercial general que produzca un rendimiento de cartera comparable durante las pruebas y el entrenamiento. Este objetivo es similar a los de [9], [11]. Sin embargo, de manera similar a la investigación de RL en finanzas, la investigación para mejorar la generalización en finanzas se ha basado en entornos históricos de capacitación basados en precios. Por lo tanto, el problema antes mencionado del uso de datos históricos sigue sin resolverse en la literatura.

C. Simulación de mercado artificial

Los investigadores han intentado durante mucho tiempo modelar el comportamiento de los inversores. La investigación pionera se ha centrado en el potencial de la Hipótesis del Mercado Eficiente (EMH) [24], que sostiene que las personas siempre son lo suficientemente racionales como para tomar decisiones óptimas. Sin embargo, otros investigadores han descubierto que las personas toman decisiones irracionales, por ejemplo, bajo condiciones de pastoreo [25] . Así que se propuso la economía del comportamiento para modelar esta irracionalidad. Investigaciones recientes se han centrado en la predicción del comportamiento. Según Lovric et al. [26] , la decisión de inversión se puede modelar como resultado de la interacción entre el inversor y el entorno. La investigación también sugiere varias variables interdependientes que afectan el proceso de inversión, como la preferencia temporal, la actitud frente al riesgo y la personalidad. Además, en el marco propuesto por Shantha et al . [27] , los inversores aprenden de su experiencia comercial (aprendizaje individual) o imitando a otros (aprendizaje social).

Las simulaciones de mercado artificial permiten a los investigadores construir situaciones que no pueden capturarse en datos históricos. En consecuencia, tales simulaciones se utilizan ampliamente para analizar diversos problemas financieros, como las regulaciones de venta en corto [28] , los impuestos a las transacciones [29] y la velocidad de los sistemas de coincidencia de pedidos [30] . La simulación basada en agentes combina múltiples agentes para reproducir hechos estilizados en mercados reales y es la técnica más común en simulaciones de mercados artificiales. El proceso de simulación consta de varias partes. En primer lugar, se definen el nivel de inteligencia, la función de utilidad y la capacidad de aprendizaje de los sujetos relevantes [31] . En segundo lugar, la determinación del precio de los activos [32] En tercer lugar, el tipo y la cantidad de activos comerciales involucrados en la declaración de construcción artificial del mercado [33] . Cuarto, determinar el proceso de aprendizaje que está altamente correlacionado con el nivel de inteligencia del agente [34] , [35] . En quinto y último lugar, se calibra y valida el mercado simulado. Específicamente, la calibración es la selección de parámetros que hacen que el mercado simulado se comporte de la manera más cercana al mercado real, mientras que la verificación involucra si el mercado simulado se comporta igual que el mercado real. Además de construir mercados simulados utilizando un modelo basado en agentes, Li et al. [36] propuso Stock-GAN para generar datos de órdenes limitadas con alta fidelidad para respaldar el diseño y análisis del mercado en sistemas de comercio continuo. En este estudio, utilizamos modelos generativos para construir mercados financieros. No solo reconstruimos un mercado financiero con un mecanismo de fijación de precios realista, sino que también combinamos el mercado simulado con agentes comerciales de RL. Al combinar la simulación de mercado con un marco de optimización de cartera basado en RL, superamos las deficiencias antes mencionadas del uso de datos de precios históricos para la optimización de proxy.

la tercera parte

preliminares

Esta sección establece las hipótesis, discute las limitaciones de este estudio y aborda los problemas en la aplicación de RL a la gestión de carteras.

Una hipótesis

Proponemos un modelo generativo para simular las respuestas del mercado a las acciones de los agentes. Por lo tanto, se deben hacer las siguientes suposiciones:

Dado que el mercado financiero simulado es responsable de generar respuestas plausibles a las acciones del agente, se supone que el agente tiene la capacidad de influir en el comportamiento de otros inversores en el mercado.
El comportamiento de pedidos de los inversores refleja completamente el impacto de las variables exógenas en los mercados financieros. Por lo tanto, solo modelamos el comportamiento de pedidos del mercado cuando sintetizamos respuestas de mercado plausibles.

Además de estas suposiciones, el estudio tiene otra limitación. Dado que todavía carecemos de una forma sistemática de verificar la autenticidad de las órdenes limitadas generadas, evaluar el rendimiento de la cartera en mercados financieros simulados puede exponer a los agentes al riesgo de estimaciones poco realistas. Por lo tanto, usamos datos de precios históricos para evaluar la capacidad de generalización.

B. Definición del problema

La gestión de cartera es un proceso de toma de decisiones en el que los fondos se reasignan constantemente a diferentes activos. El proceso de formulación de la estrategia de cartera se puede expresar como MDP. MDP se representa como una tupla <S,A,P,,,,p0,c>, donde S es el espacio de estado, A el espacio de acción, P la función de transición de estado, R la función de recompensa, p0 la distribución de probabilidad de la estado inicial, y C∈ [ 0 , 1 ) Coeficiente de descuento de recompensa. En el caso de la gestión de cartera, el agente tiene como objetivo encontrar la política óptima π(A | s), donde la acción A ∈ A es óptima con respecto al estado S ∈ S. En esta política óptima, la rentabilidad esperada se maximiza:

π＊=parámetro máximo E [∑t = 0∞γtR(st, At)],(1)

ver código fuente

donde s0～p0, At∼π(···_st) y _ _ _st+1~P(···_st,At) El marco de gestión de cartera basado en RL incluye principalmente entornos y agentes. El mapeo de MDP al marco de aprendizaje se describe a continuación.

1) ambiente

El diseño del entorno incluye los siguientes elementos: (1) estado St ∈ S, que contiene el estado de transacción del agente o el período de la secuencia de precios proporcionada por el entorno; (2) transición de estado P(···_St, At), Presente el siguiente estado St + 1 dado el estado y la acción anteriores; (3) la función de recompensa R(St,At), que es la función de utilidad que define el desempeño de la cartera del agente y sirve como función objetivo para el agente para maximizar