Método de toma de decisiones en juegos adversarios.

Los juegos adversarios incluyen principalmente tres modelos: juegos formales y extendidos de suma cero, juegos de Stackelberg y juegos diferenciales de suma cero. Este artículo presenta estos tres modelos de juegos adversarios y sus algoritmos populares.

1. Juegos formales y extendidos de suma cero

Un juego de suma cero significa que los intereses de todas las partes en el juego son completamente opuestos: una ganancia para una parte significa una pérdida para la otra y el beneficio total es cero. El juego formal significa que las estrategias y los intereses de los participantes del juego se determinan de antemano y el proceso del juego puede representarse mediante un árbol o matriz del juego. El juego extendido considera formalmente el factor tiempo: cada participante selecciona estrategias por turno y el árbol del juego se expande con cada paso de selección. Los juegos extendidos pueden describir mejor situaciones de juego complejas en la realidad, incluidas estrategias dinámicas, información incompleta, etc.

Algoritmos convencionales:

Para los juegos regulares de suma cero , ha habido una gran cantidad de algoritmos, como arrepentimiento (RM), RM+, juego ficticio, doble oráculo (en línea), etc. Entre ellos, los algoritmos más populares se basan en el aprendizaje del arrepentimiento, a menudo llamados algoritmos de aprendizaje sin arrepentimiento (o sublineales), que se basan en conceptos como arrepentimiento externo, arrepentimiento intrínseco, arrepentimiento de intercambio y arrepentimiento basado en el equilibrio de Nash. En base a esto, los dos algoritmos principales son el FTRL optimista y el descenso de espejo optimista.

Para juegos extendidos con información imperfecta de suma cero , los métodos populares se basan en la minimización del arrepentimiento contrafactual (CFR). Hasta ahora, se han propuesto muchas variantes de CFR con mejor rendimiento, incluidas CFR+, DCFR, LCFR, ECFR, AutoCFR, etc. Al mismo tiempo, han surgido una gran cantidad de algoritmos de IA, como PSRO, Deep CFR, Single Deep CFR, UDEF, PoG, NAC, etc.

2.Juego de Stackelberg

El juego de Stackelberg es un modelo de líder-seguidor en la teoría de juegos en el que un jugador se llama líder y los demás jugadores se llaman seguidores. En el juego de Stackelberg, el líder puede elegir una estrategia primero y los seguidores toman sus propias decisiones después de observar la elección del líder.

Específicamente, los líderes primero consideran las reacciones de los seguidores y toman decisiones óptimas basadas en las expectativas del comportamiento de los seguidores. Los seguidores, por otro lado, toman decisiones a través de respuestas óptimas después de la selección estratégica del líder para maximizar sus propios beneficios.

Los juegos de Stackelberg generalmente implican información y habilidades asimétricas, donde el líder tiene información más completa o habilidades más fuertes para predecir e influir en el comportamiento de los seguidores. Esto le da al líder una cierta ventaja en el juego y puede controlar e influir en todo el proceso del juego eligiendo la estrategia óptima.

Algoritmos convencionales:

Para los juegos de Stackelberg, una solución común es transformar el problema en un problema de programación lineal de dos niveles o un problema de programación lineal entera mixta, y luego los algoritmos de solución populares incluyen múltiples métodos LP, descomposición de dobladores, corte y rama, etc. Para los juegos continuos de Stackelberg, el algoritmo comúnmente utilizado es el método de ascenso y descenso de gradiente, y muchos algoritmos pueden considerarse como variantes de este algoritmo.

3. Juego diferencial de suma cero

El juego diferencial de suma cero es un modelo de juego de suma cero para variables continuas. En este juego, las estrategias de los jugadores son un conjunto de variables continuamente variables, y la función de pago de cada jugador es una función de estas variables.

En un juego diferencial de suma cero, el objetivo de cada jugador es maximizar su propio pago, mientras que el objetivo de los demás jugadores es minimizar sus pagos, por lo que el pago total del juego es cero. Los participantes eligen sus propias estrategias basándose en predicciones y evaluaciones de los comportamientos de otros participantes para lograr rendimientos óptimos.

Algoritmos convencionales:

Para los juegos diferenciales de suma cero, utilizar el método de solución adhesiva es un método común y eficaz. En este método, la base teórica clave es la ecuación de Hamilton-Jacobi-Isaacs .

La ecuación de Hamilton-Jacobi-Isaacs es una ecuación diferencial parcial no lineal que describe la función de valor de un juego diferencial de suma cero. Al resolver esta ecuación, se puede obtener la estrategia óptima de cada jugador y la función de valor correspondiente.

El método de solución viscosa transforma la ecuación de Hamilton-Jacobi-Isaacs en un problema de ecuación diferencial parcial que resuelve condiciones viscosas adicionales. Esta condición adicional generalmente depende de las restricciones del problema real y se utiliza para definir el comportamiento de la política óptima. Mediante métodos numéricos o solución aproximada se puede obtener la solución de esta ecuación, es decir, la función valor.

Supongo que te gusta

Origin blog.csdn.net/m0_64087341/article/details/132817254
Recomendado
Clasificación