papeles caliente | usados para predecir el comportamiento de la interacción humana en la red neuronal juego duplicado

1. Resumen

    Enfoque sobre los participantes humanos encontró que los datos experimentales del modelo estándar de la red neuronal se pueden establecer en más de la economía del comportamiento para predecir con precisión el comportamiento de los jugadores. red neuronal es superior a otros modelos en términos de precisión de predicción y de entropía cruzada, con alto valor económico. El artículo también demostró secuencia corta, si está disponible, introduzca sólo un juego, a continuación, la información económica sobre el juego para predecir el comportamiento de los jugadores es muy importante. Y el tiempo suficiente para que la secuencia de entrada no es factores económicos mejoran la información de rendimiento de red, que es información que indica la secuencia de acciones a entender ya suficiente para satisfacer la predicción de la red neuronal.

2. Introducción

    Este documento se centra en el jugador para predecir el comportamiento humano en el caso de juego repetitivo. Demanda modelo de aprendizaje se ajuste relativamente, estos modelos Lograr actualizan con base en la información anterior. Sin embargo, estos modelos se distribuyen generalmente en pequeños pasos para actualizar su pronóstico, y la convergencia entre el movimiento lento o cuasi-estática de distribución, y por lo tanto pueden no ser adecuados para predecir el comportamiento dinámico de los jugadores individuales. Para jugar sólo una de las ventajas del juego sobre el comportamiento del modelo de red neuronal. Una red neuronal aprendido por adelantado de un conjunto fijo de ejemplo, la función, la misma función y los utilizan para predecir la nueva instancia.

    En el marco de aprendizaje supervisado de este artículo, en la fase de entrenamiento, la entrada de la red es la historia del juego antes de tiempo t, la salida es las predicciones t + 1 acción de duración jugador. La función de pérdida de los parámetros del modelo optimizado. Uso 2x2 (doble juego) evaluó conjunto de datos, el conjunto de datos consta de 12 juegos, cada juego tiene un único equilibrio de Nash. El artículo utiliza dos típico modelo de red - MLP (MLP) y la red neuronal de convolución (CNN), y la economía del comportamiento, con un modelo de modelo y de red establecida derivada de juego de entrenamiento específico para comparar, medir el estándar es la entropía cruzada precisión de la predicción y la pérdida de valor económico.

3. Conjunto predictor

    Para la repetibilidad media de juego, suponiendo que hay n jugadores. La A i representa el comportamiento espacial del jugador i, la A t i ∈ A i representa la acción i participante período t. La A - i representa el funcionamiento de los otros jugadores, excepto el jugador i (es decir, A - i = (A 1. , ..., A i- 1. , A i + 1. , ..., A n- )). Definir U I (A I , A -i ) de la función de utilidad, que determina si el otro jugador selecciona una - I , cada jugador selecciona una I beneficios obtenidos por la operación. En el conjunto (2X2) los datos del juego correspondiente al seleccionado: Hay dos jugadores (jugadores filas y columnas de que el jugador) se repite de acuerdo a un juego fijo función de utilidad.

    tareas de modelado el comportamiento en cada tiempo t = 1 ... T predecir el siguiente movimiento del jugador i A t + 1 i . Introduzca la decisión histórica de los dos jugadores, así como otra información adicional, como el juego avanza, o la función de matriz. La salida es una operación A I probabilidad. Durante la fase de entrenamiento, el modelo de las secuencias de acción en los jugadores humanos en un grupo G juego llevó a cabo para observar y optimizar la secuencia prevista y probar el juego no es de G juego con el modelo entrenado. La evaluación es una entropía cruzada precisión de la predicción y la pérdida de valor económico. Más formalmente que hacen Y T i ∈ {0,1} es una operación t = 1 ... T i del jugador cuando el jugador para predecir la fila, y 0 representa la vertical. Cuando el jugador columna para predecir, 0 y 1 representa aproximadamente. Y que Y T I ∈ [0,1] es Y T I probabilidad = 0. Luego hay n-jugador del juego g, el modelo de pérdida de entropía cruzada es:
Aquí Insertar imagen Descripción
el indicador de precisión de la predicción es el porcentaje de predicción correcta:
Aquí Insertar imagen Descripción
, y es el vector: (Y1i, ..., yti) , 1 e Y tienen las mismas dimensiones. Cálculo del valor económico es:
Aquí Insertar imagen Descripción
que se calcula optti:
Aquí Insertar imagen Descripción
es la mejor opción en el momento t i del jugador. modelo de pérdida, la exactitud y el valor económico se define como el promedio de cada uno de los personajes de diferentes juegos.

4. El modelo de red neural

4,1 Perceptrón multicapa (MLP)

    El papel utilizado MLP con dos capas ocultas, cada capa 512 neuronas ocultas, cada capa oculta tiene una corrección función de activación puntual lineal (relu). Tener dos neuronas de la capa de salida, existe la función de activación, la probabilidad de la operación de salida de un softmax jugador. Aprendizaje a partir de regularización de desactivación, la relación de peso se convierte en 0,3, utilizando Adam estudio optimizador era 0,0002, Batch 64. Estas redes cada secuencia de entrada como un único vector, pero no los datos de dimensión de tiempo explícitamente como su entrada una sola dimensión.

4.2 red neural convolucional (CNN)

    Las redes neuronales pueden representar relación temporal local entre un pequeño número de parámetros. La repetición de la configuración del juego, que pueden ser pueden ocurrir en diferentes ubicaciones de la secuencia de observación de movimiento de modo de respuesta temporal y parcial. El funcionamiento del jugador y el oponente en dos canales separados como entradas a la red, y una convolución en el tiempo. Artículo utiliza una red de convolución dos capas, cada filtro 64 5 × 1, una función de activación de capa de neurona 256 conectividad total y relu, una capa de salida de dos neurona softmax, la red MLP con los mismos métodos regulares y optimización. El artículo también probó dos entradas de un solo canal CNN, un número de parámetros y el mismo modelo de doble canal, el otro es se encontró dos veces el número de parámetros para aumentar los canales de entrada es más eficaz que aumentar el número de variables.

5. Resultados de la evaluación

5.1 en comparación con un pronóstico estática

    Figuras 1a y 1b muestran los dos tipos de red (MLP y CNN) y pérdida de precisión. Como puede verse, estos dos tipos de red que la distribución óptima estática tiene una menor pérdida y un mayor nivel de precisión. . Como puede verse en la figura 1c, esta ventaja también se traduce en diferencias significativas en valor económico: el modelo de red recibió más de 87% del valor óptimo, significativamente mayor que el 78,3% obtuvo la mejor distribución estadística.
Aquí Insertar imagen Descripción

Figura 1: Comparación de las distribuciones estáticas: (1A) la pérdida de cruz entropía, (1b) precisión de la predicción, y (1c) de valor económico de los modelos de red y los modelos de equilibrio. La línea horizontal azul indica el rendimiento de la mejor referencia de la distribución estática, y la línea roja indica el rendimiento del índice de referencia al azar.

5.2 Comparación de los resultados con la predicción dinámica

    Las figuras 2a y 2b muestran la pérdida de precisión y la red CNN y MLP, que se puede ver, todos del modelo de red neural y la exactitud en la pérdida predicho son superiores a la totalidad de la modelo fuera de la red.
Aquí Insertar imagen Descripción

Figura 2: Comparación de los modelos dinámicos y puntos de referencia: (1a) la pérdida de entropía cruzada, (1b) precisión de la predicción, y (1c) valor económico de los modelos de red, el aprendizaje por refuerzo (RL) y normalizado ficticio Jugar con modelos dinámicos (PFN), y los puntos de referencia de la inercia y la acción más frecuente en la historia previa (MF). La línea horizontal azul indica el rendimiento de la mejor referencia distribución estática, y la línea roja indica el rendimiento del índice de referencia aleatorio (véase la Sección 4.2 para más detalles).

Aquí Insertar imagen Descripción

la información más interesante código de exploración preocupación BBIT
Publicado seis artículos originales · ganado elogios 0 · Vistas 41

Supongo que te gusta

Origin blog.csdn.net/ShenggengLin/article/details/105302550
Recomendado
Clasificación