Hot Papiere | verwendet, um das Verhalten der menschlichen Interaktion in dem neuronalen Netz doppelten Spiel vorherzusagen

1. Zusammenfassung

    Fokus auf dem menschlichen Teilnehmern festgestellt, dass die experimentellen Daten aus dem Standardmodell des neuronalen Netzes können in mehr als Verhaltensökonomie geschaffen werden genau das Verhalten der Spieler vorhersage. Neuronales Netz ist besser als andere Modelle in Bezug auf der Prognosegenauigkeit und Cross-Entropie, mit hohem wirtschaftlichem Wert. Der Artikel auch kurze Sequenz erwies sich, falls vorhanden, geben Sie einfach ein Spiel, dann Wirtschafts Informationen über das Spiel für das Verhalten der Spieler der Vorhersage ist sehr wichtig. Und lange genug, so dass die Eingangssequenz nicht wirtschaftliche Faktoren ist die Netzwerk-Performance Informationen zu verbessern, die Informationen, welche die Reihenfolge der Aktionen implizierten länger ausreichen, um die Vorhersage des neuronalen Netzes zu erfüllen.

2. Einführung

    Dieser Beitrag konzentriert sich auf den Spieler im Falle von wiederholten Spiel menschliches Verhalten vorherzusagen. Die Nachfrage Lernmodell ist relativ fit, erreichen diese Modelle auf früheres Feedback basierend aktualisiert. Allerdings sind diese Modelle in der Regel in kleinen Schritten verteilt seine Prognose zu aktualisieren, und die Konvergenz zwischen den sich langsam bewegenden oder quasi-statische Verteilung und daher nicht geeignet sein können, um das dynamische Verhalten einzelner Spieler zu prognostizieren. Für spielt nur ein Spiel Vorteil gegenüber dem Verhalten des neuronalen Netzwerkmodelles. Ein neuronales Netzwerk im Voraus von einem festen Satz von Funktions Beispiel gelernt, die gleiche Funktion und verwenden dann diese die neue Instanz vorherzusagen.

    In überwachten Lern ​​Rahmen dieses Artikels, in der Trainingsphase, die Geschichte des Spiels vor dem Zeitpunkt t das Netzwerk eingegeben wird, ist der Ausgang die Spieler Zeit t + 1 Aktion Prognosen. Die optimierte Modellparameter Verlustfunktion. Verwenden Sie 2x2 (Doppelspiel) Datensatz ausgewertet, besteht der Datensatz von 12 Spielen, jedes Spiel ein einzigartiges Nash-Gleichgewicht hat. Artikel verwendete zwei typisches Netzwerkmodell - MLP (MLP) und Faltungs neuronales Netzwerk (CNN) und Verhaltensökonomie mit einem etablierten Modell und Netzwerkmodell von spezifischem Trainingsspiel abgeleitet zu vergleichen, messen der Standard ist die Quer Entropieverlust Vorhersagegenauigkeit und wirtschaftlicher Wert.

3. Set Prädiktor

    Für die durchschnittliche Wiederholbarkeit des Spiels, unter der Annahme , dass es n Spieler. Die A i stellt das räumliche Verhalten des Spielers i, A t i ∈ A i stellt die i Teilnehmer Einwirkungszeit t. Die A - i stellt den Betrieb der anderen Spieler außer dem Spieler i ( das heißt, A - i = (a 1. , ..., A i- 1. , A i + 1. , ..., A n- )). Definieren U I (A I , A -I ) der Nutzenfunktion, die wählt einen anderen , wenn der Spieler bestimmt - I , die jeweils ein Spieler wählt I Vorteile durch die Operation erhalten. In der (2X2) Satz von Spieldaten entsprechend dem gewählten: Es gibt zwei Spieler (Spieler Zeilen und Spalten des Spielers) wiederholt wird , entsprechend einem Spiel fixiert Nutzenfunktion.

    Verhaltensmodellierung Aufgaben in jedem Zeitpunkt t = 1 ... T vorhersagen , den nächsten Zug des Spielers i A t + 1 i . Geben Sie die historische Entscheidung der beiden Spieler, so gut wie möglich zusätzliche Informationen, wie das Spiel fortschreitet, oder Matrixfunktion. Der Ausgang ist eine Operation A I Wahrscheinlichkeit. Während der Trainingsphase das Modell der Action - Sequenzen in den menschlichen Spielern in einer Gruppe G Spiel geführt , um die vorhergesagte Sequenz zu beobachten und zu optimieren und testen Sie das Spiel nicht , gehört in G - Spiel mit dem trainierten Modell. Evaluation ist eine Quer Entropieverlust Vorhersagegenauigkeit und wirtschaftlicher Wert. Formal dass make Y T i ∈ {0,1} ist eine Operation , t = 1 ... T i des Spielers , wenn der Spieler die Zeile, vorherzusagen, und 0 stellt die Vertikale. Wenn die Säule Spieler vorherzusagen, 0 und 1 für etwa. Und Y lassen T I ∈ [0,1] ist Y T I Wahrscheinlichkeit = 0. Dann gibt es n-Spieler - Spiel g, die Quer Entropieverlust Modell ist:
Hier hat Bild einfügen Beschreibung
die Vorhersagegenauigkeit Indikator ist der Prozentsatz der korrekten Vorhersage: ist
Hier hat Bild einfügen Beschreibung
, y der Vektor: (Y1i, ..., YTI) , 1 und Y haben die gleichen Abmessungen. Berechnung des ökonomischen Wertes ist:
Hier hat Bild einfügen Beschreibung
die berechnete optti ist:
Hier hat Bild einfügen Beschreibung
es ist die beste Wahl zum Zeitpunkt t i des Spielers. Verlustmodell, Genauigkeit und wirtschaftlicher Wert ist in verschiedenen Spielen wie der Durchschnitt jedes des Zeichens definiert.

4. Das neuronale Netzwerkmodell

4.1 Mehrschichtiges Perzeptron (MLP)

    Das verwendete Papier MLP mit zwei verdeckten Schichten, wobei jede Schicht 512 versteckte Neuronen, wobei jede verborgene Schicht hat eine lineare Aktivierungsfunktion punktweisen Korrektur (relu). Mit zwei Ausgangsschicht Neuronen besteht die Aktivierungsfunktion, softmax die Wahrscheinlichkeit der Ausgabe-Operation eines Spielers. Training mit Dropout Regularisierung wird das Gewichtsverhältnis 0,3, wurde mit Adam Optimierer Studie 0,0002, Batch 64. Diese Netzwerke jeder Eingangssequenz als einziger Vektor, aber nicht die Zeitdimension Daten explizit als seine Eingabe eine einzige Dimension.

4.2 Faltungs neuronales Netzwerk (CNN)

    Neuronale Netze können lokale zeitliche Beziehung zwischen einer kleinen Anzahl von Parametern darstellen. Wiederholen der Spieleinstellungen, die temporäre und partielle Antwortmodenbewegung sein kann an verschiedenen Stellen der Beobachtungssequenz auftreten. Der Betrieb des Spielers und des Gegners in zwei getrennte Kanäle als Eingänge an das Netz und einer Faltung über die Zeit. Artikel verwendet eine Faltungsnetz zwei Schichten, die jeweils 64 5 × 1-Filter, eine 256 volle Konnektivität Schicht neuron Aktivierungsfunktion und relu, eine softmax zwei Neuron der Ausgangsschicht, MLP-Netzwerk mit den gleichen regelmäßigen und Optimierungsmethoden. Der Artikel testeten ebenfalls zwei Eingangs Einkanal CNN, eine Anzahl von Parametern und den gleichen zweikanaligen Modell, das andere der doppelten Anzahl von Parametern wurde die Eingangskanäle zu erhöhen gefunden ist effektiver als die Anzahl von Variablen erhöht wird.

5. Bewertungsergebnisse

5.1 im Vergleich zu einer statischen Prognose

    Die 1a und 1b zeigen die beiden Netzwerktypen (MLP und CNN) und den Verlust der Genauigkeit. Wie man sieht, haben diese beiden Netzwerke gesehen werden Arten als optimales statische Verteilung geringeren Verlust und ein höheres Maß an Genauigkeit. . Wie aus Figur 1c zu sehen ist, ist dieser Vorteil auch in signifikante Unterschiede in der wirtschaftlichen Wert übersetzen: Netzwerk-Modell mehr als 87% des optimalen Wertes erhalten hat, deutlich höher als das 78,3% erhielt die beste statistische Verteilung.
Hier hat Bild einfügen Beschreibung

Abbildung 1: Vergleich der statischen Verteilungen: (1a) Kreuzentropie Verlust, (1b), die Vorhersagegenauigkeit und (1c) wirtschaftlicher Wert der Netzwerkmodelle und die Gleichgewichtsmodelle. Die blaue horizontale Linie zeigt die Leistung der besten statische Verteilung Benchmark und die rote Linie zeigt die Performance des statistischen Benchmark.

5.2 Vergleich der Ergebnisse mit der dynamischen Vorhersage

    Die 2a und 2b, den Verlust an Genauigkeit und CNN und MLP-Netzwerk zeigen, es kann gesehen werden, die alle das neuronale Netzwerkmodell und die Genauigkeit in dem vorausgesagten Verlust an alle Nicht-Netzwerk-Modell überlegen sind.
Hier hat Bild einfügen Beschreibung

Abbildung 2: Vergleich zu dynamischen Modellen und Benchmarks: (1a) Kreuzentropie Verlust, (1b), die Vorhersagegenauigkeit und (1c) wirtschaftlicher Wert der Netzwerkmodelle, die Armierung Learning (RL) und die normalisierten Fictitious Play (NFP) dynamische Modelle, und die Benchmarks von Inertia und die häufigste Aktion in der Vorgeschichte (MF). Die blaue horizontale Linie zeigt die Leistung der besten statische Verteilung Benchmark und die rote Linie zeigt die Performance des statistischen Benchmark (Abschnitt 4.2 für weitere Details).

Hier hat Bild einfügen Beschreibung

Weitere interessante Informationen Scan-Code betreffen BBIT
Veröffentlicht sechs Original - Artikel · erntete Lob 0 · Aufrufe 41

Ich denke du magst

Origin blog.csdn.net/ShenggengLin/article/details/105302550
Empfohlen
Rangfolge