ニューラルネットワークの重複ゲームで人間の相互作用の挙動を予測するために使用|ホットペーパー

1.概要

    人間の参加者の焦点は、ニューラルネットワークの標準モデルからの実験データが正確にプレイヤーの行動を予測するために、行動経済学以上に設定することができることを見出しました。ニューラルネットワークは、高い経済的価値を持つ、予測精度とクロスエントロピーの点で他のモデルよりも優れています。、ただのゲームを入力して利用可能な場合は記事にも、短い配列を証明し、プレイヤーの行動を予測するためのゲームについて、その後の経済の情報は非常に重要です。そして、十分な長ので、入力シーケンスではないという経済的要因は、アクションのシーケンスを示す情報は、ニューラルネットワークの予測を満たすために長い十分な暗示であるネットワークパフォーマンス情報を、改善します。

2.はじめに

    本論文では、反復的なゲームの場合には、人間の行動を予測することはプレイヤーに焦点を当てています。デマンド学習モデルは、比較的これらのモデルは、以前のフィードバックに基づいて更新を達成、フィットされます。しかしながら、これらのモデルは、通常、その予測を更新するために、小さなステップで分布しているので、動画遅い又は準静的分布との間の収束は、個々の選手の動的挙動を予測するのに好適ではないかもしれません。唯一のニューラルネットワークモデルの動作上の1つのゲーム利点をプレイするために。その後、関数の例、同じ機能の固定セットから予め学習とニューラルネットワークは、新しいインスタンスを予測するために使用します。

    この記事の教師付き学習の枠組みでは、トレーニング段階で、ネットワークの入力は時間tの前にゲームの歴史で、出力はプレイヤー時刻T + 1アクションの予測です。最適化されたモデルパラメータの損失関数。使用2×2(ダブルゲーム)評価されたデータセット、データセットは、各ゲームはユニークなナッシュ均衡を持ち、12試合で構成されています。比較するために、具体的なトレーニングゲームから派生確立されたモデルとネットワークモデル、指標とMLP(MLP)と畳み込みニューラルネットワーク(CNN)、そして行動経済学 - の記事は、2つの典型的なネットワークモデルを使用しました標準は、クロスエントロピー損失予測精度と経済的価値です。

3.設定し、予測

    ゲームの平均再現するために、あるn個の選手と仮定。A 私は、私は、Aプレーヤーの空間的な振る舞いを表すT I ∈A 私は私の参加者の行動期間tを表しています。Aは、- 私は(すなわち、A、Iプレイヤ以外のプレイヤの動作を表す- 私は(A = 1、...、。I-1 。I + 1、...、N-を))。U定義I(A I-i他のプレイヤ選択Aかどうかを決定する効用関数の)、- I各選手選択A、Iが演算によって得られた利点を。選択に対応する(2×2)ゲーム・データ・セット内の2人のプレーヤー(プレーヤー行プレイヤーの列)があり、ゲームの固定ユーティリティ関数に応じて繰り返されます。

    各時刻t = 1 ... Tにおける行動のモデリング作業は、プレイヤー私の次の動きを予測T + 1 のIこのようなゲームが進行する、またはマトリックス機能などの2人のプレーヤーの歴史的な意思決定だけでなく、可能な追加情報を入力します。出力は、操作AであるIの確率。トレーニングフェーズでは、グループGの試合での人間のプレイヤーでのアクションシーンのモデルは、ゲームが訓練されたモデルとGの試合に属していない予測された配列とテストを観察し、最適化するために実施しました。評価は、クロスエントロピー損失予測精度と経済的価値です。より正式メークYことTはiが ∈{0,1}が操作さt = 1 ... T選手のIプレーヤが行を予測するため、および0は垂直を表します。コラム予測するプレーヤー、0と1を約表す場合。そして、聞かせてY T I ∈[0,1]はYでT Iの確率= 0。次いで、n型プレーヤゲームGがあり、クロスエントロピー損失モデルは、次のとおり
ここに画像を挿入説明
予測精度指標は、正しい予測の割合である:
ここに画像を挿入説明
(y1i、...、YTI)、yはベクトルであり 、1 およびYは、同じ寸法を有します。経済的価値の計算は次のとおりです。
ここに画像を挿入説明
opttiを計算している:
ここに画像を挿入説明
それはプレイヤーの時刻t iにおける最良の選択です。損失モデル、精度と経済的価値は、異なるゲーム内の文字のそれぞれの平均値として定義されます。

4.ニューラルネットワークモデル

4.1多層パーセプトロン(MLP)

    2つの隠し層とMLP古紙、各層512隠れニューロンは、各隠れレイヤは、線形活性化関数の点別の補正(ReLU)を有しています。二つの出力層ニューロンを有する、活性化関数、プレーヤーソフトマックスの出力動作の可能性があります。ドロップアウト正則を使用して訓練、重量比が0.3になり、アダム・オプティマイザの研究を使用すると、0.0002、バッチ64でした。これらのネットワークの各入力単一ベクトルとして配列ではなく、時間ディメンションデータ明示的に入力として一次元。

4.2畳み込みニューラルネットワーク(CNN)

    ニューラルネットワークは、少数のパラメータとの間の局所的な時間的関係を表すことができます。観察シーケンスの異なる位置で発生することがあり、一時的および部分応答モード運動をすることができるゲームの設定を繰り返します。プレーヤーとネットワークへの入力として二つの別々のチャネルで相手、及び経時畳み込みの動作を制御します。物品は、二つの層、それぞれ64 5×1フィルタ、256完全な接続層ニューロンの活性化関数とReLU、ソフトマックス2つのニューロン出力層を畳み込みネットワークを使用します同じ正規と最適化法とMLPネットワーク。また、試験した2つの入力単一チャンネルCNN、パラメータの数と同じデュアルチャネルモデル、他のパラメータの倍の数であるが、入力チャネルを増加させることが判明した記事では、変数の数を増やすよりも効果的です。

5.評価結果

5.1静的予測と比較

    図1A及び図1Bは、2つのネットワークタイプ(MLPとCNN)及び精度の損失を示します。図から分かるように、最適の静的分布よりも、これら2つのネットワークタイプは、低損失及び精度の高いレベルを有します。図1Cからわかるように、この利点はまた、経済的価値に大きな違いに翻訳:ネットワークモデルはかなり高い78.3パーセントよりも、最適値の87%以上を受け取った最高の統計的分布を得ました。
ここに画像を挿入説明

図1:静的分布との比較:(1A)は、クロスエントロピー損失、(1b)の予測精度、およびネットワークモデルの(1c)の経済的価値と平衡モデル。青色の水平線は、最良の静的分布ベンチマークの性能を示し、赤線は、ランダムベンチマークの性能を示します。

動的予測と結果の比較5.2

    、それは全てのニューラルネットワークモデルと精度の予測損失を、見ることができる図2a及び精度の損失とCNNとMLPネットワークを示す図2Bは、非ネットワークモデルの全てに優れています。
ここに画像を挿入説明

図2:動的モデルとベンチマークとの比較:(1A)は、クロスエントロピー損失、(1b)の予測精度、およびネットワークモデルの(1c)の経済的価値、強化学習(RL)と正規化架空再生(NFP)動的モデル、そして、慣性のベンチマークと既往歴(MF)のほとんどの頻繁なアクション。青色の水平線は、最良の静的分布ベンチマークの性能を示し、赤線がランダムベンチマーク(詳細はセクション4.2を参照)の性能を示します。

ここに画像を挿入説明

さらに興味深い情報スキャンコード懸念BBIT
リリース6元記事 ウォンの賞賛0 ビュー41

おすすめ

転載: blog.csdn.net/ShenggengLin/article/details/105302550