신경망 중복 게임에서 인간의 상호 작용의 행동을 예측하는 데 사용 | 핫 논문

1. 요약

    초점은 인간의 참가자에 신경 네트워크의 표준 모델에서 실험 데이터가 정확하게 플레이어의 행동을 예측하는 이상 행동 경제학에 설립 될 수 있음을 발견했다. 신경 네트워크는 높은 경제적 가치와, 예측의 정확성과 교차 엔트로피의 관점에서 다른 모델보다 우수하다. 단지 게임을 입력 가능한 경우 기사도, 짧은 시퀀스를 입증, 플레이어의 행동을 예측하는 게임에 대한 다음 경제 정보는 매우 중요합니다. 그리고 충분히 그렇게 입력 시퀀스가 ​​아니라고 경제적 요인은 행동의 순서를 나타내는 정보가 신경망의 예측을 만날 이상 충분 암시입니다 네트워크 성능 정보를 개선 할 수 있습니다.

2. 소개

    플레이어에이 논문의 초점을 맞추고 반복적 인 게임의 경우 인간의 행동을 예측합니다. 수요 학습 모델은 상대적으로 이러한 모델은 이전의 피드백을 기반으로 업데이트 된 달성 맞게된다. 그러나, 이러한 모델은 일반적으로 그것의 예측을 업데이트하는 작은 단계로 배포됩니다, 따라서 움직이는 속도가 느리거나 준 정적 분포 사이의 융합 개별 선수의 동적 거동을 예측하기에 적합하지 않을 수 있습니다. 단지 신경망 모델의 동작을 통해 하나의 게임의 장점을 재생하십시오. 다음 함수 예컨대, 동일한 기능의 고정 세트로부터 사전에 학습 및 신경 네트워크는 새로운 인스턴스를 예측하기 위해를 사용한다.

    이 문서의지도 학습 프레임 워크에서, 트레이닝 단계에서, 네트워크는 입력 시간 t 전에 게임의 이력이다 출력 플레이어 시간 t + 1 작업 예상된다. 최적화 된 모델 매개 변수 손실 함수. 데이터 세트 평가를 사용하여 2 × 2 (더블 게임), 데이터 세트는 각 게임에 고유 한 내쉬 균형을 가지고, 12 개 게임으로 구성되어 있습니다. 비교하기 위해 특정 훈련 게임에서 파생 설립 모델과 네트워크 모델, 측정 값 MLP (MLP) 및 길쌈 신경 네트워크 (CNN), 행동 경제학 - 기사는 두 개의 일반적인 네트워크 모델을 사용 표준은 상호 엔트로피 손실 예측의 정확성과 경제적 가치입니다.

3. 예측

    게임의 평균 반복 들어있다 N 플레이어 가정. 플레이어 나 상기 (A)의 동작 공간 나타내는 t I 나타내는 I 참가자 동작주기를 t. ㄱ가 - I가 플레이어 이외의 다른 플레이어의 동작을 나타낸다 (즉, A가 - =를 (A (1). ...하는 I-1. 하는 I + 1. ...하는 N- )). U 정의 I (A I 하는 -i ) 다른 플레이어를 선택하는 경우를 결정하는 유틸리티 함수의 - I는 각 플레이어 선택하는 I의 이득이 동작에 의해 수득한다. 에 대응 한 (2 × 2) 게임 데이터 세트에서 선택된 : 게임 고정 유틸리티 함수에 따라 반복되는 두 플레이어 (플레이어 행과 플레이어의 열)이있다.

    각 시간 t = 1 ... T의 행동 모델링 작업은 플레이어 I (A)의 다음 움직임을 예측 t + 1 전을 . 같은 게임 진행, 또는 매트릭스 기능과 두 선수뿐만 아니라 가능한 추가 정보의 역사적 결정을 입력합니다. 출력은 동작 A는 I의 확률. 훈련 단계에서 그룹 G 게임에서 인간 플레이어의 액션 장면의 모델을 관찰하고 예측 순서를 최적화하고 게임이 훈련 모델 G 게임에 속하지 않는 테스트 실시했다. 평가는 크로스 엔트로피 손실 예측 정밀도 경제적 값이다. 더 형식적 메이크업 Y 것을 T ∈ {0,1}의 동작 t = 1 ... T, 플레이어가 행을 예측하고, 0 수직을 나타내는 플레이어 나. 열 선수가 예측되면, 0과 1에 대해 나타냅니다. 그리고 Y하게 T I를 ∈ [0,1] Y이고 T I의 확률 = 0. 다음에 n 플레이어 게임 g있다 크로스 엔트로피 손실 모델은 :
그림 삽입 설명 여기
상기 예측 정밀도 지표가 정확한 예측의 비율 :
그림 삽입 설명 여기
y는 벡터이다 (y1i, ... yTi) , (1) Y는 동일한 크기를 갖는다. 경제적 가치의 계산은 다음과 같습니다
그림 삽입 설명 여기
optti 계산되는 :
그림 삽입 설명 여기
그것은 플레이어의 난 t에 시간에 최고의 선택입니다. 손실 모델, 정확성, 경제적 가치는 다른 게임 캐릭터의 각각의 평균으로 정의된다.

4. 신경망 모델

4.1 다층 퍼셉트론 (MLP)

    두 숨겨진 레이어 MLP 사용한 용지, 각 층 (512) 숨겨진 뉴런 각 은닉층 선형 활성화 함수 점별 보정 (ReLU)을 갖는다. 두 출력 뉴런 층을 갖는 활성 기능 플레이어 softmax를 출력 조작의 가능성이있다. 드롭 아웃 정규화를 사용하여 교육, 중량비는 아담의 최적화 연구는 0.0002이었다 배치 (64)를 사용하여, 0.3가된다. 이들 네트워크 각각 입력 단일 벡터로 시퀀스 아니라 시간 차원 데이터로서 명시 적으로 입력 단일 차원.

4.2 콘볼 루션 신경망 (CNN)

    신경망 파라미터 소수의 로컬 시간 사이의 관계를 나타낼 수있다. 관찰 시퀀스의 상이한 위치에서 발생할 수있는 임시 부분 응답 모드 동작을 할 수있다 게임 설정을 반복. 플레이어와 네트워크 입력으로 두 개의 별도의 채널에서의 상대 시간에 걸쳐 컨볼 루션 연산. 기사 길쌈 두 네트워크 레이어를 사용하여, 각각 5 × 64 1 필터 256 전체 연결 층 신경 활성화 기능 ReLU하는 softmax를 두 개의 출력 뉴런 층 같은 일반 및 최적화 방법에 MLP 네트워크. 물품은 또한 다른 파라미터 수의 두 배는 입력 채널이 증가하는 것으로 변수의 수를 증가시키는 것보다 더욱 효과적이다 하였다이며, 두 개의 입력 단일 채널 CNN, 파라미터의 수와 동일한 듀얼 채널 모델을 시험 하였다.

5. 평가 결과

5.1 정적 예측에 비해

    도 1a 및도 1b는 두 가지 유형의 네트워크 (CNN 및 MLP) 및 정확도의 손실을 나타낸다. 알 수있는 바와 같이, 최적의 정적 분포보다 이들 두 유형의 네트워크는보다 낮은 손실 및 높은 수준의 정확도를 갖는다. .도 1C로부터 알 수있는 바와 같이, 이러한 장점은 경제적 가치의 큰 차이로 번역 : 네트워크 모델이 상당히 높은 78.3 % 이상, 최적 값의 87 % 이상을 수신 최상의 통계적 분포를 획득.
그림 삽입 설명 여기

도 1에 비교 정적 분포 (1A) 크로스 엔트로피 손실 (1B) 예측 정밀도 및 네트워크 모델과 평형 모델 (1C)의 경제적 가치. 파란 수평선은 최고의 정적 분배 벤치 마크의 성능을 나타내고, 빨간색 선은 임의의 벤치 마크의 성능을 나타냅니다.

동적 예측 결과와의 비교 5.2

    도 2a 및도 정확성과 CNN과 MLP 네트워크의 손실을 보여 2B, 신경망 모델과 예측 손실 정확도의 모든 비 네트워크 모델의 모든 우수하고, 볼 수 있습니다.
그림 삽입 설명 여기

도 2 : 비교 동적 모델과 벤치 마크 (1A) 크로스 엔트로피 손실 (1B) 예측 정밀도 및 네트워크 모델의 (1C)의 경제적 가치의 강화 학습 (RL) 정규화 허구 재생 (NFP) 동적 모델 및 관성의 벤치 마크 및 이전의 역사 (MF)에서 가장 빈번한 작업입니다. 파란 수평선은 최고의 정적 분배 벤치 마크의 성능을 나타내고, 빨간색 선은 임의의 벤치 마크 (자세한 내용은 4.2 절 참조)의 성능을 나타냅니다.

그림 삽입 설명 여기

더 흥미로운 정보 스캔 코드의 우려 BBIT
출시 여섯 개 원래 기사 · 원의 칭찬 0 · 조회수 41

추천

출처blog.csdn.net/ShenggengLin/article/details/105302550