ASE高度なソフトウェアエンジニアリング最初のツイニング操作

ゴールドポイントゲームボット

報告に来てBot8

1.問題定義

A)問題の説明

  • その後、0.618(いわゆる黄金の定数)を乗じ、サーバーに送信、サーバは現在のラウンドの終了時にすべての数値の平均値を算出する(0または100を除く)100に0の間の合理的な数あたりの書き込みN選手、 G値を与えました。G最も近いプレイヤー数(絶対値)が提出-Nを取得し、Gプレイヤーから最も遠い他のプレイヤーにポイント-2、0点を取得します。参加したときにのみ、一人のプレイヤーはポイントを獲得しません。

b)は、単純な思考

  • 私はこの質問は、我々はリスクを取るしたくない場合は、結果は0に近いだろうということになってしまいます
  • (これは障害が明らかにオフセット金ポイントの不正な値である出力を参照)ゲームをより面白くするために障害がなければならないことは明らかであるが、乱れが重要です
  • 私たちはしなければならない金のポイントの次のラウンドを予測することです

モデリングの方法2。

A)環境分析

  • ルーム1とシンプルなコンテストで、いくつかのボットを見つけることができた後、金のポイントの変更が大幅に増加の正確な予測の難しさを作るこれ、非常に激しいです
  • 劇的な変化に起因して、その金のポイントは理由なしで表示100または10を検討する前に、考慮が(貧しい人々が最後に、我々は最後の2を使用)5の最大のために十分に小さい金のポイントを、与えられるべきです
  • データを考慮して、データの大きい劇的な変化よりも明らかに大きい小さなデータの値の微妙な変化は、測定のための適切な存在であるべきであるように(例えば、小さな値のセグメントとして、大きな値大別)
  • 外乱のため、外乱上方(50-100)の効果は、フーが容易に切断、下方摂動(出力0)は明らかではないが、明らかであるので、唯一の妨害は、外乱を上向きにする必要があり
  • 連続妨害事実はほとんど影響、環境に迅速に適応するため、他の人の戦略が存在しますので、

B)選択モデル

  • アシスタントのプロンプトが表示されたら、我々は正しい戦略を選択しようとすると、非機械学習アルゴリズム、Q学習、DQNで直接比較を行いました
  • まず、ポリシーを妨害しようとすると、干渉の目的は、正しいモデルを学習する他の機械学習アルゴリズムからの干渉であり、20干渉10回、10回の連続した各干渉5回、各ラウンドの各連続ラウンドのための特定の戦略が存在する干渉、干渉がない、ランダムポアソン分布であります逐次干渉
  • 我々は他の人が干渉しないことを前提と干渉の下で黄金のポイント、干渉を予測しながら、金のポイントの値を取得
  • 以前の環境分析に基づいて、我々は状態が我々の状態の表現に特性など、最近の金の抽出点が問題の核心であるか、前の図の多くを保存する必要はありません知ることができ、
  • デジタルが少なく機能であるので、私たちはDQNの役割はあまりされませんが、モデルの列車速度に影響を与えるだろうと信じています
  • 最後に、我々は、Q学習を考えます
  • 残りは、アクションあり、そして黄金のポイント* 0.618の黄金のポイントを、持っている最初の、胡して、他の人の干渉を削減するために試してみて

C)Q-学習入門

  • 動的計画法と同様に、状態と状態遷移が存在し、転送状態生成されたスコアがあるでしょう、私たちの目標は、状態遷移表を学ぶことです。
  • 私はその後、アクションがフィードバックを持っている必要があり、私たちはあなたがこのような状態が発生した次の時間を使用する傾向がどのアクションを知らせ、それを学ぶことを望んでいました。
  • 具体公式: NewValue = CurrentValue + lr * [Reward + discount_rate * (highestValue between possible actions from the new state s’) — CurrentValue]

d)の実装の詳細

  • グッド事前研修モデル、事前にロードされ、瞬時にモデルを保存することができ
  • 干渉は、干渉の確率を高めるためにされていない場合、この試合は、干渉を抑制する場合試合後試験、無作為に選択干渉干渉の確率、及び干渉後
  • できるだけ早くモデルの形成にQ学習の独自のラウンドの一部を取り除くゴールド干渉
  • それだけ(前記環境分析における理由で)状態に変換するために大きなセクション100を減少させる、前のポイントとの間の差とセル間の増幅によって現在ゴールデン点を考慮した状態を示しています
  • 黄金のポイントに加えてアクションストラテジーは、黄金のポイントは* 0.618、カット外部からの干渉胡主席はまた、追加のプラスまたはマイナス(0.001、0.011と始まる最後に、実際には、少しのような他のボットまたはよりもう少しA)

e)のワークフロー

  • Q学習予測アクションでは、2つの数値を与えるために
  • このターン0.9確率移動ステージとの干渉は、ステージとき干渉(すなわち、クリアされていない場合、干渉は、4つの段階に分け、特に干渉で、各ステージ確率(0.05、0.2、0.4、0.7)は、各ターンに干渉したか否かを判定する干渉の確率は0.05)となるステージ
  • 新しい番号1は、他の人がケースどこに干渉しないという仮定の下で推定しなが​​ら(50-100)は、乱数number2のを交換するとの干渉の場合

3.結果分析

a)に二点
最初のラウンドの点で1690(1000)
サブ13850の第二ラウンド(10000)

b)の体験反射
二つの第一または期待を超え、その結果をv ^ ^良かったと思っていませんでした
実際には、クロスボットに先立って、我々はまた、最終的なとして最高のマルチラウンドで、彼の部屋で独自のボットPKを使用しますボット
あなたは、単に働くことができるアクションを変更することで、3に各ラウンドの数字を提出する場合は、しかし、訓練と時間の効果モデルは罰金であることを
より多くの参加者は、あなたが私たちの干渉のメリットを再考したい可能性がある場合
強制サンドイッチは、我々は彼のチームメイトを非難うCHFが、私は良い(塩辛ポーズ)横たわって、完全に私のプレイせずに、強すぎるスリップのスリップを

おすすめ

転載: www.cnblogs.com/hsuppr/p/11558028.html
おすすめ