ASE高度なソフトウェアエンジニアリング最初のペアプログラミング

問題定義

問題定義

鄒衍は先生のブログは、ゲームを持っている:イノベーションのタイミング-黄金のポイントゲーム

Nプレーヤは、サーバに提出(0または100を除く)0から100の間の各書き込み一つまたは二つ有理数は、サーバは、次に、いわゆる(0.618を乗じ、現在のラウンドの終了時にすべての数値の平均値を算出しますゴールデン定数)は、Gの値を取得します。G最も近いプレイヤー数(絶対値)が提出-Nを取得し、Gプレイヤーから最も遠い他のプレイヤーにポイント-2、0点を取得します。参加したときにのみ、一人のプレイヤーはポイントを獲得しません。

難しい問題

  • 他の人の戦術を知ることは困難、情報のみを使用することは困難であるか、特定の金のポイントの歴史的価値によって推定することができます。
  • まず、ゲームのビュールールの観点から、リターンゲームでの勝利は、離れた金選手から最も遠い点が2点をダウンバックルします(プレイヤーの割合た数に相当)非常に高く、損失のリスクは、ゲームを感じて、素晴らしいではありませんメカニズムは、リスクテイクを奨励するが、近くの金への「冒険」は非常に困難だったときにどのように変化するの劇的なポイントに金の値を予測します。
  • 困難スコアがどのように信頼性の高い、スコア難易度の多くを獲得するためにボットの唯一の最も正確な予測ように勝者はすべてのルールを取ります。

モデリング手法

動機とアルゴリズムの紹介

オンライン部屋を開くためにゲームをテストするために組織し、いくつかのグループの下で、我々は金の予測値の次のポイントとして、過去5つの黄金のポイントのデモ平均を使用すると、非常によくやったことが判明している間私たちは、黄金のポイントゲームシリーズ予測問題に類似感じますデモを強化学習を失っていない、私は直感的に、我々は良いRNNはそう、平均予測手段を取る方法よりも優れていることを学び、この問題を解決することができるかもしれ感じ系列予測で通信の問題のように感じますこの問題を解決するためのLSTMでpytorchの使用に関する。

曲線曲線自体を処理系列予測問題などの問題が非常に重要な値とその変化率であるので、我々は、入力の二種類を選択し、入力シーケンスとして過去の第一の入力モード選択K金色のポイント値、過去K黄金点時間差の第二の入力モードの選択は、すなわち、k-1個の差分値が数値1と数値2二の予測値を取得するための入力として、我々は、このような予測方法は、より良い結果を得ることができなければならないと感じています。

フローチャート

  • プロセスの開始

  • ビジネスプロセスの強制部門のための最初のテストの後

いくつかの他のアイデア

マルチプレイヤーゲーム理論における黄金のポイントゲームは数が少ない、と選手の数が少ない傾向があるので、それほど多数の点は、金の動向に影響を与えることができるので、あなたはルールを活用することができて、2つの数値を提出することが許可されています適切別のスコアの可能性を増加させるためにそれらの数を増加させながら、摂動多数。

外乱の決意がゲームプラスバイアスの結果と同等であるので、まず、外乱は、ランダムであるべきで、他のプレイヤーに干渉しません。

単純なアイデアは、(最大許容)99に設定されている番号(番号1)であり、別の数(数値2)プラス0.618 (99 -旧予測値)/(プレイヤーの数 2)は、正確に言えば、数値2ゴールドポイントの値を大きく影響を受けることになりますが、プレイヤーの数が特に少ない時間ではありません無視されるべきです。私は私に妨害これは事前に知られている、ああ、思ったその時、私はいくつかの主導権を取得するために、影響を受けて、この情報を使用し、後で効果が実際に一般的であることが判明することができます。

実際の試験は、外乱は、2つのナンバーワンは、実際には大きな値アウト方法をカット等価に設定されているため、自身をピットに容易であり、そして他のものは少ない金点の数を予測するために比較することを見つけたとき、あなたは赤字が非常に高い得点率であることを確認、しかし失うリスクを増加させたので、別の番号を追加することができない場合は分よりちょうど小さいも常に可能な限りのポイントとして行っていないにもかかわらず、比較的保守の外にすることができます。

結果の分析

最初のラウンドのゲーム

私たちはデモ的変化のロットからなので、私たちの非常にランク付けされ(下から3番目)で見つかった最初の集団の試験結果1000のゲームは、我々は、デモ戦略の乱れを保持し、その後の理由を分析しましたその点の値が大きい金の小さな部分は、私たちのRNNがこの影響を受けなければなりませんがあり、大きな変動曲線があり、予測値はように、1よりもまれ予測値より少ないです、常に大きすぎますゴールドポイントの大部分は、得点と私たちは何の関係もない、このゲームは、私たちのボットの非常に受動的な環境です。

一方、我々は、ボットの多くが使用して発見した0.618を乗じた黄金のポイントを使用し、使用の一等地にスポットを戦略、そのラウンドの多くは、黒現象のオープンサブグループと同じ戦略を使用することが登場しているされていますこのようなグループポリシーを使用せずに各ラウンドでポイントし、この現象の高周波を得ることはありません、我々は参加を破っするしか請求権を持っておりませんので、変更の内数道黄金のポイント上と一緒に他のポイントにボットために0.618を掛けました。

実プレイ

私たちは5位になった公式ゲームが、私はそのような揮発性の高い系列予測のために本当にRNN適していないと感じ、強化学習を使用している上位のいくつかは、良い結果を達成しました。全体的な変動性を見ながら素晴らしいスポット金チャートの形而上学は良い質問を感じるが、よく見ると、このようなピークまたはリバウンドシナリオの継続的な下落は良いグループを行うことが可能であるなど、いくつかの地域の法律が存在するいくつかのラウンドを持っていていますこれらのケースで採用戦略が優れている、彼らはハイスコアを取得することができます。

リフレクションの概要

  • 試合の結果黄金のポイントゲームは、あなたはそれを期待しましたか?

    学生がテストしたプライベートルームを構築している前に、ビューのテスト結果のポイントは、それがテスト事後解析で、結果で取得すると予想、しかし1000ダウンの結果は逆数であるたため、試合の最初のラウンドの結果は、非常に期待に沿ったものではありませんボットは、私たちにポイントを防ぐために、より積極的な戦略を採用し、一部の客室があり、我々は悪い戦略の設計を外乱ので、ゲームの最初のラウンドでのパフォーマンスの低下が生じペナルティポイントの多くは、そこにあります。

  • 公式戦の前に、あなたは、モデルの品質を評価するための戦略の種類を取りますか?

    ボットや他の生徒がレースの前にテストされた、我々は観察し、得点状況。

  • 数字は3に各ラウンドのために提出または競争に参加する複数の参加者を探している可能性がある場合は、あなたの方法は、また、それに適しているのですか?

    私たちはとてもうまく拡張することが、RNNを使用しますが、私たちの観点から、数値モデルの結果は非常に大きな乱れがより良い結果を達成するために保証することはできません影響を受けています

  • パートナーの仕事を評価してください、評価方法は、サンドイッチ法の議論を参照してください。改善のためのパートナーと提案したエリアを双晶。

    私のパートナーは、彼は非常に肯定的、効果的な人々、私は非常に忙しい数日午前ペアプログラミングの運転配置で、彼と私は自分のアイデアを共有し、そしてすぐにデモを完了し、Shengnan_Anです。私たちの最終的なコードもほとんど彼が書かれていたが、私は私たちの問題は、主に一般的なスケジュールの結果だと思う、私は忙しい数日に開始し、小さなパートナーは、数日の後ろに学校に戻って行く必要があるので、もう時間は議論しないようにそれの欠点を分析試験した場合に、より、、急いで行います。時間の問題は本当に見当がつかない、私はジュニアパートナーがエッジにかなりだったと思います。

おすすめ

転載: www.cnblogs.com/QiLF/p/11563920.html