農業野生方法コードシリーズ(6)検証の考察は、関連する行を選択するように設定されています

最近、小さなパートナーは、IEEE-CISを果たしているの周りには、タイミングの問題の多くの場合、「地震」として、kaggleに自然に多くのことを設定し、検証を選択する方法について議論を行いました。検証は、フライラインを選択するために正確にどのようにダウン設定されていますか?この問題では、私はたくさんのことについて考えてきた、そして今、あなたと一緒にいくつかの洞察を共有して議論を開始します。

 

まず第一に、我々は意味がイエスの検証セットを選択しているかを知る必要があります。テーブルの問題をやって、多くの場合、競争に参加の人は5CV、精力的にLGBのうち奇跡、との休日の破壊を設定することが非常に慣性することができます。時系列クラスならば、あなたは、一日または検証ように訓練とのために他の期間を同様の期間を見つけることができます。非常に頻繁にこれは直感や習慣に基づいて、そして何のハードと高速真実はありません。しかし、プライベート思考、物事はそう単純ではありません。

 

試験をどうする場合たとえば、その後、我々は問題セットを研究するために使用されるように設定する訓練が答えを持っています。検証は、シミュレーションの論文のように設定し、テストは試験の最終セットです。それは多くの場合、設定された有効検証はタイトルが半分に成功した、と検証セットの誤差が離れ極を意味していることを意味し、一般的です。

 

ほとんどの問題のために、我々は通常、訓練データとテストデータが(IID)の独立同一分布を満たすことをデフォルトの仮定を持っています。そのトレーニングデータとテストデータは、このように、我々は彼らの強さを試してモニフアンの別の部分として、学習に設定し、問題のランダムな部分を十分に大きく取ることができているデータの量で、同じ2本の論文についてですシャッフルと進化train_test_split及びKつ折り(成層K倍)の最も一般的です。

 

検証セットを選択するときではなく、すべての問題は、のように単純で、粗することができ、我々は、少なくとも3つの質問を考慮する必要があります。

(1)私たちは、データが何に基づいて分布と同じであると仮定しますか?

(2)私たちは、訓練を通じてモデリングどのような情報を知りたいですか?

(3)モデル(漏れ)を漏らさないためのトレーニングには何ですか?

この三時00分に基づいて、我々は主に、すなわち、ライン検証のセットを作成するために、3つの異なる方法を使用します。

K-つ折り(1)シャッフル/層状Kつ折りと

(2)シーケンスセグメンテーション(例えば、時系列などのいくつかの点ナイフカットで)

(3)グループK-つ折り

次は、このような理解について話を個人的です。

 

K-つ折り(1)シャッフル/層状Kつ折りと

グレードの膨大な数は、学生たちは、学生(テストセット)のグループを吸っていると仮定すると、いくつかの家族は、その結果を知りたいです。私たちの仮説は、すべての生徒の成績は、これらの学生は、標本分布と、この外で、正規分布に従うということです。だから我々は、それは簡単ですが、訓練中の学生や、テスト・セットの残りの部分を分割したいです。私たちは、検討します。

1)すべてのデータが同じ分布から導出されます。

2)サンプル上の同じ)十分な(大量ではなく、多くの異なる効果は、情報モデルを学習することができます。

3)基本的な情報開示の問題が存在します。

この場合、我々は、すべてのデータが同じ分布から導出されるので、そのデータの学習については、我々は全体の情報の分布を推定するためにサンプリングできるようになるので、シャッフルとK倍使用します。そこで、私たちは配布に問題があることを保証することができ、クロスバリデーション(相互検証)を使用して、大幅に学習モデルには影響を与えません。私たちのサンプルシャッフルランダム性を示し、この検証は非常に有効です。正と負のサンプルの極端な不均衡の場合には、我々はすべての状況を折る負のサンプルを回避するように、正のサンプルは、モデル化するために学習していることを確認するために層状K倍使用する必要があります。

そこで、我々は、ライン上の検証セットを行う(好ましくはテストセットの等量)学生のランダムなグループを描画します。

 

(2)セグメント化配列

私たちは学生のグループがあるとし、データの最後の数週間のクラスで眠りに落ちる、我々は、彼らが来週うとうとでしょうどのような状況の下で予測します。私たちの仮説は、学生毎週の行動は(サイクルで繰り返される)、安定した繰り返しであるということです。しかし、一週間以内に、彼らの行動は、月曜日はより疲れになるなど、毎日同じではないかもしれないが、金曜日はようにより励起され、かつます。私たちは、検討します。

1)各サイクルの分布と同じ(周縁部)であるが、分布は、各サイクル(日および日)以内に異なっています。

2)モデルは、完全なサイクル(月曜日から日曜日まで)に情報を勉強します。

3)サイクル間で情報)が今週と来週(漏れてはなりません。

この場合は、上記の3つの点に基づいて、我々は、一般的に、これらの3つの要件を満たすためにスライスためだけの時間で、時間セグメンテーションを使用します。

K-フォール何が起こるかとシャッフル場合は?まず第一に、私たちはモデルが一つの完全なサイクルのすべての情報を学ぶことができることを保証することはできません。さらに、データの量は、これを達成することが保証できたとしても、次のメッセージのようなシャッフルの存在は、漏洩につながる、その逆の周期で混合し、そしてします。照合スコアは、ラインモデルの次のセットに高くなりますが、長さの差を行う。「良い結果」ので、モデルが実際に何かを学んだのではなく、情報開示につながるためです。

そこで、我々は検証セットとして先週保持するように選択することができます。

 

(3)グループK-つ折り

学生の5つのクラス、クラス間の不均一なレベルはあなたのグループ、いくつかの履歴情報第二のクラス、3クラス、クラス五、学生のあなたの次の試験の点数に4つのクラスの予測に、そこにあると仮定します。私たちの仮説は、5つのクラスの分布が同じではありませんが、が、学校のテストの点数Paのパターンは常に同じであるということです。

私たちは何が起こるかとシャッフルを使用している場合はK倍?平均強度のグループ特に強い場合は、3人の交代特に弱いながら、私たちは、このフィーチャクラスが重いコンポーネントを占めることになる見つけるモデルの4つのクラスが、ラインように、明らかにオーバーフィッティングにつながる可能テスト・セットを、見たことがなかっただろう膨張、オンラインクラッシュの下で。ここでは、グループK-フォールドを使用する必要があります。

グループK倍以上説明するのは難しいが、また、比較的新しい、早期sklearnと、この機能を持っていないように見えました。それはあなたが1つのまたはいくつかの機能を指定することができ、そしてこれらの機能は、アイソレーション特性値を達成するために、つまり、各フォールド間で値を保証するものではありません。

あなたがグループにクラスを指定した場合、その後、関連するコンテンツのグループのすべてがでフォールドに表示され、あなたは内の他のフォールドのグループについては何も見つけることができません。言い換えれば、あなたはフォールドのグループの分離に情報を置きます。

ときに我々はグループがそれをK倍必要になりますか?我々は考えるとき:

1)すべてのデータ自体は、必ずしも同一(3つのシフトの群が異なる)分散が、いくつかの下地パターンの背後に同じであるれていません。

2)モデルのコンテンツやモード間でグループのいくつかは(クラスに限定されないことを学ぶため)。

3)異なる開示間のグループ情報は、()は、3つのシフトの群といけません

グループこの機能は一般化されていないとして、グループ(クラス)に使用されるマスキング機能を使用してK倍。このモデルは、そのような情報は、それが一般化することができる、貴重で、機能(鉱業学校ペンシルベニア州)間でその情報を学びます。

 

すべてのすべてで、選択されたセットはラインの下の非常にカジュアルなものではありません確認してください。これは、データ自体に依存し、構成しており、私たちは、情報がデータによって搬送されたことを想定しています。そのため、信頼性のオフライン検証セットを確保するために、我々はまだする必要があります - ああEDAを行います!

 

おすすめ

転載: www.cnblogs.com/silence-gtx/p/11600599.html