戻る機械学習----(1、機械学習の基本的な問題のいくつか)

1.サンプルバイアスの問題

        バイナリ分類問題にいわゆるサンプルバイアスの問題は、それが両方のカテゴリ内のサンプル数の間には大きな差があります。たとえば、私たちは違反を識別し、我々は、通常、デフォルトの小さな確率を知っているか、あるいはそれらはすべての作業アウトローンを置きます。さて、今回は、トレーニングモデルのサンプル・バイアスの問題、それは百個のサンプルの契約の唯一の違反であってもよく、治療しなければ、ランダムなサンプルは違反ではないかを決定するために、確かに多く、デフォルトしないモデルを決定するために慣れがあるでしょう正解率は99パーセントです。

        この問題は、2つの標本が大きい場合のように、解決するために分割されるべきです。例えば、あなたのデータは十分では、レベルの数十億は、その後、1百万パーセント万人、実際に次のサンプリングすることができ、このレベルでのデータの量です。すなわち、2つのサンプルのバランスので、サンプルの違反が失われることはありません。

        あなたが見つけた場合、作業は、あなたのサンプルサイズが小さすぎるしない、それが唯一のサンプリングに呼び出すことができます。例えば、マルチサンプルデフォルトでは画像が識別される場合、変換はミラーまたは回転させることができ、数回繰り返します。ケースの小さなサンプルの機能の喪失は、罰を増加させるように、試料中の努力に加えて、だけでなく、機能の喪失は、変更することができます。

図2に示すように、連続したデータと離散データ

        連続データと離散データは、データ自体に基づいていません、。例えば、同じ変数、価格、およびいくつかのシーンではいくつかのシーンは、離散変数であってもよいし、連続可変であってもよいです。この理由は、非線形であるの背後にある連続した離散変数です。

3、ハッシュスキルクラス特性

        一般的に、自然言語処理で使用されます。例えば、あるシソーラス離散、に従い文は、非常に長い0,1ベクトルになりました。私たちは、それはバッグのシリーズになりそうという、言葉の辞書は意味があることを知って、そして話題の語彙が一緒に、バッグになる、との言葉のこのベクトルに属する袋の数に関する統計情報と機能の数。これは、ハッシュのスキルと呼ばれています。

アクション4、クロス検証セット

       クロスバリデーションセットパラメータ/モデル選択、モデルだけで効果の評価試験セットを行います。

kはクロスバリデーションと呼ばれる方法を有し、トレーニングセットは、評価残り、各トレーニングモデルパーツを、K-1が選択されるK個の部分に置くとされています。そして、k個の評価を取得し、意味ですか、あなたはトレーニングセットの効果を得ることができます。モデルを変更し、最終的には良いモデルとパラメータを取得します。

        アウトセットの最後のテストでは、最終的なモデルを評価するために使用されます。しかし、少し注意、財務データ、それらのほとんどは、このメソッドを使用していないがために、財務データの自然の恒常性ではない、そこにあります。

図5に示すように、モデルバイアスと分散検証方法

        いわゆるバイアスは、バイアスモデルは、分散モデルの分散です。

        横軸上にサンプルの数です。正解率を確認するためのテストセットの増加に伴ってサンプルの数が収束上に設定されている場合、モデルは、比較的小さい分散です。収束がより満足のいく精度の場合、このモデルは、同じだけのマップの右下隅の上に、より完璧であり、精度の低い程度の収束が、ちょうどトップのようなマップの角を左にあれば、その状況はバイアスと呼ばれています。したがって、この右上のように、トレーニングとテストセットが同じ精度に収束せず、最終的にはそこに大きなギャップ精度が両方とも高精度であっても、常にあるので、このような状況は、分散を持っているのであればこの図。

        理論的には、我々はトレーニングモデルが引き出すためにそのような図の上に置くことができます行ったとき、あなたは我々のモデルは状態の一種であるか知ることができます。

6、過剰適合とどのようunderfittingを行うには

        より多くのサンプルの検索を過剰適合又は投げ縄のように、正則化因子を増加させることは典型的な例です。Underfittingあなたはより多くの機能を見つけることができます。

7、悪いケース分析

        プロセスを構築するモデルは、どのサンプルモデルを見る、ある悪いケース分析の必要性がミスを犯し、そしてあなたは理由がビジネスから来て、その後、補正モデル解析できるならば、参照してください。ただし、財務データは、この問題は、悪いケース分析に方法はありません持っている、本質的に不合理な金融市場、主観悪いケース分析は、すべての後に、モデル上の任意の進歩を持っている人を渡すために、人間そのものが難しいです知りません。

 

公開された205元の記事 ウォンの賞賛236 ビュー980 000 +

おすすめ

転載: blog.csdn.net/qtlyx/article/details/89218197