ランダムフォレスト(ランダムフォレスト、RFと称する)とバギングアルゴリズム

ランダムフォレスト(ランダムフォレストと呼ばれるRF

総合学習(アンサンブル学習)法 - ランダムフォレストアンサンブル学習は、決定木の基本単位であり、その本質は、機械学習の主要な枝に属しアルゴリズム統合マルチ木のアイデアを介して行われます。ランダム森林の名称、二つの重要な言葉がありますが、1は「ランダム」で、「森」です。「森」我々はよく理解では、これはランダムな森林での主なアイデアを反映した後、森の木の何百ものが「統合」と呼ぶことができる木、と呼ばれています。

それらのそれぞれは、決定木クラシファイア(現在分類問題、そのために仮定)で、その後、サンプル入力のために、Nの木は、N分類結果を持っています。全ての投票結果のランダムフォレスト分類統合、時代最も投票数が袋詰めを考えた最も簡単なの一つであり、最終的な出力、のカテゴリを指定します。

ランダムフォレスト機能

優れた精度で現在のすべてのアルゴリズムで

これは、効率的に大規模なデータセット上で実行することができます

入力サンプルは、高次元の特徴を有し、次元削減を必要としない処理することができます

分類問題に関する各機能の重要性を評価するために、

ビルドプロセスの間に、内部で生成されたエラー不偏推定値を得ることが可能です

問題のデフォルト値が得られ、非常に良好な結果を得ることができ

統合された学習

統合は、いくつかのモデルの単一の予測組み合わせの確立を通じて問題を解決することを学びます。これは、分類/モデルを複数生成することによって動作し、独立して学習し、予測を行います。これらの予測は、予測を行うために、より良い任意の単一の分類器よりもそのため、単一の最終的な予測に結合され、。

ランダムフォレストは、最終的な分類結果を決定するために、投票の選択意思決定ツリーに依存しているサブクラスの総合学習、です。

ランダムフォレストの生成

多くのランダムフォレスト分類ツリーがあります。私たちは、分類内の各ツリーへの入力サンプルの入力を必要とし、サンプルの入力を分類します。鮮やかなメタファーを行います。森は最終的にはリスやネズミの動物を議論するために会った、各ツリーは独立して、各ツリーを投票しようとする、この問題について自分の意見を表明する必要があります。動物は、ラットまたは投票に従って決定することが最終的にはリス、ある、最も多くの票を受け取った森のカテゴリ分類結果です。フォレスト内のすべてのツリーは、99.9%の予測は無関係な木のカバーすべての場合は、これらの予測が互いに打ち消し合うだろう作られた、独立しています。いくつかの良い木の予測は良い予測を行うために、多くの「ノイズ」から切り離されます。弱識別器の投票の選択肢の数の分類結果、ランダムフォレスト袋詰めの考え方である強識別器を構成するようになっています。

木で、私たちは分類することができ、かつフォレスト内のすべての木は、それを生成する方法ですか?

各ツリーには、次の規則に従って生成されました:

1)各ツリーのサイズNのトレーニングセット、ランダム置換、及び木のトレーニングセットとして、N個の学習サンプル(このサンプリング方法は、ブートストラップサンプルと呼ばれる)の訓練セットそこから抽出される場合、各ツリーのトレーニングセットは異なっており、その繰り返しの訓練サンプルが含まれています。

2)各試料の特性寸法はM、<< M、M個の特徴Mのランダムに選択されたサブセットは、最適なm個の特徴から選択された各分割ツリーからの特徴指定定数mである場合の;

3)各ツリーの成長、無剪定の最大の広がりを有します。

二つの要因とランダムフォレスト分類結果(エラーレート):

フォレスト内の2つのツリーの任意の相関関係:大きな大きな相関、エラーレート;

それぞれの木の森の分類能力:すべての木の分類能力は強力である、フォレスト全体の低エラーレート。

増大mは、両方も増加; M、相関および分類ツリー容量はそれに応じて減少する請求選択の数を減らします。だから、重要な問題は、一つのパラメータのみランダムフォレストで最高メートル(または範囲)を、選択する方法です。

バッグ誤り率(OOBエラー

私たちは、重要な問題は、計算バッグ誤り率のOOB誤差(アウト・オブ・バッグ誤差)のための主要な根拠外にこの問題を解決するために、最適なMを選択する方法で構築するために、上記のランダムフォレストを述べました。

ランダムフォレストは、重要な利点は、クロスバリデーションやエラーが得られ、独立したテストセットの不偏推定を行う必要がないということである持っています。確立の過程で発生したエラーの不偏推定することができ言うことですつまり、内部的に評価することができます。

各ツリーを構築するとき、我々はトレーニングセットのために、別のブートストラップサンプル(ランダム抽出液に置換した)を使用します。したがって、各ツリーの目的のために訓練例の約1/3、(k番目のツリーのために仮定)はk番目のサンプルOOBツリーと呼ばれるk番目の木を、生成に関与しません。

そして、このサンプリング特性は以下のようにそれが計算され、私たちはOOBを推定することができます:

:サンプル単位の順序で)

1)各サンプルについて、そのツリーOOBサンプルとしてツリーの約1/3分類()を計算します。

2)試料の分類の結果として、単純な多数決。

3)最後に、サンプルの総数として誤分類エラー率の数は、ランダムフォレスト誤分類率をOOB。

 

バギングアルゴリズム

バギング方法:また、袋詰めのアルゴリズムとして知られている(英語、ガイド付き集約アルゴリズムをバギング)は、機械学習アルゴリズムを学習のコミュニティです。バギングアルゴリズムが生じるオーバーフィッティングを避けるために、結果のばらつきを低減することにより、他の分類、回帰組み合わせその精度を向上させるためのアルゴリズム、および安定性で使用することができます。

バギング法の汎化誤差は、いくつかのモデルを組み合わせることにより低減されます。主なアイデアは、それぞれ、いくつかの異なるモデルを訓練し、すべての投票モデルの出力のテストサンプルをさせることです。これは、モデルの平均(modelaveraging)と呼ばれる従来の機械学習戦略の一例です。テクノロジーは、この戦略は、統合的なアプローチと呼ばれる使用しています。

基本的な考え方

1.は弱い学習アルゴリズム、およびトレーニングセットを考えます。

2つの弱い学習アルゴリズムの精度は高くありません。

3.学習アルゴリズムは投票に、機能のシーケンスを予測するようになって、複数回使用しました。

4.最終結果の精度が向上します。

アルゴリズムステップ

Mは新しいトレーニングセットとして」Nサイ​​ズディのサブセットを選択する(すなわち、自己サンプリングを使用して)、均一の大きさのN D、バギングアルゴリズムのトレーニングセットが与えられると、交換。Mは、このトレーニングセットの分類、回帰アルゴリズムでは、モデルMがバギングの結果を得るために、同様に大部分を取って、その後平均化することにより、得られるか、またはすることができ

袋詰めのアルゴリズムのプロパティ

グループ分類器を1.Bagging分散を減少させることによって一般化誤差を改善しました。

2.その性能は、基本分類器の安定性に依存して、不安定なベース分類器は、袋詰めヘルプが生じトレーニングデータ誤りのランダムな変動を減少させる場合は、安定した、エラーが分類器によって統合されている場合、主分類バイアス基づいています原因。

図3は、選択された各試料の確率と同じであり、従って袋詰めは、トレーニングデータセットのいずれかの特定の例に焦点を当てていません。

 

おすすめ

転載: www.cnblogs.com/fd-682012/p/12013067.html